口腔鳞状细胞癌遗传变异数据库

2022-10-29 01:58施雯靖潘贤润吕哲宇詹超英沈百荣
电子科技大学学报 2022年5期
关键词:遗传变异口腔癌鳞状

施雯靖,潘贤润,吕哲宇,詹超英,沈百荣*

(1. 四川大学华西医院疾病分子网络前沿科学中心 成都 610212;2. 成都中医药大学医学技术学院 成都 610075;3. 四川化工职业技术学院数字经济学院 四川 泸州 646300)

口腔鳞状细胞癌(oral squamous cell carcinoma,OSCC)是一种特发在口腔的恶性肿瘤,癌变的鳞状细胞可发生在牙龈、硬腭、舌、颊粘膜、唇等器官,属于头颈部最恶性的肿瘤,超过50%的头颈部癌症为口腔鳞状细胞癌[1]。2020 年,全球范围内口腔癌死亡病例177 757 例(占全部癌症的1.8%),新增病例377 713 例(占全部癌症的2%)[2],而超过90%的口腔癌为口腔鳞状细胞癌[3]。尽管发病率和死亡率从1975 年起有所下降[4],但目前没有针对口腔癌的常规筛查测试或计划,也没有血液测试可以进行诊断,几乎一半口腔癌或口咽癌在首次诊断时已扩散到淋巴结。2006 年,以EGRF 为靶点的西妥昔单抗被FDA 批准用于治疗口腔鳞状细胞癌,是目前唯一可用于口腔鳞状细胞癌的分子靶向疗法[5],西妥昔单抗的有效性与病人的遗传和基因表达谱有关[6]。

烟草和酒精是口腔鳞状细胞癌最强的两个生活习惯相关的风险因素。文献[7]指出,口腔癌的发病风险会随着吸烟时间和每日吸烟频率的增加而显著增加。烟草中发现的许多化学物质会直接破坏DNA,造成生长失控。目前的研究并不确定酒精是否会直接损害DNA,但已经有研究证明,酒精有助于许多破坏DNA 的化学物质更容易进入细胞[8],并且酗酒和大量吸烟的人患口腔癌的风险比不吸烟不喝酒的人高30 倍[9]。遗传突变决定了部分人对某些类型的致癌化学物质进行分解的能力较差,因此他们对烟草、酒精和某些工业化学品的致癌作用更为敏感。文献[6]提出与非OSCC 的头颈癌和其他鳞状细胞癌相比,HRAS 和PIK3CA 是唯一显著突变的致癌基因,并且此类突变的分布在具有不同风险习惯(吸烟、过度饮酒或嚼槟榔)的人群中也是不同的。

2011 年,文献[10]发布了口腔癌相关基因数据库OCDB v.2,包括了374 个基因。但其相关性的可信度不足,数据库中并不能提供明确的报道证实某一基因与口腔癌相关。该数据库的初始版本距今已过十年,数据在此期间没有进行更新。文献[11]建立了哥本哈根口腔鳞状细胞癌数据库,但该研究重点关注患者的临床信息,没有收录关于基因或突变方面的数据,且出于隐私保护的考虑,该数据库并未公开发表。文献[12]于2021 年发表了口腔癌基因组变异数据库dbGENVOC,但其数据仅包括325 名印度口腔癌患者和手动整理出版文献中的118 名患者数据,同时只简单纳入了变异的描述信息,对患者没有任何描述。遗传变异与疾病的关系并不是单一的,在不同的患者间也存在异质性的问题。因此,上述3 个数据库对临床的参考与应用价值有限。对于目前已有的遗传变异数据库,如Clinvar和OMIM,尽管它们包含的疾病种类非常全面,但并未收录研究对象的临床信息,也就无法直接在临床上利用其数据。

精准医疗和数据驱动的第四科学研究范式的发展[13],需要基因组学和临床组学融合的数据。本文通过把碎片性的口腔鳞状细胞癌相关遗传变异与对应的临床信息融合起来,构建了口腔鳞状细胞癌遗传变异数据库(the OSCC genetic variation database,GVDoscc) (http://sysbio.org.cn/GVDoscc)。为 口 腔领域的相关工作者提供了高质量的开源数据集。

1 材料方法

1.1 数据来源

从美国国家生物信息技术中心(the national center for biotechnology information, NCBI)建立的Pubmed(https://pubmed.ncbi.nlm.nih.gov/)数据库使用检索词“(Oral Squamous Cell Carcinoma[ti] OR OSCC[ti])NOT review[ptyp] AND English[LA] AND (1991/01/01[DP]: 2021/7/1[DP])”获取英文非综述类文献6 137 篇,作为本文的数据源。

1.2 技术路线

数据库的收集、搭建流程和功能简介如图1 所示,从Pubmed 数据库获取到口腔鳞状细胞癌的相关文献后,利用PubTator 对全文中的基因或突变进行注释。PubTator 是一种网络服务工具,为基因与蛋白质、遗传变异、疾病、化学物质、物种和细胞系提供来自文本挖掘系统的自动注释[14]。若整篇文章中都未曾出现一次基因或突变的名称,则删去此文献;然后对筛查得到的3 884 篇文献进行人工注释,并对Pubtator 的注释进行二次核查。数据库采用B/S 结构(Browser/Server,浏览器/服务器模式),用户可以通过浏览器直接进行访问,前端网页由html 和JavaScript 完成,后端服务器采用Apache搭建而成,PHP 用于连接后台数据库,数据存储在MySQL 数据库中。用户可以通过在线访问数据库来进行分类浏览或检索自己需要的信息,统计页面也提供了对所有收录数据的整体统计,用户还可以在提交页面上传新数据,经管理员审核通过后,将会被添加进数据库中。

图1 GVDoscc 数据库搭建流程

1.2.1 筛选标准

本研究在文献初筛后,基于人工阅读方式,采用以下纳入和排除标准对文献进行筛选。

纳入标准。1) 在Pubmed 数据库中公开发表的有关口腔鳞状细胞癌遗传变异的流行病学研究;2) 具有临床上确诊为口腔鳞状细胞癌的患者及其对照样本信息。

排除标准。1)评论、社论等不予收录;2)病例报告所包含的样本量太少,不具有普适性,不予收录;3) 综述及meta 分析文章,追溯文中数据来源原文按纳入排除标准处理。

1.2.2 数据库结构

数据库主要由3 张实体表和1 张关系主表(Main)组成,实体表包括样临床样本表(Sample)、参考文献表(Reference)以及变异表(Mutation)。具体描述如下。

样本表:样本编号(Sample ID)、试验对象年龄(Age)、试验对象国籍(Country)、试验人数(Size)、性别(Gender)、样本来源(Source);

参考文献表:PMID(该文献在Pubmed 中的编号)、发表年份(Year)、文献题目(Title)、作者(Author)和期刊名(Journal);

变异表:变异编号(Mutation ID)、变异分类(Classification)、变异名称(Name)、变异位点(Position)、碱 基 变 化(Base variation)、变 异 结 果(Consequence)、基因(Symbol)、基因所在位点(Gene location)、氨基酸变化(Amino Acid variation);

主表:数据唯一的主编号(Main ID)、变异所导致的病理作用(Pathological Function)、临床特征(Clinical Significance)、临床应用(Application)、患者的变异频率(Patient-frequency)、对照的变异频率(Control-frequency)、结论(Summary)。

1.3 生物信息学分析

1.3.1 PPI 网络分析

String 数据库旨在收集、评分和整合所有公开可用的蛋白质−蛋白质相互作用信息来源,并通过计算预测来补充这些信息。String 目前版本为v11.5,已收录人类(Homo sapiens)的19 303 个蛋白[15]。将收录的基因映射到String 数据库中(置信度>0.9),构建了蛋白质互作(protein protein interaction, PPI)网络,并通过Cytoscape 计算节点的度中心性,以降序排列,取前5%为关键基因。Cytoscape 是一个专注于网络可视化和分析的开源软件项目,用于将生物分子交互网络、高通量基因表达数据和其他的分子状态信息整合在一起[16]。

1.3.2 功能富集分析基因本体(gene ontology, GO)是一个在生物信息学领域中广泛使用的本体,包含了生物学领域知识体系本质的表示形式,从基因的分子功能、生物过程和细胞组分这3 方面对目标进行注释[17]。GO可用于系统分析和标注基因产物的功能;KEGG 数据库则是用于分子水平信息,尤其是基因组测序等高通量生成的大规模数据集,来了解细胞、生物和生态等生物系统的高级功能和效用[18];KEGG 的通路数据库可用于系统层次的疾病机制的分析。在数据库构建的基础上,本文对数据库中的基因进行了GO 富集分析(P值<0.05)和KEGG 通路富集分析(P值<0.05,富集倍数>2)。

2 结 果

2.1 数据统计

在经过上述的筛选和整理后,本文共收录了1 020种口腔鳞状细胞癌相关遗传变异,涉及到436 个蛋白编码基因和18 个miRNA 基因,相关临床样本总数为82 863 个。其中,明确标明为男性和女性的分别为44 475 个和15 169 个,具体数据统计见表1。其中,部分样本数据没有注释性别,导致男性样本和女性样本人数之和小于样本总人数。

表1 数据库基本数据统计

根据在原始试验中,该遗传变异参与的正常生物学过程、病理过程及治疗干预药理学反应,将其按生物标志物类型分为诊断、治疗和预后3 类(8%、29%、30%),其中,非单一类型的生物标志物(占诊断、治疗和预后的2 种及以上)共182 个,占33%。

2.2 网页设计

按照数据库的结构和应用需求,本文设计了7 个在线使用的功能模块:网页基本介绍、分类浏览、高级检索、统计结果展示、数据提交、用户帮助和管理维护。

基本介绍:对数据库的内容进行基本介绍,展示引用相关资源、相关数据库和研究机构网址等信息。

分类浏览:用户可根据3 种分类方式(变异类型、临床样本来源、突变的相关基因分类等)对数据进行浏览。

高级检索:用户根据突变名称、数据来源(地点)、基因名称等条件检索需要的信息。

统计结果:主要由遗传变异的分类、频率排前10 位的基因、突变在染色体上分布和临床样本来源的地理位置分布热图组成。

数据提交:用户只需填写4 个条目,包括突变名称、参考文献、联系邮箱和细节,即可提交新数据,其中突变名称与邮箱为必填项。在审核成功后,系统会将新的数据添加进本数据库中。

用户帮助:详细介绍了数据库的操作方式,确保用户能够正确查找到自己需要的信息。

管理维护:对数据库进行更新与维护,更新间隔保持在3~6 个月,在数据更新时,相应的统计也会进行更新。

2.3 生物信息学分析结果

2.3.1 PPI 分析结果

首先将收录的436 个编码基因通过String 映射到PPI 网络中,成功映射了256 个节点与1 085 条关系。通过度中心性,共筛选出了12 个关键基因,如图2 与表2 所示,包括PIK3R1、TP53、PIK3CA、MAPK1、HRAS、AKT1、KRAS、RHOA、MYC、EGFR、RELA 以及NRAS。

表2 关键基因在OSCC 中的功能

图2 口腔鳞状细胞癌相关基因所构成的蛋白质相互作用网络

2.3.2 功能富集分析结果

将收录的基因进行GO 富集分析,得到了549 个生物过程、63 个细胞组分和106 个分子功能。在经过KEGG 通路分析后,得到了118 个相关通路,对上述4 种分析方式的前10 条结果按基因数目降序排列,见表3~表6。

表3 根据基因数目排列的前十位生物过程

表4 根据基因数目排列的前十位细胞成分

表5 根据基因数目排列的前十位分子功能

表6 根据基因数目排列的前十位KEGG 通路

由表3 可见,富集最多在RNA 聚合酶II 启动子转录的正调控(17.59%)上,RNA 聚合酶II 的作用是催化DNA 转录,合成mRNA 及大多数hnRNA和miRNA 的前体;细胞组分:超过30%的基因富集在细胞核(43.43%)、细胞质(37.42%)和细胞膜(32.74%)上;分子功能:富集结果都与结合密切相关,其中蛋白结合(64.14%)上在此次分析中富集的基因最多,牵涉了288 个基因。在经过KEGG通路分析后发现基因显著富集在癌症途径(pathways in cancer)上,并且参与了PI3K-Akt 信号通路和黏着斑(focal adhesion)。

3 结 束 语

基于基因表达模式的分类表明,OSCC 可以分为不同的亚型,文献[19]通过免疫组化发现在不同OSCC 亚型中,EGFR、MTDH 和ERCC1 的表达水平存在显著的差别。文献[20]发现不同的肿瘤亚型对不同类型的疗法存在优先反应[20]。因此,需要高质量的数据库来对患者的免疫状态进行精确判断,本文将Pubmed 中碎片化的结论收集起来,基于1991−2021 年间的334 篇文献中的1 020 条遗传变异数据,构建了一个全面、专业的口腔鳞状细胞癌数据库,对变异进行分类和对样本信息进行归纳。在生物信息学分析后发现,PPI 的关键基因包括PIK3、RAS 家族和基因TP53 等。PI3K 参与的PI3K-Akt 通路,调节了细胞的增殖分化、凋亡等多种功能,在KEGG 同样也被富集,其过度活化与人体肿瘤的发展密切相关[21],早在2006 年就有第一个新型PI3K 抑制剂开始了临床试验[22];RAS基因的突变存在于30%的人类恶性肿瘤中,其功能是调节细胞的分化增殖,被称为细胞信号网络传递中的“分子开关”[23];p53 作为TP53 基因表达的蛋白产物,在人类恶性肿瘤中普遍存在[24],被认为是目前最重要的抑癌基因。GO 分析结果主要富集在细胞的转录和调控、基本组成结构(细胞核、细胞膜、细胞质)上,说明此类基因与肿瘤的发生、发展或转移密切相关。

癌症是复杂的、异质的和动态的疾病,将肿瘤的基因分析与个体生理状态的深度纵向分析(深度表型)相结合是预防、诊断和治疗癌症的关键,而挖掘深度表型首先需要提高诊断的精度[25]。从建模的角度,可以通过对不同的生物标志物进行组合和建模,提高预测口腔鳞状细胞癌的发生和进展的准确性。未来将进一步更新数据库的内容和结构,同时基于数据库建立知识图谱和知识引导的模型,通过结合临床研究、对口腔鳞状细胞癌的基因变异异质性进行深度分析,为临床的精准诊疗提供数据和信息支撑。

猜你喜欢
遗传变异口腔癌鳞状
重视口腔卫生,有助减少口腔癌
关于子宫颈鳞状上皮细胞异常ICD-10编码的建议
端粒酶相关蛋白1在宫颈鳞状上皮病变中的表达*
武汉市园科院“莲基因组遗传变异与表达数据库”数据信息被国家基因库收录
吸二手烟会增加口腔癌风险
口腔癌相关microRNA的研究进展
基于改进遗传变异算子的海岛算法
长期吸烟容易患肺癌吗?
血清鳞状上皮细胞癌抗原联合宫颈液基薄层细胞检测应用于宫颈癌筛查的价值分析
用毛细管电泳检测牦牛、犏牛和藏黄牛乳中β-乳球蛋白的三种遗传变异体