不同物种聚集蛋白聚糖基因编码区生物信息分析

2018-12-24 11:50马建青吴占勇孔建军王会旺赵朝晖
动物医学进展 2018年12期
关键词:信号肽同义核苷酸

马建青,吴占勇,孔建军,王会旺,赵朝晖,王 祺

(冀中能源邢台矿业集团总医院动物实验室,河北邢台 054000)

椎间盘组织是脊柱的重要组成结构之一,它以基质为主要结构,细胞散在分布于基质内的结构而存在。研究发现,椎间盘基质内最主要的蛋白质是蛋白聚糖和胶原,它们维持着基质结构和功能的完整性[1]。聚集蛋白聚糖(aggrecan)是椎间盘蛋白聚糖中最主要的一种。

近年来一系列的研究认为,遗传因素尤其是退变基因的多态性在椎间盘退变过程中也发挥着巨大作用[2-3]。Doege K J等[4]在1997年发现椎间盘细胞外基质中aggrecan的变化在退变性椎间盘疾病的发病机制中起重要作用,并提出欧洲人群中编码Aggrecan的第12个外显子的基因序列存在可变数目串联重复序列(variable number of tandem repeats,VNTR)多态性。谭平先等[5]以133例中国南方地区汉族人群Aggrecan核心蛋白基因片段为样本,研究发现可变数目串联重复序列多态性,主要以中等长度串联重复序列出现频率最高。椎间盘退变的动物实验研究方面,谢林等[6]以波尔多山羊(Bordeaux goat)为研究对象,采用反转录聚合酶链反应(reverse transcription-polymerase chain reaction,RT-PCR)法检测了腰椎间盘髓核组织中缺氧诱导因子(hypoxia inducible factor-1,HIF-1)、肿瘤坏死因子-α(tumor necrosis factor-α,TNF-α)、转化生长因子-β(transforming growth factor-β,TGF-β)、核因转录子-κB(nuclear factor-κB,NF-κB)、白介素-1(interleukin-1,IL-1)在退变模型实验组和正常山羊对照组的表达量差异显著。Li IMH等[7]通过转基因小鼠模型和转录因子数据库发现了4种与aggrecan基因表达相关的增强子,并证明聚集蛋白聚糖基因在软骨形成中具有时间和空间的表达差异。由此可见,从分子生物学角度研究椎间盘退变相关基因多态性对揭示退变性椎间盘疾病的发病机制、治疗及预防有重要意义。目前,国内外对aggrecan基因在动物体内多态性和遗传分化研究已逐渐深入,而本研究用生物信息学和比较基因组学的方法研究不同物种种间和物种内aggrecan基因编码区的相关特征及所编码蛋白的理化性质、信号肽和二级结构等,旨在探明该基因在所研究物种种间和种内的遗传分化及所编码蛋白特性,进而为开展相关动物试验、建立脊柱退变动物模型研究提供理论依据和基础资料。

1 材料与方法

1.1 序列来源

所需基因序列从NCBI网站http://www.ncbi.nlm.nih.gov/的GenBank中下载,本研究中分别下载了人、猕猴、白顶白眉猴、牛、家犬、野猪、羊驼、绵羊、雪貂、褐家鼠、小家鼠、灰仓鼠和原鸡共13个物种的50条aggrecan基因编码区序列(表1)。

1.2 方法

用生物学软件BioEdit对已下载的50条不同物种aggrecan的基因编码区序列进行比对分析,选取、编辑共有的编码区序列(长度为5 497 bp)进行比较,再用 DnaSP5.10软件对其进行遗传多态性分析,并生成单倍型,在此基础上计算种间核苷酸歧异度(nucleotide differences,Dxy)与遗传分化系数(genetic differentiation coefficient,Gst)。用软件MEGA5.0的UPGMA方法进行种间聚类分析,构建出所研究物种aggrecan基因的聚类图。分别用在线软件工具ProtParam,SignalP 4.1 Server和PBIL PRABI Lyon Gerland 信息库分析所研究物种aggrecan核心蛋白氨基酸序列的理化性质,并对氨基酸序列信号肽和蛋白质二级结构进行预测。

表1 不同物种aggrecan基因序列来源

2 结果

2.1 不同物种aggrecan基因核苷酸序列特征

2.1.1 不同物种aggrecan多态位点、单倍型及其多样性 不同物种aggrecan基因共50条序列(长度为5 497 bp)中,共发现多态位点3 081个,占所研究基因位点的百分率约为56.0%,其中包含88个单一多态位点,占所研究基因位点的百分率约为1.6%;共发现单倍型22种(表2)。分析显示,核苷酸多样性值为0.016 4,其中雪貂aggrecan基因多态位点数明显高于其他物种,小家鼠aggrecan基因单倍型多样性和核苷酸多样性值较其他物种的值高。

2.1.2 不同物种aggrecan基因遗传分化 所研究的各物种种群间核苷酸歧异度为0.037 5~0.427 9,遗传分化系数为0.000 0~1.000 0(表3),由数据可看出,不同物种间核苷酸歧异度和遗传分化系数的变化范围均较大。依据物种间的核苷酸歧异度构建的分子聚类图可看出,人与猕猴、牛与野猪、家犬与雪貂、小家鼠与褐家鼠的亲缘关系分别较近,虽然灰仓鼠与小家鼠、褐家鼠在聚类图中距离稍远,但是它们来源于同一支,所以三者亲缘关系亦较近,而原鸡与所研究其他物种的亲缘关系最远(图1) 。

2.2 氨基酸序列特征

2.2.1 aggrecan核心蛋白氨基酸序列及理化性质分析 所研究物种的aggrecan核心蛋白氨基酸序列及理化性质用在线软件工具ProtParam (http://www.expasy.ch/tools/protparam.html)进行分析(表4)。结果表明,来自13个物种aggrecan核心蛋白氨基酸序列亲水性值为0.254~0.391,分子质量为221 311.90 ku~250 372.17 ku,理论等电点为4.01~4.26,不稳定系数为44.59~53.92。

表2 不同物种aggrecan基因序列多态信息、单倍型及其多样性

表3 不同物种aggrecan基因核苷酸歧异度和遗传分化

注:左三角为核苷酸歧异度;右三角为遗传分化系数。

Note:The left triangle indicates nucleotide differences; The right triangle indicates genetic differentiation.

图1 根据物种间aggrecan核苷酸歧异度构建的聚类图

2.2.2 信号肽预测 信号肽通常位于蛋白质的N末端,用于指导蛋白质的跨膜转移和定位,是引导新合成的蛋白质向分泌通路转移的短肽链。因此,信号肽的预测可初步判断所研究蛋白质是否为分泌蛋白[8]。用在线软件SignalP 4.1Server 分别对13个物种的aggrecan核心蛋白氨基酸序列进行分析,发现所研究物种的氨基酸序列的C值、S值和Y值在信号肽区域均较高,提示序列中含有信号肽,该蛋白为分泌蛋白(图2)。同时发现,所预测的13个物种aggrecan核心蛋白氨基酸序列的信号肽裂解位点不一致,除小家鼠、雪貂和原鸡的aggrecan核心蛋白的信号肽在第19~21个氨基酸位置裂解外,其余10个物种的aggrecan核心蛋白的信号肽在第16~17个氨基酸所在位置裂解(表4)。

A.人aggrecan核心蛋白信号肽裂解位点在第16~17个氨基酸位置;B.原鸡aggrecan核心蛋白信号肽裂解位点在第20~21个氨基酸位置

A.Homosapienssignal peptide hydrolysis site of aggrecan core protein between 16-17 amino acid; B.Gallusgallussignal peptide hydrolysis site of aggrecan core protein between 20-21 amino acid

图2 信号肽预测

注:表中第十列“信号肽裂解位点”中阿拉伯数字代表氨基酸序列位置。

Note:The Arabic numerals indicate the position of amino acid sequence of the tenth column “signal peptide hydrolysis site” in table.

2.2.3 蛋白质二级结构预测 蛋白质作为生物体内重要的高分子之一,对于机体正常功能的维持至关重要。蛋白质自身结构与其功能和它们在生物体内发挥的作用密切相关。因此,对于蛋白质二级结构预测成为分子生物学领域的研究重点。本研究用PBIL PRABI Lyon Gerland 信息库对不同物种aggrecan核心蛋白的二级结构进行了预测。分析发现,该蛋白主要以无规则卷曲、延伸主链和α-螺旋形式存在,其中无规则卷曲所占比例为59.84%~69.14%,其次是延伸主链,所占比例为23.56%~30.06%,α-螺旋所占比例为5.70%~10.10%(表4),未发现其他二级结构。

2.2.4 不同物种aggrecan基因密码子偏爱性 用DnaSP5.10软件计算所研究各物种aggrecan基因序列编码区中密码子有效值(effective number of codons,ENC)为55.736(<61), 偏爱指标(codon Bias Index,CBI)值为0.199,在零值以上,经χ2检验,计算得到未校正的χ2值为0.128。上述数值说明aggrecan基因对密码子有较强的偏爱性[9]。

2.2.5 不同物种aggrecan基因的同义替换和非同义替换 不同物种的50条aggrecan基因序列编码区中发现1 354.54个同义替换平均位点数,3 886.46个非同义替换平均位点数。研究显示同义替换位点数范围为1 277.33~1 383.67,同义替换核苷酸多样性均值为0.195 59;非同义替换位点数范围为3 862.22~3 963.67,非同义替换核苷酸多样性均值为0.152 45。由数据发现,所研究物种aggrecan基因的非同义替换位点数均明显高于同义替换位点数。

3 讨论

3.1 不同物种aggrecan基因核苷酸特征分析

从所研究物种aggrecan基因序列多态性信息、单倍型及其多样性数据得出各物种的遗传相关参数(多态位点数、单倍型多样性等)存在差异,表明aggrecan基因在种群间存在遗传变异,aggrecan基因序列编码区在种内表现相对保守,种间则表现有较丰富的遗传多样性,数据显示出aggrecan基因在一些物种间,如人与猕猴、白顶白眉猴,家犬、褐家鼠与灰仓鼠之间比较保守。雪貂与野猪aggrecan基因多态位点数值较高,小家鼠aggrecan基因多态位点数值亦相对较高,同时其单倍型多样性值和核苷酸多样性值在所研究物种中最高,说明上述3个物种的aggrecan基因存在较丰富的遗传多样性。

表3数据显示,不同物种间aggrecan基因核苷酸歧异度和遗传分化系数的变化范围均较大,说明不同物种间aggrecan基因遗传分化较为明显。其中人和猕猴,牛和野猪,家犬和雪貂,灰仓鼠和小家鼠、褐家鼠等4组物种两两比较,它们之间核苷酸歧异度最小,表明其亲缘关系较近。同时表3数据和聚类图显示出小家鼠和褐家鼠亲缘关系较灰仓鼠的更近。通过分析数据进一步发现,原鸡与其他物种的aggrecan基因核苷酸歧异度最大,说明原鸡与其他物种间亲缘关系较远,上述结果与动物分类学相一致。

3.2 不同物种aggrecan氨基酸特征分析

本研究结果显示,聚集蛋白聚糖多肽链表现为亲水性,理论等电点数值均小于7,说明该多肽链为酸性。多肽链的不稳定系数为44.59~53.92,说明aggrecan多肽不稳定。分析13个物种的aggrecan核心蛋白氨基酸序列C值、S值和Y值在信号肽区域均较高,表明该蛋白属于分泌蛋白。虽然所研究的大多数物种的aggrecan信号肽裂解位点在第16-17个氨基酸位置,但是有部分物种aggrecan的信号肽裂解位点存在差异,说明聚集蛋白聚糖基因存在不同程度的遗传分化。该蛋白的二级结构组成为无规则卷曲、延伸主链和α-螺旋,其中无规则卷曲所占比例最高,未发现其他二级结构。

蛋白质在翻译过程中,物种间或物种内的不同基因在密码子的使用上一般都具有明显的偏爱性[10]。本研究也得出aggrecan基因对密码子具有较强的偏爱性。蛋白质在翻译过程中某些碱基会发生一定程度的替换,包括同义替换和非同义替换。同义替换现象的发生大多不受自然选择的控制,同义替换速率远远高于非同义替换速率,且这种现象发生的速率与基因密切相关,这被认为是净化选择的结果[11]。而在某些基因中,非同义替换速率则远远高于同义替换速率,原因在于达尔文的正向选择[12]。本研究结果表明,所选物种aggrecan基因的非同义替换位点数均明显高于同义替换位点数,由此说明,所研究的物种在进化过程中很大程度上可能受到达尔文正向选择的影响。

在脊柱退变的动物建模方面,主要有自发退变模型[13-15]、损伤动物模型[16-18]、诱导退变模型等[19-21],大动物模型和小动物模型都有研究,常见的动物种类有啮齿类大鼠、兔、犬、猪、牛、羊等。本研究通过生物信息学分析发现的不同物种间和物种内aggrecan基因编码区的相关特征及所编码蛋白的理化性质、信号肽和二级结构等,阐明了该基因在所研究物种种内和种间的遗传分化及所编码的蛋白特性,进而为开展相关动物试验、建立脊柱退变动物模型研究提供理论依据和基础资料。对于椎间盘退变基因以及所编码蛋白的差异表达与椎间盘退变的发病关联性有待进一步研究。

猜你喜欢
信号肽同义核苷酸
单核苷酸多态性与中医证候相关性研究进展
徐长风:核苷酸类似物的副作用
until用法巩固精练
Acknowledgment to reviewers—November 2018 to September 2019
西夏文《同义》重复字研究
西夏文《同义》考释三则
运用计算机软件预测木质部寄生属信号肽
烟草野火病菌Pseudomonas syringae pv. tabaci yuexi-1信号肽预测及分析
内源信号肽DSE4介导头孢菌素C酰化酶在毕赤酵母中的分泌表达
广东人群8q24rs1530300单核苷酸多态性与非综合征性唇腭裂的相关性研究