蛋白质相互作用数据库系统的设计与实现

2010-03-26 00:56夏艳军周建军向昌盛

湖南农业科学 2010年15期

夏艳军，周建军，向昌盛

（1.湖南农业大学生物科学技术学院，湖南长沙 410128；2.湖南农业大学理学院，湖南长沙 410128；3.湖南农业大学东方科技学院，湖南长沙 410128）

目前，蛋白质相互作用的研究已经渗入到生物学研究的各个领域，其产生的贡献也在不断扩大，已经成为当前蛋白质组学的一个重要课题[1]。近年来，很多研究者在这方面进行了探索，发现了很多新的大规模高通量检测蛋白质相互作用的方法[2-4]，同时，产生了越来越多的数据。为了加快研究的进程，取得更有效的研究结果，更好地研究生物的机理，蛋白质相互作用研究应不再局限于各种实验技术[5]，可以考虑将生物信息学研究方法渗透其中，故亟需一个易用的数据库系统来管理和分析这些实验数据，提供数据查找和注释，特别是提供数据库分析的平台，方便数据间的比对，从而挖掘有用信息，引导设计相关实验方案等[6]。为此，笔者基于Apache、MySQL、CakePHP开发环境，构建了一个蛋白质相互作用数据库系统，初步实现了上述功能，以期能给相关研究工作提供方便快捷的分析工具。

1 数据库系统的设计

1.1 总体结构设计

数据库系统为基于B/S架构的3层Web系统，由数据存储层，逻辑结构层和界面展示层构成。底层为数据存储层，对应着蛋白质相互作用数据库，由MySQL实现，库中主表的字段结构为蛋白质ID号、蛋白质序列信息、蛋白质关键字、相互作用蛋白质信息、蛋白质物种来源等；中间层为逻辑结构层，由PHP程序实现信息的收集和处理，一方面对用户提交的信息进行处理和筛选，另一方面实现对数据库的实时操作，将得到的数据信息反馈给用户；上层为界面展示层，通过HTML语言编写，该层包含了良好的人机对话界面，用户可通过该层方便地实现对数据库的访问。

1.2 主要功能模块

根据蛋白质相互作用数据的特点，数据库系统主要对高级检索、预测系统、分类统计等3大块进行逻辑设计，查询结果和相关的数据实例在展示层中以页面的形式进行显示。高级检索具有蛋白质查询、蛋白质相互作用查询以及参考文献查询等3种检索方式，方便了用户的使用。利用序列相似性比对原理创建的蛋白质相互作用预测系统，对未知的蛋白质相互作用数据进行预测和分析。分类统计信息用于数据库已有信息的分类和统计，并提供数据下载功能。

1.3 数据来源及规范

随着蛋白质组学数据的快速增长，各类型数据库不断涌现，但这些不同源报道的数据库具有不同组织和结构形式，内聚力贫瘠。这是数据交换和同化过程中的严重障碍。蛋白质相互作用数据的共享既涉及科学数据的交汇、分发、服务和应用环节，也涉及科学数据的采集、加工和处理环节。因此，在构建蛋白质相互作用数据库之前，需要寻找并采用通用的数据格式和规范，对所交换的数据进行预定义和结构化，要求实现蛋白质相互作用数据交换和处理的自动化。蛋白质相互作用数据库采用了3种不同数据格式，分别是XML、FASTA以及PSI-MI TAB Format。

1.4 开发环境搭建

本系统开发使用WAMP组合（Windows+A－pache+MySQL+PHP），即整个系统在Windows平台，以Apache作为Web服务器，使用MySQL作为数据库系统，并使用PHP脚本语言结合CakePHP框架进行开发，能最大限度地实现一个稳定且易扩展的蛋白质相互作用数据库系统。同时，本系统也可以运行于LAMP（Linux+Apache+MySQL+PHP/Perl/Python）组合下。之所以选用在Windows系统下开发，是因为大多数用户使用该OS，有利于本数据库系统的推广与利用。基本组件配置如下，WEB服务器为Apache-2.0.63，数据库为MySQL-5.0.89、php－MyAdmin-3.2.5，脚本语言为PHP-5.2.12、Zend Optimizer-3.3.3，WEB框架为CakePHP-1.2.5，对照数据库系统为BLAST-2.2.19。

1.5 数据表的设计

从不同的层次对数据进行抽象，构建数据模型。在数据抽象过程中，尽量遵守数据库设计规范，比如命名规范，遵守数据库设计的3个范式。通过以上步骤，我们完成了蛋白质相互作用数据库的设计，数据库主要由7个数据表组成:蛋白质表（Proteins）、相互作用表（Interactions）、相互作用蛋白表（Interactors）、物种来源表（Taxonomies）、鉴定证据表（Experiments）、参考文献表（References）、交叉索引表（Dbrefs）。

2 数据库系统的实现

2.1 数据统计及下载模块

本数据库系统根据不同的分类，收集物种、蛋白质、蛋白质相互作用、参考文献等数据，目前系统的记录数分别为:268、20683、60699、3852。用户可以按物种下载蛋白质交互作用的文本文件、XML格式文件以及序列文件。下载的文件都已经进行过压缩，这样极大减轻了服务器与网络的负担，用户下载后，可做各种使用。

2.2 高级检索模块

通过高级检索所得的结果由浏览页面显示，并提供了各数据的基本信息，用户根据显示的页面，全面了解近期已知基因及蛋白质的研究情况。在编号信息处建立了到该数据详细信息显示页面的连接。数据库自动生成新的页面来显示该数据的详细信息。数据库建立完毕后最重要的任务是如何将这些数据库互相关联起来形成数据库网络，最大限度地提高数据库的利用率。因此，良好的检索和统计系统至关重要。数据库系统高级检索实现了蛋白质查询、蛋白质相互作用查询和参考文献查询。

2.3 数据提交模块

用户可以在线上传指定格式的蛋白质相互作用数据。其中CSV文件指的是PSI-MI TAB Format，存放简要的相互作用的信息；XML文件指的是蛋白质相互作用XML标准格式的文件；FASTA文件指的是存放蛋白质序列的FASTA格式的文件。对于不是该格式的文件，需要转换为相应的格式，才能导入到数据库中。上传时，可以分别上传，也可以同时上传多个指定格式的文件，如果提交的文件比较大，则解析入库所需的时间较长。根据网络因素、服务器因素，一般应当将文件分割后再进行导入。

2.4 初步预测模块实现

本数据库系统根据BLAST（The Basic Local Alignment Search Tool）基本原理初步构建序列相似性比较平台，然后通过相似性搜索结果找出蛋白质相互作用数据库中已知的相互作用。独立的BLAST程序有两种格式:一种是命令行的；另一种是允许用户建立自己内部独立的BLAST网页的网络服务。本系统使用基于命令行的格式。蛋白质相互作用预测系统的构建流程如下。（1）准备相似性比对用的FASTA序列文件。从数据库中导出已经收集的有蛋白质相互作用信息的蛋白质序列，转换为FASTA格式，使用统一的蛋白质编号作为序列的标识符。（2）格式化数据库，并进行测试。使用BLAST包中的formatdb命令格式化FASTA序列文件，供比对使用。命令:formatdb－pt－i ppi.fasta-t“Database of Protein-Protein Interaction”-ot。（3）得到用户输入序列。从用户提交的表单中，获取用户提交的序列，将序列保存为临时文件。（4）执行BLAST搜索。使用BLAST包中的blastall命令，将用户的序列与准备好的蛋白质数据库进行比对。命令:blastall.exe-p blastp-i temp/input1.seq-d ppi.fasta-v 100-b 100-m 0-e 10-TT-o out.txt。（4）获得目标蛋白质的相互作用信息。过滤比对结果，获得相符的蛋白质序列的编号，查询蛋白质相互作用数据库，获得相互作用的信息。

3 数据库系统应用实例

3.1 高级检索的应用实例

以军事医学科学院卫生学环境医学研究所张志清博士论文所研究的相互作用热应激蛋白（HSP70）为例[7]，进行检索系统的应用和验证。HSP70属于一系列家族蛋白，可分别以首页的快捷检索、蛋白质和相互作用等3种不同方式在本数据库系统查询HSP，即可得出检索结果（图1）。共检索到HSP家族相关结果26条，包含相关的蛋白质名称、物种来源以及交叉索引。结果分页面显示，每页显示10条，页面显示条理清楚。

图1 HSP检索结果

3.2 预测系统应用实例

3.2.1 PRK2a介绍PRK2a是拟南芥蛋白酪氨酸激酶（Protein phosphatase，Ppase）。蛋白质磷酸酯酶催化磷酸蛋白的磷酸酯键水解而去磷酸化，细胞内任何一种蛋白质的磷酸化状态均由蛋白激酶和蛋白磷酸酯酶的两种相反酶活性之间的平衡决定。蛋白质磷酸化在信号传递中一个非常重要的特点是:对外界信号具有级联放大作用。蛋白质磷酸化与脱磷酸化几乎涉及所有的生理过程，且功能上具有多样性。因而，研究PRK2a相互作用具有重要意义。

3.2.2 PRK2a序列查询通过数据库系统高级检索查询到PRK2a相关信息，从中选择拟南芥PRK2a cDNA作为探针，并根据PRK2a对应的交叉索引分别是SWISSPORT:Q84JQ4，GenBank:NP_178721，DIP:DIP-46187N，可检索到PRK2a的FASTA格式，将其输入到预测框。

3.2.3 预测结果及分析经预测，得到PRK2a蛋白质相互作用预测结果:一是与PRK2a相互作用的蛋白质；二是与PRK2a相似蛋白质及其相互作用的蛋白质。依据Score（bits）和E Value两个指标的最高得分，由高至低依次列出与数据库中相似的前50条序列，表中显示了相似序列的蛋白质名称，以及与其相互作用的蛋白质名称的列表，Score（bits）分值越高、E Value值越低即代表与其相互作用的程度越高，相反则相似程度越低，从而提高了研究效率。结果见图2，由于显示结果较多，仅截图相似度较高的部分信息。

图2 PRK2a预测部分结果

通过PRK2a序列实例在本数据库系统中的预测系统进行序列比对，通过精确同源性的分析，以及本系统的多次测试可以表明，预测系统实现了蛋白质相互作用的基础功能，可以分析并得出与输入序列蛋白质相互作用的蛋白质，以及与该蛋白质相似性较高的蛋白质及其相互作用的蛋白质列表。同时，能够显示原始序列比对结果，界面显示条理清晰，便于研究。

4 结论

通过两个实例HSP70、PRK2a分别对检索、分析预测等两个功能模块进行了具体的应用和验证。在HSP70检索方面，在目前数据库系统的基础数据下，能够检索到HSP相关的蛋白质信息计26条，表明了本系统的检索功能的实用性，且结果的展示界面条理清楚。在PRK2a预测方面，经过PRK2a名称，查找到PRK2a序列，再经过精确同源性的分析，找到了与PRK2a相互作用的蛋白质，以及和PRK2a相似的蛋白质及其相互作用的蛋白质。这表明预测系统实现了蛋白质相互作用的基础功能，为蛋白质相互作用的研究提供了一定的帮助。

[1]Auerbach D,Thaminy S,Hottiger M O and Stagljar I.The postgenomic era of interactive proteomics:facts and perspectives[J].Proteomics,2002,（2）:611-623.

[2]Enright A J，I Iliopoulos,N c kyrpides,et al.Protein interaction maps for complete genomes based on gene fusion events[J].Mature,1999,402（6757）:86-90.

[3]Gomez,S M,S H Lo and A.Rzhetsky,Probabilistic Prediction of unknown metabolic and signal-transduction networks[J].Genetics,2001,159（3）:1291-8.

[4]Gomez S M,W s Noble and A.Rzhetsky,Learning to predict protein-protein interactions from protein sequence[J].Bioinformatics,2003,19（15）:1875-81.

[5]Lichtarge O,H R Bourne and F E Cohen,An evolutionary trace method defines binding surfaces common to protein families[J].Mol Biol,1996,257（2）:342-58.

[6]Lichtarge O,H Yao,D M Kristensen,et al.Accurate and scalable identification of functional sites by evolutionary tracing[J].Struct Funct Genomics,2003,4（2-3）:159-66.

[7]张志清，HSP70及其相互作用蛋白质HIP在应激适应建立中的生物学功能研究[D].北京:军事医学科学院，2005.