生物信息学中的文本挖掘

2016-05-30 13:03周玉新

科技风 2016年17期

周玉新

摘要：随着生物信息学领域的发展，信息抽取和信息检索广泛应用于生物信息学领域。文章总结了近几年来生物信息学中信息抽取和信息检索方法的应用，作为生物信息学中文本挖掘的重要工具，其研究价值正得到越来越多的认可和重视。

关键词：生物信息学；信息抽取；信息检索；文本挖掘

在过去的十几年中，随着生物医学文献的飞速增长，基因组学和蛋白质组学领域的生物医学数据出现了巨量增长。人类基因组序列排序标志着大规模基因组学和蛋白质组学时代的开始。虽然可以进行涉及基因和蛋白质的大規模实验，但对它们的解释仍然是一个关键问题。例如，到目前为止，许多基因组数据的大规模分析都侧重于基因表达模式，并且在基因表达基础上建立基因聚类，而解释形成的基因聚类需要进行更进一步的分析。

当前，最常使用的生物医学摘要源是由美国国家生物医学技术信息中心（NCBI）维护的PubMed，它包含超过12，000，000篇生物医学科技文献摘要，每天被遍及世界的数百万用户访问。

PubMed中的典型相关文献搜索是一个布尔查询，需要用户提供相应的搜索项或搜索项组合，然后返回所有满足查询的摘要集合。但是，PubMed并不提供基于相似度的工具以帮助用户访问这些返回的摘要集中与相关文档相似的文档。

为了提高文献搜索的效率和精度，一些研究人员提出了一些自动文献搜索方法，主要分为两种方法：一种是建立在信息抽取和自然语言处理基础上的生物信息学信息抽取；另一种是建立在信息检索基础上的生物信息学信息检索，它在检索粒度上解决了文献挖掘问题。

1 生物信息学信息抽取

迄今为止，多数生物医学文献挖掘的工作都侧重于自动信息抽取，在生物信息学背景下，信息抽取系统旨在发现关于一个给定基因或关于特定基因间相互关系的信息。

Leek利用隐马尔科夫模型（HMM）抽取文献中讨论染色体上基因定位的句子。基因和染色体名称利用简单的启发式识别，而实验方法以及定位标志在一个预定义列表中给出，HMM自身的状态概率和转移概率从被标注的OMIM项中学习。训练和测试集都由几百个句子组成，系统性能用准确率和召回率度量。

Craven等在这一工作上进行了扩展，他们开发了用于从枯燥的句子中鉴别描述事实句子的系统。系统被设计成用于识别两种类型的事实：蛋白质亚细胞定位和基因疾病之间的关联。Ray & Craven进一步扩展了这一工作，他们利用描述句子结构的HMMs识别那些讨论基因与疾病间相关联的句子。该工作不使用预定义的词汇，而有关基因和蛋白质句子的正确识别也仍局限于在训练模型中使用过的名称。

Rindflesch等和Friedman等在传统NLP基础上提出了基于解析和使用主题词表的方法，该方法可以从文档中抽取关于基因和蛋白质的相关信息。他们的不同之处在于Rindflesch等的工作关注药物对细胞中基因活性的作用，而Friedman等则关注于基因和作为调控途径的蛋白质之间的相互作用。

Blachke等使用了一种更简单的方法，该方法依赖于句子中基因和蛋白质的共现，而不是机器学习方法或先进的NLP，其目标是在一个与蛋白质相关的预定义集合中抽取蛋白质相互作用的信息。它使用了一个蛋白质名称列表和一个相互作用，通过查找两个共现的蛋白质被一个表示相互作用的单词分割的句子来识别蛋白质相互作用。Blashke & Valencia扩展了这一工作，在该工作中他们使用了一个蛋白质名称检测模块，并对句子中的否定进行了处理。

到目前为止所有的方法都是被应用于较小的样本集，Jenssen等迈出了在大规模分析上的重要一步。他们利用一个预定义的蛋白质名称列表，通过一个布尔查询查找PubMed中提及这些基因的所有摘要，并在此基础上建立了一个以基因作为节点和连接在相同文献中提及基因为边的图，边的权重表示共现的次数。与此类似，许多基于蛋白质/基因名称共现的系统通常建立在一个从公用数据中收集而来的词库基础上。

虽然研究人员对于使用信息抽取和自然语言处理的方法投入了很多努力，但这些方法通常强依赖于预定义信息，但很多预定义信息往往难以获得。

2 生物信息学信息检索

最常用的信息检索已经被研究者广泛应用于搜索感兴趣的文章，同样，在生物信息学领域已经开发出许多基于信息检索的大规模生物医学分析方法。

该领域的最初工作是由Shatkey等完成的，他们的目标是发现基因间的功能性关系而不强依赖于基因名称或句子结构，该方法是建立在许多基因和它们的功能已经在文献中讨论这一假设基础上。

其他一些研究者将一些信息检索方法应用于生物信息学领域，主要是聚类和分类的变形。Renner & Azodi提出一个蛋白质标注聚类方法。Iliopoulos等将k-means聚类应用到一个较小的PubMed摘要集以获取有意义的子集，每一个子集讨论一些共同的主题，该主题由聚类中抽取的词项来描述。Marcotte等使用一个依赖于辨别词的Bayers分类器来识别讨论PPI的摘要。

信息检索技术的另一个应用是蛋白质的同源性领域。Donaldson等开发了PreBind/Textomy系统，该系统为了从文献中发现PPI，组合了信息检索和信息抽取。

在信息检索阶段，训练了一个SVM分类器来区分摘要是否讨论了PPI，然后分类器被用于识别和检索与PPI相关的摘要。一旦检索到相关摘要，则应用信息抽取来识别文本间的相互作用。

3 结语

随着生物信息学领域的发展，信息抽取和信息检索广泛应用于生物信息学领域。文章总结了近几年来生物信息学中信息抽取和信息检索方法的应用，作为生物信息学中文本挖掘的重要工具，其研究价值正得到越来越多的认可和重视。

参考文献：

[1] 于跃，徐志健，王珅等.基于双聚类方法的生物医学信息学文本数据挖掘研究[J].图书情报工作，2012，56（18）：133-136.

[2] 齐彬，吕婷.共现分析技术在生物医学信息文本数据挖掘中的应用[J].中华医学图书情报杂志，2009（3）：41-43.