医学文献中疾病误诊信息的提取

2019-07-10 02:04彭起冯洪海

科技视界 2019年14期

关键词：错误率关键字正文

彭起　冯洪海

【摘要】提出了从医学文献中提取误诊信息的算法。五千篇文献训练集的误诊提取正确率为85.78%，500篇测试文献的误诊提取精度83.11%。

【关键字】误诊;临床医学;文本挖掘

中图分类号： TP391.1文献标识码： A文章编号： 2095-2457（2019）14-0204-001

DOI：10.19694/j.cnki.issn2095-2457.2019.14.098

0 引言

全世界50年来平均误诊率为30%，但鉴于医疗水平的限制，誤诊率一直高居不下，尤其是一些疑难杂症。因此，从文献中提取误诊信息供医生和患者参考尤其必要。冯洪海[1]等统计和分析了现阶段互联网医学用户症状和相应的疾病分布情况，官兵[2]、张雪齐[3]等针对单独的一种疾病或一类疾病的误诊信息做出了研究。目前还没有文献对医学误诊文献做过系统的分析。

在做文本数据分析之前，已从权威医学期刊获取了大量的医学误诊案例文献。通过人工读文献的方式，从中总结出初始的误诊关键字、通过对关键字进行分析，将关键字进行分类，而后分类建立模型。从文献中获取文本信息，从中提取出初始的疾病库，通过编程实现误诊信息模型并通过模型将文本中的误诊信息提取出来。

1 算法设计过程

误诊信息分两种：一种是疾病A误诊为疾病B，因此，疾病分“误诊为”的疾病B和“被误诊”的疾病A。另一种是多个疾病互相混淆而有可能误诊。在标题或正文中，多处出现疾病名称，但未必是疾病之间误诊的信息，因此，要先由误诊关键字确定误诊上下文。另外，即便出现两个疾病，两个疾病之间误诊的信息有正反两个方面，即有可能A误诊成B，也可能B误诊成A。

1.1 误诊关键字的获取

误诊上下文分为标题和正文两种。通过比较，针对标题的误诊关键字适用于正文;针对正文的误诊关键字不一定适用于标题。针对标题的“误诊…”、“误诊为…的…”等关键字。针对正文的误诊关键字“需与…相鉴别”、 “易与…混淆”等。

1.2 误诊信息上下文的提取

误诊信息上下文的预处理，借鉴文献[4]中的策略。关于上下文长短的确定，文献[4]中设定为误诊关键字为误诊关键字所在的两个句号段落。本文将提取单元设定为含有误诊关键字的一个句号的句子。

1.3 识别疾病以及提取文献中的误诊信息

2 提取结果

对于训练集，加入更为准确的关键字，去除“B超-疾病”和一些没有必要存在的提取结果，如“高血压-高血压”等结果，将算法进行改进，完善算法的控制逻辑。扩充疾病库之后，错误率也明显下降。经上述的完善之后，疾病提取的错误率降低到14.22%。

测试集中存在有当前误诊关键字集合之外的关键字，导致一些误诊规律无法被提取出来，目前召回率稳定在99%，错误率稳定在16.89%。完善疾病库、完善关键字集合、完善算法的提取规则将是下一步优化的目标。

3 结束语

不论是训练集还是测试集，错误率和召回率都与误诊关键字列表和疾病列表的完整性有关，未来要降低错误率和提高召回率，需要从完善误诊关键字列表和研制新的疾病实体名称识别算法方面入手，因为有些疾病名称是俗语或简化描述或在国际疾病标准术语中未载入。

通过在大量医学误诊案例中总结误诊信息、提取误诊关键字、建立误诊模型等方式提取医学误诊文献中误诊信息。在后期的研究过程中，可对提取结果的精确度做更加准确的处理。从文本中分析出的误诊为的疾病可能有若干种，这些疾病之间可能也存在误诊关系;这些疾病也存在和“误诊”病不相关的情况，后续研究可对结果做统计分析，完善疾病库、关键字集合和算法的提取规则，总结更普遍的规律，减少医学误诊的发生。

【参考文献】

[1]冯洪海，孙元灿，李利敏，宋舒晗，黄俊辉.基于Web医学数据的互联网医学用户研究[J].计算机时代，2014（04）：41-46.

[2]官兵，张惠箴，汪亮.胃底伴血管瘤的脾组织植入误诊为胃肠间质瘤1例[B].临床与实验病理学杂志，1001=7399（2019）05-0618-02.

[3]张奇雪，阮宏莹，郑永哲，张桂敏，林鹏.鼻硬结病误诊为鼻中隔囊肿1例.临床耳鼻咽喉头颈外科杂志[B].1001-1781.2019.06.021.

[4]刘源，冯洪海.医疗纠纷文献的数据挖掘[J].电子技术与软件工程[J].R197.3;TP311.13.