传染病预测及辅助诊断系统的研究

2014-01-30 05:55李水明李少珍廖如燕
中国卫生标准管理 2014年8期
关键词:人工神经网络贝叶斯传染病

丁 鸿 李水明 李少珍 廖如燕

1 深圳市龙岗区疾病预防控制中心,广东 深圳 518172;2 深圳市第三人民医院,广东 深圳 518112;3 广州出入境检验检疫局,广东 广州 510000

1 引言

我国的公共卫生应急处置系统目前处于探索阶段,尚未形成完备体系。一般而言,公共卫生应急处置系统应包括应急处置辅助查询、现场处置、相关疾病辅助诊断等功能。传染病的诊断主要依据患者的症状、体征及实验室检查结果,其诊断结果的准确性受诊断医生的个人经验、知识水平和实验室检测等影响较大。尤其是当发生传染病疫情时,在疫情现场没有实验室结果的支持下,主要靠医生的经验和知识水平进行判断。而传染病种类繁多、病原体复杂、在不同地区和时间上分布具有差异性,这些特点使医生们在做出诊断时,由于考虑不全或知识有限的情况下,往往发生漏诊、误诊等现象。

突发性传染病疫情的直接表现是传染病的流行,传染疾病的早期诊断常常依据流行病调查、临床上的症状及体征和实验室检验结果等病情资料,尽管疾病的最后确认有待实验室病原学结果,但是在没有快速诊断技术的前提下,就早期诊断,采取控制措施而言,前者的作用不可替代。如今,随着计算机和信息技术应用领域的全方位扩展,传染性疾病的预测预报及诊断防治工作有了新的发展方向和工具,即运用计算机及互联网技术,可以使疾病的诊断和治疗在精确数量化的基础上,用计算机实现自动化,有助于提高传染病疫情诊断的准确性,减少漏诊、误诊。这不但能大大减轻一线专业人员的日常工作量,而且具有极强的交互性、便捷性,能有效提高工作效率及质量。

2 系统建设规划目标

准确判断是突发传染病疫情处置的关键一步,判断准确与否将决定疫情控制的效果和效率。由于突发传染病疫情现场情况十分复杂,实验室的病原学检测需要时间,为了赢得疫情控制的时间,往往需要现场人员综合现场情况对疫情做出初步判断。根据疫情中流行病学调查、症状、体征和部分临床检验结果等信息,对传染病疫情早期智能辅助判别。利用数据设计原理与方法,设计传染病辅助判别数据库的概念模型和物理模型,以专业书籍、文献报道、全国疾病监测网络和传染病诊断标准数据来源,建立各种传染病的流行病学特征数据库和症状、体征、实验室检测数据库;研究常见症状、体征、实验室检验结果和流行病学指标在各种传染病中的概率分布;选择适合数据特点的判别模型,建立模型算法并进行优化,用文献报道的数据对模型进行验证;建立反馈模型,对辅助诊断的疾病反过来验证疫情中流行病学调查结果、症状、体征。

3 传染病预测模型

当前常用的传染病预测模型有:回归模型、时间序列模型、灰色理论模型、Markov模型、神经网络模型和组合预测模型。

3.1 回归模型

回归预测法就是运用回归分析的方法,通过对大量观察数据的统计处理与分析,找出预测对象与影响因素之间的数量关系。建立回归模型并进行预测的研究方法,包括一元线性回归预测法、多元线性回归预测法和非线性回归预测法。理论上多元线性回归要求资料总体服从多元正态分布且协方差相同,而流行病学资料难以满足此条件,很多影响疾病的因素是 0,1分布或等级分布,此时可采用Logistic 回归模型对疾病进行预测。有季节规律的时间序列用线性或非线性回归模型进行预测显然是牵强的[1-3],事物的发展不仅受长期趋势支配,而且还受到随机扰动和周期波动的影响,从而呈现出以趋势为中心的变动轨迹,作为随机方程的回归预测模型,在组织建模时由于受到随机扰动和周期波动因素的干扰,降低了预测的精度。

3.2 时间序列模型

它是指一系列反映包括时间动态依存关系的数学模型,不仅可以从数量上揭示某现象与其他现象的发展变化规律或从动态的角度刻画某现象与其他现象之间的内在数量关系及变化规律性,而且能够预测与控制现象的未来行为。如果时间序列呈趋势性且无明显的季节性,则可用分析事物发展渐进过程的趋势外推法,分析方法有线性、指数曲线、多次曲线等趋势预测模型[4]。

3.3 灰色模型

灰色模型[5],是用时间数据序列建立系统的动态模型。随着预防医学和计算机科学的发展,许多研究者应用灰色预测模型对各种慢性病的发病率和死亡率进行预测,尤其应用在恶性肿瘤的研究当中[6-7]。灰色模型由于其预测效果好,适应性强,广泛应用于疾病流行趋势的预测。但由于灰色模型中的指数型变化是单调的( 单调上升或下降) ,因此长期预测的预测值就会偏高或偏低,特别随着时间的推移,未来一些扰动因素对系统的影响,对随机性、波动性较大的数据拟合较差,预测精度降低,这是灰色预测的不足之处。

3.4 Markov 模型

Markov 链 (Markov chain)[9]是一种随机事件序列,它将来的取值只与现在的取值有关,而与过去的取值无关,即Markov 链为无后效性的离散性随机过程。Markov 链预测是区间预测,虽然降低了预测的精确度,但却提高了预测的准确度。因此预测发病率实际值的范围,对防病具有现实的意义,而且通过区间预测可给出实际值出现的范围。该模型过程简明,易于操作,短期预测精度高,特别适用于有波动性改变的资料。

3.5 神经网络模型

神经网络[9]或称人工神经网络 ( Artificial Neural Network,ANN) 以模拟生物的神经网络结构和功能为出发点,逐渐演变成为一门对信息处理的方法学。人工神经网络在流行病学领域的应用主要集中于疾病的诊断和预后、预测和预报以及病因识别等方面。人工神经网络模型对复杂的大规模数据,无先验知识的资料,资料不全、用传统统计学方法无法解决或解决效果不好的问题,提供了一个全新而有效的解决途径。但它仍存在一些问题,主要包括: 网络初始值及阈值的确定,网络学习速率的选取,网络隐节点个数的确定等等。

3.6 组合预测模型

单个预测模型进行预测时会存在一些缺陷,如信息源的不广泛性、对模型设定形式敏感等。组合预测就是综合利用各种单个预测模型所提供的信息,以其适当的加权平均形式得出组合预测模型。它可以综合利用各种方法所提供的信息,尽可能地提高预测精度。组合预测仍处于发展之中,理论上还不够十分完善。作者认为,可以将模糊控制理论、专家系统及人工智能中的一些方法和理论引用到组合预测领域中来,以降低算法的复杂性,提高预测精度。

4 辅助诊断判别模型

目前常用的计量诊断方法有决策树分类、贝叶斯分类、人工神经网络方法。

4.1 决策树

决策树是一个类似流程图的树形结构,是以实例为基础从一组无次序、无规则的元组中推理出决策树表示形式的分类规则[10-11]。它采用自顶向下的递归方式,树的每个节点对应于一个属性名或一个特定的测试,该测试在此节点根据测试结果对训练集进行划分,叶结点是要学习划分的类。从根到叶结点的一条路径就对应着一条规则,整个决策树就对应着一组析取表达式规则。

决策树算法的优点主要是:(1)可以生成可以理解的规则;(2)计算量相对来说不是很大;(3)可以处理连续和种类字段;(4)可以清晰的显示那些字段比较重要。

其缺点主要是:(1)对连续性字段比较难预测;(2)对有时间顺序的数据,需要很多与处理有关的工作;(3)当类别太多时,错误可能就会增加的比较快;(4)一般的算法分类的时候,只是根据一个字段来分类。

4.2 人工神经网络

人工神经网络[12]是近年来提出的一种机器学习的算法。人工神经网络的原理是通过模拟生物的神经网络结构和功能,实现对各种信息的有效处理。它通常包含输入层、输出层以及一个或几个隐含层,它的基本组成单位为神经元。输入层接受外界信号,不对其进行加工和处理,直接将其引入神经网络;隐含层位于网络的输入层和输出层之间,可包括多层,对输入的信息进行处理并将处理后的信息传给输出层(或下一个隐含层);输出层则输出经隐含层处理后的结果。人工神经网络不需要精确的数学模型,而是通过模拟人的联想推理和抽象思维能力,来解决传统自动化技术无法解决的许多复杂的、不确定性的、非线性的自动化问题。

人工神经网络的缺点就是很难解释,目前还没有能对神经网络做出显而易见解释的方法学。需要严格衡量神经网络的方法,以防神经网络学习过度,训练一个神经网络需要的时间比较长,从实用的角度来考虑,用大规模的BP 网络来处理大规模的复杂问题在目前还是不现实的。

4.3 贝叶斯分类

贝叶斯是一种判别分析方法,根据一批分类明确的样品制定出一个分类标准,用于指导其后新样品的归类,在医疗卫生工作中越来越多的用于疾病诊断、预报、疗效估计等。

贝叶斯原理:设 X 是未标示类别的样本,H 为某种假定,如样本 X 属于某个特定的类。分别用 P(H|X)、P(X|H)、P(H)、P(X)表示条件 X 下 H 的后验概率、条件 H 下 X 的后验概率、H 的先验概率、X 的先验概率。通过先验概率的大小推出后验概率大小。

与决策树和神经网络相比,此类算法在分类准确性、运算效率等方面均较高,适合大型数据分类。主要有三种算法:朴素贝叶斯分类、线形贝叶斯判别、贝叶斯网络。朴素贝叶斯算法成立的前提是各属性之间相互独立,当满足这种独立性假设条件时,与其它所有分类算法相比,朴素贝叶斯分类是最精确的。

5 结语

传染性疾病辅助诊断是公共卫生应急处置系统中最基础也是最重要的一个核心模块,其设计与实现的优劣将直接影响整个应急处置系统的成败。其核心问题包括:数据源的获取、数据库的设计以及智能诊断算法的设计。其中,数据源必须从广度和深度两个层面上来获取,在本系统中数据库涵盖大部分传染病疾病特征和实验室检查等判别依据,基本可以满足大部分突发公共卫生事件的现场需求。智能诊断算法是整个疾病智能诊断系统的核心部分,诊断算法的优劣将直接影响整个诊断的效率和准确性。下一步将进行算法的优化选择。

[1]李立明.流行病学[M].北京:人民卫生出版社,1999,9: 111-119.

[2]章扬熙.医学统计预测[M].北京:中国科技技术出版社,1995.64- 90.

[3]徐国强.胡清友.统计预测和决策[M].上海:上海财经大学出版社,2001.113- 131.

[4]王文昌,尹全焕,许汝福,等.季节性时间序列资料预测的线性方法[J].数理医药学杂志,1998,11 (2) : 103- 104.

[5]姚莉.灰色数列预测模型在传染病死亡率研究中的应用[J].数理医药学杂志,2002,15 (2):103- 104.

[6]汪爱勤,鱼敏.灰色预测方法在疾病预测中的应用[J].中华流行病志杂志,988,9 (1) : 49- 52.

[7]段琼虹,聂绍发,仇成轩,等.灰色系统残差 GM模型应用于前列腺癌流行趋势预测[J].数理医药学杂志,2000,13( 5) :385- 386.

[8]朱彩蓉,倪宗瓒.Markov 状态转移模型在慢性患者平均寿命预测中的应用[J].中国卫生统计,2004,21 (4) : 212- 213.

[9]周利峰,高尔生,金丕换.BP 神经网络与 Logistic 回归对比初探[J].中国统计卫生,1998,15 (1) : 1- 4.

[10]闪四清,成茵,程雁,等译.数据挖掘-概念、模型、方法和算法[M].北京:清华大学出版社,2003.80-195.

[11]韩家炜,主编.数据挖掘概念与技术[M].北京:科学技术出版社,2000.162-196.

[12]韩彦峰,段向前.人工神经网络在数据挖掘中的应用.西安建筑科技大学学报(自然科学版),2005,37(1):11-123.

猜你喜欢
人工神经网络贝叶斯传染病
《传染病信息》简介
传染病的预防
3种传染病出没 春天要格外提防
基于贝叶斯解释回应被告人讲述的故事
利用人工神经网络快速计算木星系磁坐标
基于动态贝叶斯估计的疲劳驾驶识别研究
人工神经网络实现简单字母的识别
基于改进人工神经网络的航天器电信号分类方法
基于互信息的贝叶斯网络结构学习
基于人工神经网络的经济预测模型