基于智能算法的中医治疗糖尿病数据挖掘

2017-06-30 19:41陈巧俊叶辉
中文信息 2017年6期
关键词:方药数据挖掘糖尿病

陈巧俊 叶辉

摘 要:本文主要研究数据挖掘在糖尿病中医证候及方药规律等方面的应用。利用医案数据,对数据预处理之后,用频数统计、关联分析、贝叶斯分类等算法分析糖尿病在中医中的临床表现、常用药物及组合、证候与治法等。并用贝叶斯分类器训练模型,以预测相关临床表现的糖尿病类型。

关键词:糖尿病 数据挖掘 方药 临床决策

中图分类号:R259 文献标识码:A 文章编号:1003-9082(2017)06-0214-01

一、引言

糖尿病是21世纪最具挑战性的严重影响我国人民健康的慢性疾病之一。中医学以其顺应自然和具有整体观的理念,卓越的治疗效果而享誉全世界。

本论文以中医治疗糖尿病为背景,针对医案中的方药、临床表现等用关联规则、描述统计等相关挖掘算法对糖尿病进行分析,使得结论能够展示糖尿病的中医医案的治疗方法的大体情况,是全面整理总结糖尿病治疗经验的有益探索。

二、研究过程与结论

1.医案数据预处理

首先对糖尿病临床数据进行数据清洗,处理其中不一致的数据,填补空缺值。针对病历中“症状”、“治法”、“方药”信息描述存在的多词一意、表述模糊、意义重叠等现象,通过症状药材规范化去除同义词,对数据进行规范化和数值化处理。

其次对数据进行深入处理,保留需要的字段,进行数据分组、人工合并同义词、分词统计等,完成数据清洗。

2.挖掘分析

2.1我们对患糖尿病的病人进行年龄分组后,对病人的年龄和性别分布情况进行分析,得出糖尿病高发人群在40-70岁之间,男女差异不大。

2.2常见临床表现

乏力、口干、浮肿等是糖尿病患者常见的临床表现,根据其常见临床表现的综合可以初步判断是否患糖尿病。

可以利用朴素贝叶斯算法对不同临床表现进行文本分类,找出各种类型糖尿病中具有代表性的一些症状。

根据临床表现,预测糖尿病发生与类型:

①对临床表现,采用jieba中文分词工具,对症状分词。

②使用TF-IDF对分词的结果进行权重计算,人工打类型标签

TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。它倾向于过滤常见词语,保留重要词语。

词频TF指某一个给定的词语在该文件中出现的频率。对于在某一特定文件里的词语来说,它的重要性可表示为

逆向文件频率IDF是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到

③使用贝叶斯模型训练样本,得到不同类型糖尿病的特征临床表现

在很多情况下,临床表现之间的特征之间没办法完全独立,彼此不独立的特征之间的关系没法通过朴素贝叶斯分类器训练。而贝叶斯网络引入了一个有向无环图和一个条件概率表集合,DAG的结点V包括随机变量,有向连接E(A->B)表示结点A是结点B的parent,且B与A是有依赖关系的。同时引入了一个条件性独立概念:即图中任意结点v在给定v的parent结点的情况下,与图中其它结点都是独立的,也就是说P(v|par(v),x1,x2...,xn) = P(v|par(v))。这里par(v)表示v的parent结点集,x1,x2,...,xn表示图中其它结点。

④用训练好的模型进行预测,可以较好的根据临床表现判断是否患有糖尿病以及进行简单的糖尿病类型判断。

2.3方药的分析挖掘

采用关联规则算法,确定处方中各药物和药物间关联规则、核心药物组合等。结果显示,高频次药物为茯苓:30%,黄芪:24%,山药22%,丹参21.8%,可见这四种药物是治疗糖尿病的核心用药。支持度和置信度总是伴随关联规则存在,是对关联规则的必要补充。对某条关联规则而言,支持度是指在所有的事务中同时出现A和B的概率。而置信度是说所有事务中在出现A的情况下出现B的概率,即条件概率。

2.4糖尿病证候和治法概述

根据分析,气阴两虚为早期糖尿病的主要证型,因此益气养阴对于预防和治疗早期糖尿病具有重要意义。

治法就是对中医证候用相应措施来“对症下药”,益气、活血、滋阴、清热、健脾是最常用的方法。方剂六味地黄丸、消渴丸有良好的治疗效果。除了药物治疗外,中医还支持很多其他治疗,尤其以针灸最为盛行。

三、结语

本文基于大量的糖尿病临床诊断数据探讨糖尿病的治疗规律。能够清晰的展示糖尿病的中医治疗方法的大体情况,了解糖尿病的现状。

利用各种智能算法来对医案或者医疗记录进行挖掘已经成为一种趋势,相信未来在深度学习和人工智能技术的不断发展下,中医药将会迎来新的研究方向与机遇。

参考文献

[1] 陈克龙, 樊永平. 數据挖掘中的分类算法及其在中医证候学中的应用[J]. 中华中医药杂志, 2011(3):469-473.

[2] 吴嘉瑞, 王凯欢, 纪凯,等. 基于数据挖掘的中医治疗糖尿病处方用药规律分析[J]. 中国实验方剂学杂志, 2015(22):214-217.

作者简介:陈巧俊,女,浙江金华人,本科在读,研究方向:数据分析、机器学习

通讯作者:叶辉,,男,讲师研究方向:医学信息学、医学自然语言处理

猜你喜欢
方药数据挖掘糖尿病
糖尿病知识问答
糖尿病知识问答
糖尿病知识问答
糖尿病知识问答
家庭解酒方药集锦
中医药抗癌应重视扶正方药的应用
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
“体-量-效”方药关系应用探讨
中医治疗高血压病治法方药研究进展