基于R的Apriori算法在高额住院费用中的应用研究

2017-06-05 14:20成都市第三人民医院信息部610031
中国卫生统计 2017年2期
关键词:高额病区关联

成都市第三人民医院信息部(610031)

郭慧敏 杜 军△ 黄路非

基于R的Apriori算法在高额住院费用中的应用研究

成都市第三人民医院信息部(610031)

郭慧敏 杜 军△黄路非

目的 通过Apriori算法分析高额医疗费用患者相关指标之间的关系,试图找到影响医疗费用的因素,利用R扩展医学统计的工作思路。方法 利用R软件中的arules包对2015年某院出院的高额治疗费用患者做关联规则分析,探索出院科室、住院天数与总费用,出院科室与性别,出院科室与药费,出院科室与有无手术的关联规则,并分析其原因。结果 某些科室住院天数越多,费用越高;而某些科室的住院天数与费用没有太大关系;胸外、心内、神外、ICU、心外五个病区出院的高额费用患者通常为男性;呼吸、ICU、心外、胸外、神外五个病区出院的高额费用患者的药费一般大于2万元;心外、胸外、骨科等病区的高额医疗费用的出院患者通常要行手术治疗手段。结论 Apriori算法可以挖掘数据间内在的关系,为临床决策提供一定的理论支持,R语言可以快捷的完成医学统计工作。

R语言 关联规则 高额住院费用 数据挖掘

目前新一轮医疗改革正在如火如荼的进行中,各方对医疗改革保持了非常高的关注度;当下,看病难、看病贵成了医患矛盾的主要集中点[1],而看病贵的一个重要构成就是患者住院期间的医疗费用过高。高额医疗费用患者往往为危急重症病人,其主要特点为单次花费巨大,消耗大量的医疗资源,这极易给家庭和社会造成沉重负担,部分患者难以承受巨额费用,导致因病致贫、因病返贫[2]。另外,高额的医疗费用也容易造成医患关系紧张,这也是滋生医闹等现象的主要诱因。面对这样的境况,严控医疗费用不合理的增长成为亟待解决的社会问题[3]。

关联算法是一种常见的数据挖掘手段,它可以发现一个事物与其他事物之间的关联和相关性;在我国,该方法在中医学中的应用非常广泛[4-5],在医学其他领域的应用逐渐增加。本文通过整理高额医疗费用患者的病案首页信息,利用Apriori算法查找符合条件的关联规则[6],以期分析高额费用患者各个指标之间的相互关系[7],通过关联规则的关系梳理找到高额费用产生的主要因素[8];同时,开拓传统病案数据统计的方式,为医院数据利用提供新的思路和方向[9]。

资料和方法

1.资料来源

首先在院内邀请多名专家,采用德尔菲法,在参考诸多相关文档的同时,制定本次研究的高额医疗费用的起始标准为10万元人民币。按照上述标准,在某院病案数据库检索2015年1月~2015年12月住院费用超过10万的患者信息,共获得613份符合统计条件的病案信息。根据数据挖掘的需要提取患者的基本信息,包括费别、性别、年龄、婚姻状况等字段以及患者的住院信息,包括出院科室、住院天数、手术名称、总费用、药费等字段;由于在数据分析过程中只能对离散变量进行分析,故需将某些字段进行离散化处理,例如数据挖掘需要用到是否手术字段,但是在原始数据中并未提供该字段,需将获得数据中存在手术名称的标记为有手术,而无手术名称的记为无手术。

2.统计学方法

R语言是专门为统计而设计的语言[10],R语言能够为不同的统计功能提供多种实现途径,它是一套开源的数据分析解决方案,其完全免费,对于统计工作者非常友好,而且在全球有一个庞大且活跃的研究型社区维护[11]。本文主要利用R语言中arules包中的apriori()函数进行关联规则提取,在规则提取过程中,设定最小支持度为0.020且最小置信度为0.500为强关联规则[12],得到强关联规则后,筛选出提升度大于1的强关联规则做分析;其中R的版本为3.3.1,arules包的版本为1.4-1。

结 果

1.一般资料描述

在获得的613条有效数据中,男性379例,女性234例,男女比例为1.62:1;最小年龄为0岁,最大年龄为95岁,平均年龄(60.97±19.08)岁。

2.数据离散化

由于Apriori算法只能对离散变量进行关联规则分析,因而需要将原始数据按照相应的规则进行离散化处理,具体整理规则见表1。

3.关联规则结果分析

数据整理后,编写R程序,共计得到14477条有效的强关联规则,众多的强关联规则难以逐一说明,现挑选具有代表性的规则做大致分析。

根据提取的关联规则发现,心外病区住院天数为21~30天的患者其费用一般为20万到30万,而其住院天数为16天到20天的患者,其总费用一般为10万到20万;而骨科病区住院天数在21天以上的患者其费用一般为10万到20万,具体结果见表2。在高额费用患者中,胸外病区、心内病区、神外病区、ICU病区、心外病区五个病区男性患者所占比例较大,具体结果见表3。呼吸病区、ICU病区、心外病区、胸外病区、神外病区五个病区出院的高额费用患者的药费通常为2万元以上,具体结果见表4。ICU病区、呼吸病区出院的高额费用患者一般不行手术治疗;而心外病区、胸外病区、骨科病区出院的高额费用患者通常会进行手术治疗,具体结果见表5。

讨 论

Apriori算法是关联规则数据挖掘的常用算法,其广泛应用于商业促销等领域,但是其产生的候选集通常非常庞大,并且需要重复扫描数据库,这也是Apriori算法的缺点。有医学工作者针对以上问题对Apriori算法进行了改进[13],并且取得了非常好的效果。

表1 变量离散化分组表

表2 出院科室、住院天数与总费用的关联规则分析表

表3 出院科室与性别的关联规则分析表

表4 出院科室与药费的关联规则分析表

表5 出院科室与有无手术的关联规则分析表

目前由于医疗观念的改变,加之医保政策的不断开放[14],虽然就医难的困境得到了缓解,但是许多家庭还是难以负担高额的住院费用,因病而贫、因病返贫的现象不断发生,而且高额医疗费用的比例不合理,在本研究中平均药占比为0.28,难以体现医疗护理水平而且还消耗了大量的医疗资源[15]。

本研究数据显示,高额住院患者的医疗总费用与住院天数有密切的关系。由表2可知,以心外病区为例,随住院天数的增长其医疗总费用增加;同时部分科室当住院天数达到某一极值后,住院天数不再是影响住院费用的主要因素,如表2中的骨科病区。而根据表3数据显示某些科室高额费用患者以男性居多,这些科室包括胸外病区、心内病区、神外病区、ICU病区、心外病区,这些病区的患者罹患的疾病以呼吸系统疾病、心脑血管疾病为主,而男性的生活习惯以及其生活压力极容易引起上述疾病,这也是以上病区出院患者主要为男性的原因。高额住院费用病人其药费也普遍偏高,一般外科的高额住院费用患者都需要进行手术治疗。我们发现,该院的高额治疗费用一般分布在ICU、心内、心外、骨科、胸外等重点科室中,而该院上述科室作为优势临床科室接诊的患者中危急重病人的比例相对其他临床科室偏高。

本次研究共获得14477条有效强关联规则,这说明数据之间存在大量的有用规则。现代统计学面临的问题不是数据匮乏,而是数据泛滥,如何从纷繁的数据中得到有用的信息将是未来数据统计工作面临的一个重大课题,这不仅要求具有坚实的卫生统计知识、还要具备非常丰富的专业知识,这也是未来统计学发展的一个重要分支。未来工作中,应向具备专业知识的复合型人才发展,为大数据和知识爆炸打下基础。

[1]梁子君,吴超,郭洪宇,等.我国暴力伤医事件成因的政策分析及应对.中国医院管理,2015,35(11):59-60.

[2]张洪成,崔爱东,晏飞,等.徐州市居民医保患者住院医疗费用个人负担水平研究.中国初级卫生保健,2013(7):12-14.

[3]胡洋,张亮,马敬东,等.医疗费用控制过程中的政府行为研究.中国医院管理,2007(4):7-8.

[4]王可,赵华硕,张虹,等.两水平两分类数据的logistic回归模型对比研究.中国卫生统计,2014,31(5):856-859.

[5]吴嘉瑞,张冰,杨冰,等.基于关联规则和复杂系统熵聚类的颜正华教授治疗风湿痹症用药规律研究.中华中医药杂志,2013,28(11),3416.

[6]Agrawal R,Srikant R.Fast Algorithms for Mining Association Rules.Proc.1994 Int.Confeience.Very Large Databases.Santiago,Chile,1994(9):487-499.

[7]郑晶晶,朱建平.数据挖掘中关联规则的规范化描述.统计与信息论坛,2006(1):93-96.

[8]罗斌.面向客户细分的改进关联规则算法研究.哈尔滨工业大学,2006.

[9]胡瑞娟,李岩芳,何昀.基于关联规则算法的医疗数据挖掘.长春理工大学学报(自然科学版),2009,32(2):282-284.

[10]张哲,张豪.浅谈R语言在生物统计学教学中的应用.教育教学论坛,2013(27):54-55.

[11]Robert I.Kabacoff 著,高涛,肖楠,陈钢译.R语言实战.北京:人民邮电出版社,2013:4-5.

[12]武建虎,贺佳,贺宪民,等.关联规则及其在肝癌病人资料分析中的应用.中国卫生统计,2002,2(23):34-38.

[13]陈龙,马利,何文英,等.高血压住院患者DRGs分组方法研究.中国卫生统计,2015,32(1):110-111.

[14]郑功成.全面建成覆盖城乡居民的社会保障体系——展望“十三五”时期的中国社会保障.中国社会保障,2015(1):36-39.

[15]李士同.成都市基本医疗资源配置问题研究.西南交通大学,2015.

(责任编辑:刘 壮)

△ 通信作者:杜军

猜你喜欢
高额病区关联
抗组胺药在皮肤科病区的应用现状分析
CT室-病区一体化护理模式在CT冠状动脉血管成像患者检查前准备中的应用
PDCA循环法在基层新冠肺炎定点医院隔离病区职业防护中的应用研究
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
乡村振兴战略背景下的农村高额彩礼治理路径探索
高额收益要谨慎,场外配资需辨明
“一带一路”递进,关联民生更紧
病区护士戴手套操作预防职业危害性感染的依从性调查
奇趣搭配
智趣