大型医院开展数据挖掘项目存在的问题及对策

2010-02-14 01:22ProblemsandCountermeasuresofDevelopingDataMininginLargeHospitals
中国医疗设备 2010年8期
关键词:开发人员数据挖掘软件

Problems and Countermeasures of Developing Data Mining in Large Hospitals

苏韶生,程敏婷,张淑娟

中山大学附属中山医院 信息科,广东 中山 528403

大型医院开展数据挖掘项目存在的问题及对策

Problems and Countermeasures of Developing Data Mining in Large Hospitals

苏韶生,程敏婷,张淑娟

中山大学附属中山医院 信息科,广东 中山 528403

SU Shao-sheng,CHENG Min-ting,ZHANG Shu-juan
Information Department,Zhongshan Hospital Affiliated to Sun Yat-Sen University,Zhongshan Guangdong 528403, China

结合我院开发、实施数据挖掘项目的情况,分析当前在大型医院开展数据挖掘项目中存在的需求分析、数据来源、数据质量、技术人员管理等问题,并对解决问题的对策进行了探讨。

数据挖掘;数据质量;需求分析;HIS

大型综合性医院业务流程纷繁多变,信息系统较多,数据库中数据量非常庞大,如一个1000张床规模的医院,EMR日产生文字记录约150万条之多,PACS日产生图片数据量8G。“数据海量,信息缺乏”成为目前医院信息化建设的一个瓶颈问题,2007年卫生部统计信息中心对全国3765家医院进行信息化现状调查显示,82%的医院应用最常用、最基本的系统,6.29%的医院应用决策支持系统[1],并且都是应用在个别模块的决策支持。数据的深层次利用、为医院管理和科学决策提供依据是医院信息化建设的核心目标[2]。

我院是一家综合性三甲医院,现有病床1250张、39个临床科室、74个专科门诊,现有EMR、PACS、LIS 等临床业务系统50余套,功能覆盖各临床业务、办公、后勤管理等流程,2008年8月开始启动数据挖掘项目,目前已完成基于挖掘病案首页数据的功能模块,针对目前项目开发、实施中出现的问题进行总结分析,并提出解决对策。

1 问题分析

1.1 需求不明确

数据挖掘技术出现于20世纪80年代末,中国在21世纪初开始出现对数据挖掘的研究,并且在医疗卫生领域的应用不具有广泛性。在这种背景下,对于医院管理层、技术层、用户层来说,在本行业内无可借鉴的应用项目,尚不能清晰地掌握数据挖掘在医疗卫生行业的具体应用信息,应用需求不明确。主要体现在:在项目实施之初,管理者说不清应用需求,如统计指标、技术指标等,软件开发人员也不理解用户的需求,导致设计目标难明确,同时,医院也会在沟通中浪费大量的人力成本、办公成本等;在项目实施中,用户的需求不断被激发,不断地被进一步明确,或者用户需求随项目进展而变化,从而导致项目进度不断被更改;项目开发完后,为了适应不断变化的需求状况,修改、完善周期拖得很长。

1.2 数据来源不清

大型医院系统繁多,每套系统都有相对独立的数据库存储数据,数据来源较多,数据类型也各不相同,数据挖掘通过数据异构技术,实现系统间数据关联、建模及数据展示应用,准确的数据源选择与数据分析结果真实性、客观性息息相关。由于目前绝大多数医院信息系统开发工作由外包公司完成,系统的数据类型、数据结构对医院用户来说往往是不透明的,为此,在数据挖掘的开发过程中都会遇到一个难题:开发人员和医院用户都对数据来源不清楚,采集不到数据分析所需要的准确数据,比如,在分析病人来源构成中,涉及病人的籍贯、地址信息的系统有出入院管理系统、医生工作站、电子病历系统、病案首页管理系统,根据对以上数据来源的比较分析,我们发现病案首页数据质量较高。

1.3 数据质量不高

“‘减’不断,理更乱!”是当前数据质量的真实写照,截至2007年,由于忽略数据质量问题,有50%以上的数据仓库项目无法得到客户的认同,甚至完全失败[3]。目前,由于医院信息化建设的时间跨度较长,软件提供商比较分散,且建设初期缺乏行业标准,多年的数据维护、迁移时缺乏必要的数据校验,再加上软件功能模块是逐步上线,也导致了数据的缺失和不完整,普遍存在数据质量不高问题,主要体现在:① 数据错;② 遗漏、丢失数据;③ 缺乏数据标准,格式不统一;④ 数据不及时,缺乏时效性。

1.4 软件开发人员对医院业务流程不熟,无法为医院提供完整的解决方案

根据KDnuggets公司做的调查统计显示,2007年数据挖掘应用领域比重首位是客户关系管理(Customer Relationship Management,CRM)(占26.10%),第二位是银行业(占23.90%),第三位为直销/募款(占20.30%),这三个领域的应用占了全部的70.30%[4,5],数据挖掘技术在医疗行业的应用范围不广且时间较迟,目前多数的医疗行业数据挖掘开发人员是从其他行业转行过来,他们的行业经验不足,对医疗、医院营运管理的流程和需求不理解,与院方的需求沟通、获取存在困难,无法理解数据分析中的各类指标含义,无法为医院数据挖掘提供完整的解决方案。

1.5 院方技术人员技术参与不够深入

在软件开发项目外包过程中,容易出现一个误区:认为软件的开发由外包公司负责,院方对软件的开发和技术参与不够深入,过分地依赖公司。这种误区易导致几个困难:① 在软件开发阶段,由于开发人员不熟悉医院业务系统数据结构,不能采集到数据;② 在应用阶段,院方技术人员不能熟练地使用软件、发挥软件功能,不利于软件推广;③ 在维护阶段,对软件出现的异常情况没有维护能力,影响软件的正常使用,不利于软件的健壮性和可维护性。

2 对策

2.1 重视需求分析

据统计,目前软件的失败率约为75%,在这75%中,约有50%以上的软件是由于需求的原因造成的。另有资料表明,软件开发项目中返工开销几乎占开发总费用的一半,而导致返工的主要原因是需求分析错误或不明确,成功的软件需求分析不仅能提高软件的成功率,而且能节省大量的资源,因此需求分析是软件开发的关键阶段[6-8]。

在需求分析阶段,需要做好以下工作:

⑴ 确定软件的综合需求 ① 功能需求:确定软件应具有的基本功能,如分析主题、数据集建模思路、数据展现形式、数据钻取深度等;② 数据接口需求:确定软件内部及与外部软件进行数据抽取的方法、格式约定;③ 性能需求:确定软件必须满足的性能指标,如响应时间、容错性、安全性等方面的需求。

⑵ 成立需求评审小组审核需求 需求评审小组主要由医务科、护理部、统计室、计算机中心、医保部等部门成员组成,需求评审一方面协助完善需求,另一方面阻止低劣的需求进入开发阶段,是需求过程主要关卡,应该充分重视。评审应该从医疗管理、流程、服务、业务、技术、运营等多个角度进行综合判断,找问题、找缺陷。

2.2 分析软件的数据要求

彻底地了解需求,明确分析主题和应用后,接下来就是确定实现分析主题和应用所需要的数据模型,分析实现数据模型所需要的数据,形成数据接口文件,接口文件包括:数据结构、数据来源、数据交换形式、数据共享模式、存取机制等。

2.3 重视数据质量,制定数据质量策略

目前的策略类型有两种:

⑴“上游”方法 在向业务系统输入数据时提高数据质量的方法称为“上游”方法,“上游”方法主要包括:① 通过在业务系统中设立“关卡”进行输入验证控制,防止输入错误,同时,要尽量减少手工录入数据,对于必须要用手工录入的数据则尽可能采用规范化的编码字典,即把录入的数据做成标准化录入,如在疾病诊断录入中采用ICD编码,拒绝自由文本式诊断录入,能够规范诊断的统计标准。② 设计数据逻辑核查机制,根据逻辑条件在数据库内进行内部核查,如在病案首页中“5岁及以下患者出现子宫颈恶性肿瘤”、“抢救成功次数大于抢救次数”、“男病人中出现卵巢恶性肿瘤”等都是不符合逻辑的,数据库中应做好核查判断。

⑵“下游”方法 从业务系统提取数据的应用程序(如数据仓库)中改善数据质量的方法是“下游”方法, “下游”方法主要是通过应用数据挖掘技术的ETL工具,进行数据清理、除燥、过滤等预处理。

2.4 优势互补,建立互补型团队

软件项目组的管理过程,几乎是围绕“人”来进行的管理,协调管理好外部软件开发人员与医院技术人员是项目成果的关键,外部软件开发人员掌握着先进的数据挖掘技术,特别有些公司开发人员掌握着其公司具有自主研发的专利产品核心技术及项目开发经验,具有较强的技术优势,而医院技术人员长期工作在医院,对医院业务流程、信息资源状况、医院运营模式均有一定的优势。双方优势互补,建立互补型团队有助于推动项目顺利开展,具体方法:① 选拔或培养适合角色职责的人才,特别是必须有一个称职的项目经理直接对项目的各种事项负责,能及时、妥善地处理项目实施过程中出现的各种问题。② 目标明确、分工合理,运用项目管理中WBS方法,将项目范围内的各组成部分、复杂的工作逐步分解成要素工作,使得项目成员明确具体工作,容易操作和控制。③ 建立信息互通制度,双方定时召开会议,交换项目过程中进度情况、难点问题,对重要事件进行备案记录。④ 规范技术操作标准,把技术操作手册化、标准化。⑤ 注重技术更新学习,医院技术人员按计划参加软件公司的技术培训,外部软件开发人员参加医院的业务学习培训,尽量多了解医院业务流程、医学理论。

3 结语

数据挖掘作为新兴的信息技术在医疗行业,特别是在大型医院的应用具有广阔的前景,国内医院对数据挖掘的研究和应用处于起步阶段,由于数据挖掘是医院信息化建设的“上层结构”,对于 “下层结构”的医院信息系统数据质量要求较高,在应用过程中会出现很多问题,本文针对目前存在的问题进行阐述、分析,对解决问题对策进行了探讨,希望为后继的研究和应用能起到一定的帮助作用。

[1] 中国医院协会信息管理专业委员会.中国医院信息化发展研究报告[R].北京:卫生部统计信息中心,2007.

[2] 杨海清.数据挖掘技术在医院管理中的应用[J].中华医院管理杂志,2005(7):497-499.

[3] 林杨.数据:“减”不断,理更乱?[J].软件世界,2008(1):77-78.

[4] 王立伟.数据挖掘研究现状综述[J].图书与情报,2008(5):41-46.

[5] 李敬社,等.数据挖掘技术的方法和最新进展[J].现代电子技术,2004(6):54-56.

[6] 方圆.怎样做需求分析[EB/OL].(2005-04-20)[2008-07-23].http://www.sachina.cn/index.php?type=column&area=1&p=ar ticles& id=175.

[7] 王莉,吴洁明.软件项目中的需求变更管理的研究[J].计算机技术与发展,2007(1):119-120.

[8] 姜婷,周伟良,朱方洲.信息系统需求分析质量控制方法研究[J].电脑知识与技术,2009(23):64-65.

TP311.52;TP274

C

10.3969/j.issn.1674-1633.2010.08.020

1674-1633(2010)08-0059-02

2009-12-03

作者邮箱:8823566@163.com

Abstract: Combining with the implementation condition of data-mining of our hospital,this paper introduces the requirement analysis,data resource,data quality and tech staff management issues existing in datamining projects among big comprehensive hospitals, and accordingly discusses the solutions.

Key words: data-mining;data quality;requirement analysis;HIS

猜你喜欢
开发人员数据挖掘软件
禅宗软件
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
Semtech发布LoRa Basics 以加速物联网应用
软件对对碰
即时通讯软件WhatsApp
后悔了?教你隐藏开发人员选项
高级数据挖掘与应用国际学术会议
高级数据挖掘与应用国际学术会议
三星SMI扩展Java论坛 开发人员可用母语