从针灸文献中获取经穴ARFF数据集的文本挖掘方法探讨

2013-11-06 07:04泸州医学院生物医学工程系四川泸州646000
长江大学学报(自科版) 2013年21期
关键词:电子表格经穴字段

张 勇 (泸州医学院生物医学工程系,四川 泸州 646000)

王鸿度 (泸州医学院中医系; 四川 泸州 646000)

潘 宏 (泸州医学院生物医学工程系,四川 泸州 646000)

从针灸文献中获取经穴ARFF数据集的文本挖掘方法探讨

张 勇 (泸州医学院生物医学工程系,四川 泸州 646000)

王鸿度 (泸州医学院中医系; 四川 泸州 646000)

潘 宏 (泸州医学院生物医学工程系,四川 泸州 646000)

按照粗糙集理论的数据处理方法,对经穴名称进行标准化和数据化,把中文经穴名转换成离散化的布尔型数据,通过文件格式的转换,从而得到适用于WEKA挖掘平台的RAFF数据集。

经穴; ARFF;文本挖掘

文本挖掘现在已成为中医中药学界数据挖掘中重要的研究课题。已有研究[1]通过关联和聚类分析出了几种经穴的联系。但基于针灸古文献[2]中治疗疾病用穴的文本挖掘在国内还为数不多,对十四经穴的文本挖掘的方法研究也比较少。

1 经穴文本数据清洗

数据准备前期,由针灸医师在古文献中勾勒出属于十四经穴的穴位名称。例如从《百症赋》“原夫面肿虚浮,须仗水沟,前顶;耳聋气闭,全凭听会、翳风。面上虫行有验,迎香可取;耳中蚕噪有声,听会堪攻”文中,可得出面部浮肿,耳聋耳鸣等证候。涉及到的十四经穴名有:水沟,前顶,听会,翳风,迎香,听会。并对文献中的经穴数据采用如下步骤的筛选处理:

1)去除非经穴。去除如时病瘟疫《千金要方·卷十·第五》:“上腭穴,入口里边,在上缝赤白脉是,针三次,治马黄黄疸四时病等。”,里出现的上腭穴。

2)去除经外奇穴。去除如癥瘕集聚《医学入门·卷一·治病奇穴》:“痞根穴:专治痞块,十三椎下各开三寸半,多灸左边。如左右俱有,左右俱灸。”里的痞根穴。

3)根据GB12346-90标准化针灸中文经穴名称,具体如下:

把“腧”改为“俞”。如痨瘵《圣济总录·卷一百九十三·治骨蒸》:“……,胃腧二穴……肾腧二穴……又肝腧二穴……”。

把“三里”改为“足三里”。如噎膈《灵枢·邪气脏腑病形》:“胃病者……膈咽不通,食饮不下,取之三里。”

把 “四花穴”改为“膈俞、胆俞”。如痨瘵:《医学入门·卷一·治病奇穴》:“经门四花:即崔氏四花穴,不灸脊上二穴,各开两旁成六穴,上二穴,共阔一寸”。

把 “巨虚”改为“上巨虚、下巨虚”。如胁痛《铜人腧穴针灸图经·卷五·足阳明》:“巨虚下廉:胸胁少腹痛。”

把“临泣”改为“足临泣”。如癥瘕集聚《扁鹊神应针灸玉龙经·针灸歌》:“月闭乳痈临泣妙,癥瘕膀胱即莫抛”。

把“人中”改为“水沟”。如胁痛《琼瑶神书·卷二·二百三十五》:“治闪挫腰胁痛:腰间闪挫泻人中,尺泽先将气下冲”。

2 经穴文本数据标准化

根据国家标准GB12346-90并参照世界卫生组织针灸穴名国际标准《标准针灸穴名》,制作十四经穴中英文名称对照表1,标准化文献里出现的经穴名。

表1 十四经穴中英文名称对照表(部分)

3 经穴文本数据文件

目前常用的文本表示模型有:向量空间模型、布尔模型、概率检索模型等。在建立数据源时,利用粗糙集理论进行属性数据的约简,即把每一个经穴看成一个属性。输入数据时,若同一文献中有多次出现的经穴名,则去掉冗余的仅保留一个。如文献中出现的手三里,表示成:LI10 {LI10,0}或LI10{0,1}。把预处理完的针灸文献里的经穴名录入到电子表格中,成为Excel文件,如郁证yuzheng.xls。

3.1经穴文件的转换

为进行挖掘实验,将Excel文件格式的数据转换成WEKA支持的ARFF文件格式,进行如下转换:在Microsoft Excel中打开naozhai.xls,选择“文件”菜单→另存为 “yuzheng”文件名,文件保存类型选择“CSV(逗号分隔)”保存,可得到“yuzheng.csv”文件;然后,打开软件WEKA的Explorer,点击“Open file”按钮,打开已有的yuzheng.csv文件,点击“save”按钮,在弹出的对话框中,文件名输入“yuzheng”,文件类型选择“Arff data files(*.arff)”,这样就得到数据文件“yuzheng.arff”。另一种方法是打开“Tools”菜单里的“Arff Viewer”窗口,在Arff Viewer窗口打开浏览csv文件,另存为ARFF文件也可以。

3.2WEKA和ARFF介绍

本研究中由于经穴名是录入在电子表格中的,适合开源数据挖掘软件WEKA。 WEKA存储数据的格式是ARFF(Attribute-Relation File Format)文件,ARFF数据集与很多电子表格或数据分析软件一样用的是二维表:竖行称作一个属性(Attribute),相当于统计学中的一个变量,或者数据库中的一个字段,这样的一个表格在WEKA里呈现的是属性之间的一种关系(Relation)。

针灸数据集也可看作是二维表的格式,行表示古代针灸文献中记载的治疗某类疾病用穴的名称,如治疗郁证用到的经穴。在此次收集到的文献中一共有91次的记载(记录);列表示文献所记载经穴穴位的名称,出现了多少个名称,即表有多少个属性(字段)。

世界卫生组织针灸穴名国际标准化后ARFF文件格式如下所示:

@RELATION naozhai

@ATTRIBUTE DU20 {DU20,0}

@ATTRIBUTE DU1 {DU1,0}

……

@ATTRIBUTE RN12 {RN12,0}

@ATTRIBUTE ST36 {ST36,0}

@DATA

0,0,0,0,0,BL13,0,0,0,0,0,0,0,0,0,0,0,0,SP6,0,……

……

0,0,0,0,0,0,0,0,BL43,0,0,0,0,0,0,0,0,0,0,0,0,……

0,0,0,0,0,0,0,0,0,BL17,0,0,0,0,0,0,0,,0,0,0,0,……

4 获取经穴ARFF数据集步骤

1)由针灸医师在古代针灸文献中先勾画出经穴名称,再根据勾画出的穴名分朝代录入电子表格XLS格式数据源,整理核对录入的经穴名称,即数据清洗。

西地那非治疗新生儿肺动脉高压及其对循环内皮祖细胞及肿瘤坏死因子-α的影响…………………………………………………………………………… 樊青曼,等(6):686

2)把每类疾病的针灸治疗方案所用到的经穴进行排序分类汇总,在分类时检查是否有重复的类,如果有则删除。

3)把生成的十四经穴类名复制成只有中文经穴名称的工作表,生成的表还不是十四经穴的国家或国际命名标准的工作表。

4)把上表升序排列,插入一个表头,表头的字段1取名jingxue,表头的字段2取名point。再把某类疾病对应的工作表另存为DBF4(dBASEⅣ)*.dbf文件。

5)安装数据库语言VF,独占方式打开dbf文件。修改设置字段 jingxue字段宽度为6个字符宽度,索引类型为候选索引,设置point字段宽度为4个字符宽度。

6)把由十四经穴的国际标准中英文代码的361个穴名先制作成电子表格文件,然后再转换成数据表文件:jingxue361.dfb。表文件jingxue361.dfb文件里也有和前表同名的两个字段:jingxue和point,且字段结构也和前表一致,在VF中用经穴jingxue361.dbf中的point数据填入yuzheng.dbf中的空的point字段里,这样在yuzheng表中就有了标准化的十四经穴英文代码。

7)再次核对整理原文经穴名与国标经穴名称不匹配的记录,整理完后得到规范的数据表yuzheng.dbf文件,利用VF“文件”菜单的“导出”命令导回生成yuzheng.xls。

8)把到的电子表格文件yuzheng.xls第1第2列数据项复制后转置成两行,去掉第一行的jingxue和point单元格里内容,根据数据源表针灸治疗郁症的经穴名所对应的国标代码填入到当前电子表格工作表中,得到布尔型数据的电子表格yuzheng.xls。

9)把得到的工作表另存为SCV文件类型的数据文件yuzheng.csv,然后启动WEKA,打开菜单“Tools”里的“Arff Viewer”,在Arff Viewer窗口打开yuzheng.csv文件,另存为arff文件,这样就得到了治疗郁证所用经穴的ARFF的数据文件yuzheng.arff。

5 结论

探勘中医针灸古籍中治疗多类疾病的医案,采用数据挖掘方法提炼出古籍背后隐藏的信息,分析出经穴数据特有的规则与规律。本文提出了一个萃取古代针灸治疗各种病症所用经穴的方法。通过此方法得到的针灸治疗各类病症的经穴数据集RAFF文件是深入挖掘十四经穴的宝贵的数据资料,为经穴文本的数据挖掘研究提供了前提条件。

[1]张勇,张丰正.数据挖掘在针灸治疗鼓胀古代文献中的应用[J].泸州医学院学报,2011,34(5):583-584.

[2]赵凌,任玉兰,梁繁荣.有效整理古代针灸文献的研究方法与要求[J].成都中医药大学学报,2007,30(4):1-2.

[编辑] 一 凡

R245

A

1673-1409(2013)21-0146-03

2013-04-02

泸州医学院科研基金项目(2012QN-67)

张勇(1976-),男,讲师,硕士,主要从事基础数学及数据挖掘研究工作;通讯作者:潘宏,E-mail:120725863@qq.com。

猜你喜欢
电子表格经穴字段
图书馆中文图书编目外包数据质量控制分析
以电子表格为主线的高职院校“大学计算机信息技术”课程的教学探索
电子表格的自动化检测
电子表格的自动化检测
浅谈电子表格技术在人事管理中的应用
青藤外敷散模型家兔膝关节经穴、非经穴部位皮肤渗透性比较
相关经穴与非经非穴、非相关经穴的机体反映和效应差异
针刺任脉经穴疗法治疗糖尿病性胃轻瘫的效果探讨
CNMARC304字段和314字段责任附注方式解析
巧用EXCEL电子表格计算土地面积