面向中医药领域的文本情感分析及研究

2019-01-08 03:16刘伟黄阳姚家琦

电脑知识与技术 2019年33期

刘伟黄阳姚家琦

摘要：该文统计分析人们每年对中医药文化的认可度、喜好程度的情感倾向。为中医药学者提供数据参考，分析现状，反思历史，明确目标以迎接中医药的美好未来。方法：（1）基于爬虫技术，获取微博用户2015-2019年对中医药的评价，并进行数据收录和相关整理，对不规范的数据进行统一编码和删除等，使用Jieba分词辅助数据预处理。（2）获取现有经典情感词库如HowNet等等，基于TF-IDF

计方法、Word2vec等方法扩增词向量，构建中医药领域情感分析词典。（3）采用情感极性词典分类算法、Naive Ba-ces分类算法以及CNN模型分类算法对获取的文本数据进行分类处理。结论：2015-2019年认同中医药文化的比率分别为：94.5%，95.0%，88.4%，95.4%，90.9%，可用NPL分析中医药认同度状况。

关键词：中医药;情感分析;微博;自然语言处理

中图分类号：TP3 文献标识码：A

文章编号：1009-3044（2019）33-0174-03

1概述

中医药文化博大精深，是我国传承了几千年的国粹瑰宝，中医对中国人民的健康，甚至是人类的健康都有重大的贡献。中医它的治病方式和其良好的治疗效果，广泛传播、应用于世界各地。但因西醫技术的引入、外来文化的冲击，其影响能力和医学价值受到了挑战。本文针对问卷调查人们对中医药的接受程度，前期工作费时费力的问题，采用自然处理技术对网上文本进行情感分析，可以直接获取评论者对中医认同度的情感倾向，直观快速反映出人们的态度。

2数据分析

随着信息时代的进步与发展，人们在网络上陈述自己观点和情感的比例逐渐上升，使用微博的用户规模猛增、月活跃数早已突破4亿人次，微博已成为表达个人情感和观点的重要媒体。结合微博短文本、数据易获取、实时陸、信息来源多样性等特点，人们的观点可以一目了然具有代表性。因此以微博的评论对中医药进行情感喜好的分类研究十分有意义。

2.1数据来源

本文利用python及爬虫技术爬取新浪微博的数据，通过设置“中医”“态度”“观点”等关键词获取网民2015年1月-2019年5月间发表的动态、文章、评论等内容。

从微博获取的原数据共932774条，其中2015年60586条，2016年53920条，2017年54183条，2018年44513条、2019年719572条。由于互联网文本数据中包含了大量噪声，此类噪声会影响文本正确分类结果，因此对数据预处理文本后的数据有873337条，其中2015年47335条，2016年45353条，2017年47865条，2018年41149条、2019年691635条。

结合Qiu等设计隋感词库：HowNet情感分析用词集（beta版）、台湾大学NTUSD简体中文情感词典以及网上大量的情感词。通过人工删除不符合本领域的情感词。结合TF-IDF得出本领域较高频次的词但在词典中得词，利用Word2vec算法根据分完类的词典求得本领域中的相似词，挑选在领域中有意义的情感词进行情感词扩增。最终得到积极词汇3960个，消极词汇4046个，否定词268个，程度副词212个、转折词13个。

2.2数据预处理

本文规范数据标准如下：

（1）删除微商卖中医药广告信息、中医药用法介绍等客观或无关的数据;

（2）删除同一人发布多条相同内容的数据，仅保留一条;

（3）删除文本字符过长的信息;

（4）删除格式错误的信息。

去除文本中噪声方式如下：

（1）删除文本中经过转换编码仍不能识别的字符（格式：＼uOOx）、回复消息（格式：//@某人：）、超链接URL（格式：“http：//t.ahjkl823”）、特殊表情和网页标签等;

（2）采用Jieba分词技术，自定义停用词、词库，对于中医药领域需要的单词，增加本领域词如“中医黑”，删除词性标注中不能识别或不能使用的词。

分词及词性标注见表1，自定义词库及停用词分词结果展示见表2。

2.3数据分类统计

本文的训练数据由一人评判两人审核的方法评判了认同、反对中医药倾向的数据各1500条，保证训练与测试数据的准确性。中医药有关文本分类划分原则如下：

（1）采用二分划分，分为认同中医药倾向和不认同中医药倾向两种态度;（2）选取文本中含有明显有关中医药感情词划分为对中医药的认同度倾向;（3）对无感情词但采用中医药治病或-转发中医药的相关文章划分认同等级;（4）举行中医药活动达到宣传作用划分为认同倾向。

本文对二类划分采用准确率、F1-score作为评价标准。计算公式如下所示：

其中TP为支持中医药，被正确划分的文本;FP为支持中医药，被错误划分的文本;FN为反对中医药，被正确划分的文本;TN为反对中医要，被错误划分的文本。

3算法应用研究

3.1基于情感强度的词典分类

基于词典的方式本文采用的是基于句子级别的分析。根据中文的语法格式，提取本文的需要的句子语法格式是由积极、消极情感词、否定词及程度副词等3种词组成，并分别给三种词汇设置不同的情感强度判定认可程度。此外句子中还包含连词以及转折词，对于连词的形式分数累乘，当出现转折词时，转折词前面分值计算方式不变，转折词后面情感分值加倍。句式划分见表3。

图1为基于词典算法流程及流程图的简单介绍：

（1）输入待分类的文本、载人各诃陸的词典。

（2）对载人的文本分词、停用词及词性标注，删除冗余数据。

（3）修改的文本进行向量化词组。

（4）用逆序组合文本方式，逐词判别词语词性，符合句式计算其得分，反之继续扫描。

（5）扫描到第一个词向量时结束扫描，计算所有句式总分，由分值区间确定最终分类。

在基于词典分类方式中，采用句子级别的分类中，经过数据清洗的准确率是0.593，除O分准确率为0.599;增加词典和词向量后的准确率是0.612，除0分后准确率为0.622。

3.2基于朴素贝叶斯分类

首先块结合TF-IDF进行特征词向量的提取，对于出现次数极少词汇进行过滤剔除，避免占用存储空间出现矩阵稀疏以及词的向量过多产生维度灾难等等问题。其次将标注好的数据进行随机选取训练数据及测试数据，并应用到自己的算法中，对数据进行预測。

朴素贝叶斯算法步骤具体实现流程及流程图见图2：

（1）输入所有训练文本数据，对出现的词汇进行统计。

（2）删除经常出现的无关词汇，以及次数小于10次的词汇。

（3）求解每个类别中各词汇出现的频率，计算条件概率。

（4）判断测试文本中每个特征词在两个分类中的概率。

（5）对于每个文本取较大概率的分类为该文本的分类结果。

朴素贝叶斯分类结果为：经过数据清洗的F1-Score是0.457，准确率为0.470;增加词典和词向量后的F1-Score是0.530，准确率为0.625。

3.3基于卷积神经网络分类

本文开发环境是基于Theano和keras深度学习库。结合CNNt61及word2vec提取特征向量。设计了多组参数进行实验寻找最合适的参数，见表4部分参数的实验结果。

采用ReLu函数、10折交叉检验，第13组参数最优，准确率：0.808，F1-Score.-0.762。

4结束语

实验结果表明上述三种计算文本分类的方式中，CNN算法的准确率明显要高于其他两种算法，故本文最终采用CNN模型对中医药领域的评论数据观点进行分析。分类2015年到2019年度中医药评论的数据，得到各年度中医药的认可率见表5所示。

由表5可知，支持中医药的人数远高于不支持中医药的人数。人们对中医认可度仍然是很高的，但也有小部分人对中医抱有抵制态度。对比近五年人们对中医的认可度人数占比较为稳定，唯有2017年为88.4%，分析当年有关中医药事件，发现17年某中医院发生重大医疗事故，影响了中医的发展，同年中央发布了一系列宣传发扬中医的文件，及时阻止了这次中医事态的余波，并且次年认同率达到了近五年巅峰。因此国家适当的调控中医药的宣传建设，有助于中医药的发展。

在词典和朴素贝叶斯分类方式中采用了领域内的自定义词典后的数据准确率明显提升。说明词典、特征提取高质量的重要性。后期将完善全面覆盖本领域的词典，增加人工评判的数据。其中总朴素贝叶斯算法分类过程中时空开销小，算法运算速度快，能够快速地获取数据的分类结果，可以实时判断每条数据的情感倾向。词典分类算法结合了情感词的极性、词间的词性关系，但更加人性化，但是句子级别的分类方式忽略主从句式的关系，可以采用基于上下文语句的方式进行分析。CNN的Embedding为静态形式，容易混淆积极、消极词识别，但识别效果较高，后续可采用动态形式。最后希望我国继续弘扬中医国粹，传播中医文化。