在线课程评论的情感倾向识别与话题挖掘技术

2018-03-22 01:31杨丽
电子技术与软件工程 2018年1期

伴随信息技术的快速发展,为各行业领域注入新鲜的活力。以教育领域为例,较多互动学习平台逐渐被引入其中,特别其中包含的学习者评论数据,均可为教学质量改善、用户选课以及平台支持提供参考,然而现有的平台运行中并未充分利用这些反馈信息,需行之有效的完善策略。本次研究将对情感倾向识别与话题挖掘技术做简单介绍,在此基础上提出在线课程评论样本处理与特征提取方法、情感倾向识别算法以及在线课程评论话题挖掘技术等。

【关键词】在线课程评论 情感倾向识别 话题挖掘技术

信息化时代背景下,学习资源共享、平台共享已成为大多学习者青睐的主要内容,也因此有较多学习行为数据生成,如何对这些数据充分利用成为当前需考虑的主要问题。值得注意的是,當前许多数据提取、教学系统设计并不能满足数据挖掘需求,更无从谈及利用所获取的数据为教学实践进行指导,要求引入有效的数据提取、情感倾向识别以及话题挖掘技术。因此,本本文对在线课程评论的情感倾向识别与话题挖掘技术研究,具有十分重要的意义。

1 情感倾向识别与话题挖掘技术介绍

关于情感倾向识别、话题挖掘技术的概念,首先可从教育大数据进行分析,近年来在线学习中较多学习平台逐渐引入,使海量未结构化数据生成,这些数据区别于传统结构化数据如考勤记录、考试成绩等,有数据动态变化、数据规模化以及类型多样化等特点,而满足这些特征的在线学习数据均推动教育大数据的形成。而在此基础上提出的情感倾向识别,Web2.0时代下,大众在浏览事物信息中,更注重对以往相关评论内容关注,或将自身的想法、意见与心情表达出来。大数据环境下,便强调数据挖掘中能够对大众的平均内容做情感分析,该过程被称之为情感倾向识别。另外,在话题挖掘技术方面,由于很多情感倾向信息并非针对一个整体评论对象,而是对其中某一部分的倾向表现,而这些部分便可被叫做话题。实际进行海量文本浏览中,便要求引入话题自动提取技术,保证信息检索与处理效率,以此达到话题挖掘的目的。

2 在线课程评论样本处理与特征提取

2.1 在线课程评论数据样本处理

本次研究中,主要针对在线课程学习网站中的点评区分析,具体做样本数据出去中,相关的要求主要包括:

(1)对点评区网页结构信息充分了解,这些存储于后台数据库内的半结构化形式文本数据,向用户展示中,将通过HTML页面以相应的格式显示,因网页引入的通讯技术有一定差异,所以在采集数据中有多种方式,如利用HTML表单形式,或借助HTML结构树抽取;

(2)为使服务器访问压力、系统资源减少,一般设计中也考虑引入加载方式,以JavaScript为例,通过脚本动态导入数据。实际做数据采集中,可设定相应的方案流程,整个流程强调首先对JS脚本内有无提取信息判断,若加载过程需借助JS动态实现,取中间代理方法,对JavaScript Object Notation页面探测,进行格式解吸,然后将评论数据相关信息提取出来并存储。假若加载方式选择HTML静态加载,转换的目标体现在文本对象模型DOM上,在此基础上做定位解析,将其中信息提取出来并存储在数据库内。

2.2 特征提取

所谓文本特征,主要指被识别对象的特征,具体进行文本情感识别中,通常也需由这些特征着手。值得注意的是,在评论信息中,不同学习者在表达细致程度上有一定差异,其直接导致课程评论文本长度不同,部分评论中有丰富的文字内容,传递的信息较多,而部分评论仅有几个字,其意味文本特征分布有稀疏性、不均衡性特点。对此,实际进行文本特征提取中,本次研究考虑引入细粒度特征生成法,如N-gram语言模型,所有文本内容,均以字符单元形式呈现,有长度为N的字符片段序列形成,其中各片段均被叫做gram。同时,既往研究资料中,也对稀疏文本特征提取问题提出较多优化方式,如多空间微粒群优化,这一方式侧重于取训练集,细化为不同交叉训练子集,通过检验各子集,提取其中的特征信息,达到文本特征提取目标。

3 在线课程评论情感倾向识别算法研究

情感倾向识别的实现,主要强调通过对在线课程评论的分析,了解情感倾向。本次研究中,考虑引入自适应多视图选择方法,其亦被称之为AMVS,识别中采用半监督情感识别方法,其区别于传统RSS方法,更注重做情感强度的计算,能够优先选取鉴别型高的特征。需注意该方法应用下,选择视图中,要求结合特征维度、训练精度两者关系,进行维度分布的构建,保证各视图维度均较为合适,这样仅需保证特征采样覆盖率适宜,便可进行视图生成量的确定。尽管该算法应用下无需考虑视图划分、视图维度等影响因素,且自适应性强,但在无标记样本规模影响下,识别精度可能无法保证。

4 在线课程评论话题挖掘技术分析

情感识别的基础上,便要求做话题挖掘。本文在研究中对于评论话题挖掘方法的选择,主要结合既往研究成果,如话题情感模型的构建,DEI-TM,这一模型强调对情感表达寻找相应的话题,融入以往LDA模型话题挖掘机制,即通过语句间关联信息的利用,过滤出正面、负面情感样本,以分而治之理论为指导,实现不同情感类别话题信息的提取。实践研究发现,DEI-TM模型运用下,提取后的话题无较高相似度,在泛化能力上较强,可充分展示话题内单词,极大程度上提高话题挖掘效果。

5 结论

情感倾向识别及其话题挖掘是当前在线课程评论数据被充分利用的关键性保证。实际识别评论信息情感信息、挖掘话题内容过程中,应充分认识其基本内涵,选择针对性的技术方式,如多视图半监督学习文本情感识别、DEI-TM模型等,确保将这些技术具体用于评论信息数据挖掘与分析中,以此保证评论数据能够用于实践指导中。

参考文献

[1]张耀之.网络舆情语义识别的技术分析及识别流程构建[D].吉林大学,2016.

[2]刘智.课程评论的情感倾向识别与话题挖掘技术研究[D].华中师范大学,2014.

[3]邓镭.面向微博新媒体的公共事件及其社会舆论分析技术研究[D].国防科学技术大学,2013.

作者简介

杨丽(1985-),女,山西省潞城市人。博士学历。讲师。研究情感分析方向,大数据、智能方法等。

作者单位

湖北大学 湖北省武汉市 430062