基于MOOC课程评论的话题挖掘与情感分析研究

2020-09-02 06:31田娜周驿
软件导刊 2020年8期
关键词:文本挖掘情感分析

田娜 周驿

摘 要:为了深入挖掘与分析在线课程评论文本,探索学习者参与在线课程学习时关注的话题及其情感态度,为提高在线课程质量提供帮助。首先采用词频分析方法,实现对学习者在线课程评论内容的整体认识;然后利用非监督学习方法潜在狄利克雷分布主题模型对评论文本信息的特征结构、语义内容进行自动挖掘和分析,得到学习者的关注话题;最后对每个话题的课程评论文本进行情感倾向分析,得到学习者的情感倾向分布。实验结果表明,在参与课程学习的过程中,学习者主要关注教师授课、课程内容和学习资源3个话题。情感分析结果显示,学习者对于该课程普遍表示满意和赞赏,但是对于该课程学习资源表达了较多负面情感。

关键词:MOOC;文本挖掘;LDA;情感分析;主题模型

DOI:10. 11907/rjdk. 192449 开放科学(资源服务)标识码(OSID):

中图分类号:TP301文献标识码:A 文章编号:1672-7800(2020)008-0019-05

Abstract:In this paper, the review text of online courses is deeply mined and analyzed with the aim to explore the topics and emotional attitudes that learners are interested in when participating in online courses, and help improve the quality of online courses. Firstly, the word frequency analysis method is adopted to overall understand the review content of learners online courses, and then the LDA topic model is used to automatically mine and analyze the characteristic structure and semantic content of the review text information, so as to obtain the topic of learners attention. Finally, the text of course review on each topic is analyzed to get the distribution of learners sentiment tendency. The experimental results show that in the process of participating in the course learning, learners mainly pay attention to the teachers teaching, course content and learning resources. The result of sentiment analysis shows that learners generally express satisfaction and appreciation for the course, but express negative feelings on the learning resources of the course.

Key Words: MOOC; text mining; LDA; sentiment analysis; topic modeling

0 引言

知識经济时代,越来越多人选择通过在线学习提高自身知识水平,由此,MOOC得到迅速发展并成为国内外学者研究的热点话题。在线课程平台开放性、资源共享性以及学习时间、地点的不受限性等,吸引了大量学习者投入到在线学习中来。MOOC学习者在参与在线课程学习过程中,产生了各种学习行为数据,这些数据真实地反映了学习者在学习过程中的状态[1]。以往对传统课堂教学中的学习者数据进行分析研究,需要依靠特定人员对课堂学习者进行观察、记录和整理,不仅需要耗费大量的人工成本,而且记录的数据完全依赖于人的主观判断,不具有客观性,会造成研究结果不准确。目前,教育数据挖掘集中于分析并解释学习数据,运用多种方法(如文本分析、语义分析、回归分析等)实现学习分析目的。比如学习效果预测、学习者学业预警、学习效果影响因素、学习资源和学习路径推荐等。因此,运用适当的数据挖掘技术对学习数据进行分析,可以发现潜在的、有价值的信息,可以更好地支持在线开放课程的设计、实施、评价,帮助教师组织教学活动、完善教学内容和教学过程[2],同时也可以帮助在线学习平台进一步完善基础建设,提升学习者学习体验。

以往的学习分析技术主要侧重于结构化数据分析,比如学习者观看视频时长、参与讨论次数、考试成绩得分等。如郭欣悦[3]通过对课程学习者学习行为类型进行梳理,构建多元学习分析框架以分析学习者学习趋势;罗恒等[4]通过利用Google Analytics网站流量分析工具收集与分析宾夕法尼亚州立大学一门开放课程中的网站流量数据,揭示了高校开放课程中学习者社群和学习行为总体特点及演变趋势。但是,对于一些非结构化的交互式文本数据,比如学习者参与讨论、进行课程评论、发送视频弹幕、进行答疑等数据缺乏相应研究[5]。通过对在线学习平台上交互文本的挖掘与分析,可以反映出学习者的关注话题、情感倾向、在线学习体验,有助于优化在线教育教学。目前,一些研究小组和机构已开展了许多相关研究。例如,Wanli等[6]通过对学习者论坛发帖内容中的情感进行量化分析,探索情绪对学生辍学率的影响;Gianluca等[7]设计了RAMS学习分析系统,通过对Moodle平台讨论论坛的数据进行主题聚类和情感分析,得到学习者的总体情感倾向以及在不同时间段论坛情感变化情况,进而得到学习者对该课程的满意度,实验证明,该系统可以有效进行自动化、实时的学习分析;罗玉萍等[8]以烟台大学评教数据为实验数据,基于语义分析技术挖掘学生留言的情感倾向,生成教师评价摘要;吴林静等[9]通过分析爱课程上的4门课程评论,提出面向大数据的慕课评论语义分析模型,并将慕课评论分为内容相关类、情感相关类和其它类。

综上所述,针对学习过程中的文本数据相关研究还不深入,比如关于课程评论文本的研究。很少有研究利用合适的数据挖掘方法对评论文本进行聚类和情感分析,找出学习者关注的话题及情感倾向,学习者对于课程内容本身、教师教学方式、在线课程平台、学习资源等的需求不能得到很好体现。因此,本文在已有研究基础上,提出一种基于话题的情感分析方法。首先,通过数据采集软件,采集并预处理中国大学MOOC平台上某课程的课程评论信息;经过预处理之后利用LDA主题模型对其进行话题挖掘,最后对聚类之后每个话题的评论文本进行情感分析,得到学习者关于每个话题的情感倾向。

1 数据收集与预处理

1.1 数据收集

挖掘在线课程评论的隐含信息,前提是获取在线课程评论数据。本文数据来源于中国大学MOOC平台上某课程评论区的学习者评论数据,该课程作为多次荣登中国大学MOOC十佳课程的精品课程,其参与人数众多,有着丰富的交互数据,有利于实验的进行。目前获取网页数据的方法主要有两种:一是通过编写代码进行网页爬虫,二是采用已有商业爬虫软件获取数据。本文使用八爪鱼采集器采集该课程评论区的文本数据,截至课程结束,共爬取评论数据6 084条,去除无用及重复数据后,实际得到数据5 778条。数据主要内容有:评论人名称、评论内容、评论时间。

1.2 数据预处理

1.2.1 数据去重

问题数据可能对数据的完整性和合理性造成影响,从而影响数据分析结果[10]。因此,在进行文本主题抽取和情感分析之前,至关重要的步骤是对采集到的数据进行预处理。本文以每条评论文本为基本单位进行处理,由于学习者评论中经常会反复提到相同的词,这些词表达的意义基本相同,比如:“好好好”“喜欢喜欢”之类的评价语句,如果直接使用这些语句进行主题抽取,会对实验的准确性造成很大影响。因此,在对数据进行预处理时首先要对评论文本去重。常见的文本去重方法大多以计算文本之间的相似度为基础。由于此实验中的文本数据为短文本,重复文本大都是相同的词语或单个字,因此采用机械压缩取词的方法,将完全重复的文本压缩成单个词语或字。

1.2.2 中文分词及去停用词

与英文文本以空格区分词不同,在中文文本中,词与词之间的界限比较模糊,直接区分较为困难,要得到更为准确的分析结果,必须采用合适的工具进行中文分词。本实验首先利用中科院ICTCLAS分词系统对采集到的课程评论文本进行分词。然后,利用停用词表剔除文本中停用词、噪音词、低频词和特殊符号(本文所用停用词表是将哈尔滨工业大学停用词表、四川大学停用词表进行合并去除重复词之后得到的停用词表)。

2 相关研究方法

2.1 LDA主题模型

Blei等[11]于2003年提出LDA模型,主要被用于推测文档主题分布并挖掘大规模文档集中潜在语义知识。它以概率分布的形式表现文档集中每篇文档的主题,在对文档的主题分布进行分析后,能够利用主题分布实现主题聚类或文本分类。其基本思想是:文本由若干个主题混合生成,每一个主题又由若干个特征词构成 [12]。LDA模型如今已被廣泛应用于多个领域,比如个性化资源推荐、社交网络互动、新闻摘要等。随着教育数据挖掘研究的不断深入,LDA成为教育数据分析的新方法,打破了以往文本分析研究主要依赖主观经验判断的限制,给学习分析研究提供了新的思路与方法。

LDA模型认为,从文档主题分布中抽取一个主题,然后从抽取到的主题所对应的单词中抽取一个单词,将此过程重复N次,就可以生成一篇有N个词的文档[13]。其生成过程如图1所示。

根据LDA模型,可以计算出文档中主题—词汇概率分布矩阵,更加细粒度地表示学习者在参与在线课程讨论时关注的话题,为课程评论文本分析提供自动化支持。

2.2 文本情感分析

文本情感分析也称意见挖掘,可以认为,情感分析就是利用计算机技术,对带有情感色彩的文本进行提取、分析、处理、归纳和推理,以帮助用户获取有效信息的过程[14]。最初的情感分析主要是对带有情感色彩词语的分析,比如“漂亮”是表示褒义的词语,而“丑陋”是表示贬义的词语。目前,研究者们对于情感分析的研究已经逐渐转向句子级、篇章级以及词语级的分析。文本情感分析方法主要分为机器学习方法和基于词典的方法。机器学习方法的准确率高但是需要对原始数据进行人工标注,不仅耗时秏力,而且人工标注数据的结果会直接影响到分析的准确性;而基于词典的方法不需要人工标注,主要对经过预处理后文本中的情感词与情感词典中的词进行匹配得到文本的情感倾向,但是由于词汇在不同情境下可能会表现出不同的情感倾向,比如“他跑得好快”中“快”是褒义的,而在“电池耗电快”中“快”是贬义的。因此,采用情感词典进行情感分析虽然简便,但会由于一些词语的多义性造成分析结果不稳定。本实验主要采用ROST Content Mining作为情感分析工具,通过对课程评论文本话题进行情感分析,找出学习者关注话题的情感倾向性分布,为后续课程建设提供建议。

3 数据分析

3.1 基于TF_IDF的词频分析

对在线课程评论文本数据进行预处理后,根据TF_IDF(Term Frequency-Inverse Document Frequency,词频—逆文档频率)方法计算评论文本的特征项权重,其中TF表示词条在文档中出现的频率,IDF是词条普遍重要性的度量。TF_IDF的计算如式(1)所示。

运用Python对文本数据进行特征权重计算,最终得到评论文本词频权重排名前 20的高频关键词,如表1所示。

对词频权重统计结果分析可以发现,在线课程评论文本中,出现频率较高的词是“老师”“课程”“python”“讲解”等。这些词汇表明了学习者对本门课程的授课教师以及教师授课方式的肯定和支持。而从 “内容”“实例”“代码”“课件”等词汇可以看出,除授课教师外,学习者也关注该课程内容、学习资源。并且,反映学习者参与在线课程学习体验的词也较多,比如“很棒”“有趣” “详细”“感谢”等,从这些词汇看,大部分学习者对参与该课程学习的总体态度是比较正面的。

3.2 基于LDA的课程评论话题挖掘

利用LDA主题模型挖掘课程评论文本中的隐含话题,为实施针对性学习干预和教学反馈提供数据支撑。目前,对于LDA的主题数目没有最优解,一般是通过人工调参解决。本实验对预处理后的评论文本进行主题建模后,通过事先设置主题数目、进行主题模型训练、观察主题训练结果、手动调整参数、优化主题数目的方法确定主题数目。实验发现,当[α]=0.6,[β]=0.1,话题数K=3 时,实验效果最佳,如表2所示。

由表2可见,学习者进行在线课程学习时主要关注3个话题。从话题1的单词概率分布情况,可推测出此话题主要集中于教师授课方式。教师授课风格得到了学习者的认同和赞赏,认为教师讲课很棒,讲解详细、清晰,注重基础;从话题2的单词概率分布情况可知,此话题主要关注在线课程内容。学习者认为编程课程有用,课程内容适合零基础学习者学习,达到了学习者对于Python学习的期望,并对后续课程充满期待。最后,从话题3的单词分布概率可以看出,学习者在学习课程之后能够有收获,但是对于该课程的衍生性学习资源,比如课件、课程视频以及习题等,学习者表达了“太短”“听不懂”等负面情绪,说明学习者对该课程的学习资源表示关注。因此,将学习者对于在线课程的关注点归纳为:教师授课、课程内容、学习资源3个方面。

3.3 课程评论情感倾向性分析

本文以ROST Content Mining作为情感分析工具,通过对在线学习者参与课程评论文本进行情感分析,旨在挖掘学习者对于课程的满意度情况,以便对课程进行改进和完善。首先利用该软件对每条评论文本进行情感分析并赋值,然后用该数值判断学习者的情感倾向。该数值为正表示积极情绪,数值为0表示中性情绪,而数值为负表示消极情绪。为了更为精确地表示在线学习者的情感倾向,积极情绪又被分为一般(0~15)、中度(15~25)和高度(25以上)3种程度;消极情绪被分为一般(-15~0)、中度(-25~-15)和高度(-25以下)3种程度。

3.3.1 在线课程评论整体情感分析

利用ROST Content Mining 对课程评论文本进行情感分析的详细结果如表3所示,学习者对该课程的积极情感占据绝大部分,表明大多数学习者对于该课程表示满意,中性情绪和消极情感共占12.79%,表明部分学习者对该课程感到不满意,该课程还有需要改进的地方。

3.3.2 话题情感分析

选取课程学习资源、课程内容、教师授课3个话题的评论文本分别作情感分析,可以反映学习者关注的该课程3个话题的情感倾向,分析结果如表4所示。由表4可知,教师授课因素的积极情绪明显高于课程内容和学习资源因素,达到93.57%,即学习者对该课程的授课教师本人、教师的教学方式、教师讲课水平等满意度较高,说明该课程的授课教师是学习者表达积极情绪的主要原因;学习者积极情绪较高的还有课程内容因素,体现为高度、中度和一般的积极情绪占比分别为15.26%、21.98%和50.06%,都高于该因素下的消极情绪和中性情绪;与教师授课以及课程内容因素的积极情绪相比,学习资源因素的积极情绪只有70.99%,中性情绪和消极情绪与前两者相比有明显增加,说明学习者对本课程的学习资源(如课程作业、学习资料、作业平台等)表现出不满意的消极情绪,直接降低了课程评分。

简言之,在3个话题中,教师授课和课程内容是学习者在本课程学习中的主要关注点,是课程评分高低的核心参考因素,而学习资源是学习者表达中性情绪和消极情绪的主要因素。因此,在后续课程设计中,教学设计者要着力于提高该课程衍生性学习资源质量。

4 结论及建议

随着在线开放课程的迅速普及,在线课程评论数量也呈迅猛增长趋势,这些信息直接或间接地表达了学习者对于参与课程的情感态度。因此,从这些信息中挖掘他们的关注重点和情感态度对于促进个性化学习、提供有效学习支持服务具有重要意义。本文以中国大学MOOC平台中某课程的评论文本为研究对象,从文本挖掘方式入手,采用LDA主题模型建模和情感分析方法,探索在线课程学习过程中学习者的关注重点以及每个话题的情感倾向。

通过实验发现,在线课程学习者主要关注课程内容、教师授课方式以及学习资源3个方面。课程内容、教师授课方式是学习者表现积极情绪的主要原因,而对于该课程的学习资源,学习者表达的负面情感较多。这些结果将有助于教师改善教学设计,有助于平台开发人员完善学习平台功能建设,提供更好的用户体验,还可以帮助学习者直观地了解该课程的基本情况,以决定是否参与该课程的学习。在已有研究基础上,本文提出如下建议:

(1)关注课程资源及衍生性学习资源。课程资源以及课程运行过程中产生的衍生性学习资源作为每一门在线课程不可或缺的一部分,其完整性、时效性和丰富性是该资源能否得到学习者积极评价以及影响学习者持续学习的主要原因。学习者对于学习资源的评价内容直接指出了该课程资源在内容设置、资源制作等方面存在的问题,对课程资源以及相应衍生性学习资源进行持续优化和更新,能够帮助提升学习者的在线学习体验。

(2)教师教学行为提升。对该课程进行研究发现,绝大部分学习者对于该课程授课教师表达了积极情感,说明该教师的授课方式、语言表达符合学习者的要求。学习者参与课程学习虽多是出于对该课程内容的兴趣,但是教师的授课、演示以及其它教学行为带来的正面影响,对于學习者参与课程讨论、思考学习内容、教师与学习者的深层交互以及学习者知识建构等具有重要意义。比如,教师可以针对重要内容设置相应问题,鼓励并引导学习者参与在线讨论及课后作业,积极解决学习者存在的困难,以促进学习者的学习。

(3)重视课程评价。课程评价作为在线课程学习的重要组成部分,是研究者通过课程评价数据进行观点挖掘或者学习分析的重要资源。目前,在线学习平台建设正如火如荼,但更多集中于学习资源建设方面,而课程评价较少引起注意,虽然几乎每门课程都有相应的评价模块,参与课程的学习者数量多达十万,但是得到的评价数量却相对较少,且评价维度相对单一。为了深入挖掘分析在线学习者关注的话题和情感倾向,可以鼓励学习者从多维度、不同方面对课程进行评价,从而获取学习者的观点态度,并对课程进行改进。

5 结语

本文通过利用LDA主题模型和情感分析相结合的方法对学习者评论数据进行挖掘与分析,获取学习者关注话题与情感倾向,证明该方法能够有效挖掘课程评论文本中隐含的深层次信息,能够为在线课程建设提供帮助。但是文中对于课程评论文本数据的研究还有很大探索空间,比如,本文所用的情感分析方法依赖于已有软件,没有考虑到该实验数据的实际应用领域,没有构造基于课程评论文本的情感词典。在后续研究中,应该考虑跨领域文本的情感极性分类,构建以在线课程评论文本为基础的情感词典,提高情感分类准确性、情感模型科学性,还可以尝试运用基于机器学习的方法对文本进行聚类和情感分析,进一步提高实验结果的准确性。

参考文献:

[1] 江波,高明,陈志翰,等. 基于行为序列的学习过程分析与学习效果预测[J]. 现代远程教育研究,2018(2):103-112.

[2] 王改花,傅钢善. 数据挖掘视角下网络学习者行为特征聚类分析[J]. 现代远程教育研究,2018(4):106-112.

[3] 郭欣悦. 多元分析框架下的MOOC学习行为分析[J]. 开放学习研究,2017,22(4):21-28.

[4] 罗恒,杨婷婷,伊丽莎·理查德森,等. 开放课程中的学习行为分析:来自Google Analytics的证据[J]. 中国电化教育,2017(10):8-14,31.

[5] 刘三女牙,彭晛,刘智,等. 面向MOOC课程评论的学习者话题挖掘研究[J]. 电化教育研究,2017,38(10):30-36.

[6] XING W L,TANG H T,PEI B. Beyond positive and negative emotions: looking into the role of achievement emotions in discussion forums of MOOCs[J]. The Internet and Higher Education, 2019(43):100690.

[7] GIANLUCA ELIA,GIANLUCA SOLAZZO,GIANLUCA LORENZO,et al. Assessing learners satisfaction in collaborative online courses through a big data approach[J]. Computers in Human Behavior, 2019(92): 589-599.

[8] 罗玉萍,潘庆先,刘丽娜,等. 基于情感挖掘的学生评教系统设计及其应用[J]. 中国电化教育,2018(4):91-95.

[9] 吴林静,刘清堂,毛刚,等. 大数据视角下的慕课评论语义分析模型及应用研究[J]. 电化教育研究,2017,38(11):43-48.

[10] 洪庆,王思尧,赵钦佩,等. 基于弹幕情感分析和聚类算法的视频用户群体分类[J]. 计算机工程与科学,2018,40(6):1125-1139.

[11] BLEI D M,NG A Y,JORDAN M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research,2003,3(3):993-1022.

[12] 崔雪蓮,那日萨,刘晓君. 基于主题相似性的在线评论情感分析[J]. 系统管理学报,2018,27(5):821-827.

[13] 刘啸剑,谢飞,吴信东. 基于图和LDA主题模型的关键词抽取算法[J]. 情报学报,2016,35(6):664-672.

[14] 陈苹,冯林. 情感分析中的方面提取综述[J]. 计算机应用,2018,38(S2):84-88,96.

(责任编辑:孙 娟)

猜你喜欢
文本挖掘情感分析
在线评论情感属性的动态变化
慧眼识璞玉,妙手炼浑金