数据挖掘技术在网络学习平台设计中的应用研究

2016-05-18 13:43王彦新王红
电脑知识与技术 2016年9期
关键词:计算机专业文档数据挖掘

王彦新++王红

摘要:将数据挖掘技术应用于网络学习平台的设计与开发中,通过对大量专业论坛数据进行数据预处理,然后在预处理后的数据上应用LDA模型抽取热点学习主题和关键词,为学生的学习提供了具有科学性、前瞻性的学习指导,克服了以往网络学习平台只是单纯信息查看和下载的缺点,更加有助于学生自主学习习惯的培养。

关键词:学习平台;数据挖掘;LDA模型;自主学习;大数据

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)09-0026-03

互联网的快速发展进一步促进了对传统教学模式的改革,网络学习平台的应用已经日益普及。然而,目前的网络学习平台主要是在课件、教案的下载、上传,以及教学视频的观看等机械功能上,缺乏师生和同学之间的相互交流,缺少教师对学生学习背景、努力程度及学习效果的有效监督,更不会具有针对性的对学生进行学习引导。

本文阐述的高职院校网络学习平台除了具有教学资源的学习下载、作业的提交查询、论坛和答疑教室等常规功能外,增加了基于数据挖掘技术的学习热点分析功能。学习热点分析为学生提供了相关课程中的热门学习主题和主题下的相关关键词列表,为不同学习程度和不同学习兴趣的同学规划今后学习过程中将会遇到的关键知识点。

1 相关知识介绍

1.1数据挖掘

数据挖掘一般是指从大量的数据中提取隐藏于其中信息的过程。这些原始数据可能是结构化的,也有可能是半结构化的,如文本、图形、图像等。此外,还有一些网络没有固定形式的数据。数据挖掘技术通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等很多方法来实现信息提取。目前,数据挖掘技术广泛地应用于各学科领域并付诸实践。

1.2主题模型

主题模型的本质是一种概率模型,通过对训练文本集进行分析,挖掘出文档或者语料库中的潜在语义结构,即主题。主题模型的主要思想是认为每一篇文档是基于一些主题的概率分布,每一个主题是基于一些词语的概率分布,从而将高维度的“文档-词语”向量空间映射到低维度的“文档-主题”和“主题-词语”空间,有效提高了文本信息处理的性能[1]。

主题模型认为一篇文档的每一个词语都是通过“以一定的概率选择了某个主题,并从这个主题中以一定的概率选择了某个词语”这样一个过程得到的。所以,如果要生成一篇文档,这篇文档里的每一个词语出现的概率为:

上图中θ代表语料库中的每一篇文档与T个主题的多项式分布,φ代表每个主题与词表中的V个单词的多项式分布。词表由语料库中所有文档中的互异单词组成,当然是要进行去掉停用词等操作。α、β分别是θ和φ的Dirichlet先验分布的超参数。Z是当前选择的主题,W是文档中的词语。

2 数据收集

CSDN论坛号称全球最大的中文IT社区,为IT专业技术人员提供了最全面的信息传播和服务平台,在这个平台上,用户可以选择自己的专业领域发表相关见解。文论文通过爬虫程序获取C#和ASP.NET版块的用户和发帖子信息。截至2014年10月底,获取相关信息76129条。获取到的帖子信息包括编号、帖子网址、帖子名称、问题点数、发帖人、发帖人等级、帖子正文、发帖时间。

3 论坛数据预处理

中文分词采用张华平博士的NLPIR[3]汉语分词系统,整理了计算机专业领域的常用词汇336条,以此构建了用户词典辅助中文分词。分词之后的预处理过程包括:英文单词的小写转换、去停用词。停用词采用哈工大停用词表,并搜集整理与论坛相关的停用词,例如:版主、高手、求助等共计1005条。

4 LDA主题模型实现

4.1 LDA模型建模

LDA模型是一种生成模型,不考虑词语的先后顺序和关联关系。模型把每一篇文档看成一个词频向量,只考虑文本的词频,从而将文本信息转化为易于建模的数字信息。

本论文主要针对论坛数据进行建模,数据库中的每一条帖子即为一篇文档,帖子中描述的语义即为需要分析挖掘的主题。对论坛数据进行主题建模的过程即为根据预处理后的帖子词语信息,通过后验概率推断的方法,对隐藏的主体结构进行学习,从而挖掘出论文的主题信息的过程。本文采用Gibbs抽样的方法对该后验分布进行推导,Gibbs抽样是一种MCMC的抽样方法,其通过对基于条件概率抽样得到的低维子集信息进行采样,实现对高维分布的模拟,最终有效地从大规模数据中抽取出主题信息。

4.3 实验结果

以计算机专业论坛数据集进行主题建模,通过实验结果数据观察,使用人工判定对的方法,从生成的主题中选出6个有意义的主题,表1、表2为各主题编号和该主题下分布概率最高的前10个关键词和概率值:

从表1、表2的实验结果可以看出,在计算机专业论坛数据的主题模型结果中,主题10关于网络通讯编程、主题13关于数据库、主题18关于报表和图形打印、主题21关于类、主题23关于窗体控件、主题26关于不同版本C#开发工具的安装、调试及程序发布。通过观察可知,每个主题的主题内容均可用排名靠前的关键词之一或关键词词组来描述,因此可以得出主题模型的训练结果比较理想,排名靠前的关键词能够比较准确的反映主题的研究内容,有利于主题标签的选取,具有实际意义。

5 高职院校网络学习平台的设计与实现

高职院校网络学习平台针对高职学生学习特点,以提供常规知识获取、知识交流、学习程度监督和热门学习主题分析功能为主要内容,为本校计算机软件专业的同学进行自主学习提供有效帮助,为同学了解热门学习主题提供个性化信息,为教师了解学生及学生了解自己目前学习情况提供有效依据。

5.1 系统简介

传统的网络学习平台,在功能上均是以学习资料的上传下载为主,没有提供学生与教师及时沟通的桥梁,教师不能及时掌握学生学习的情况,没有基于数据进行深层次的挖掘,不能为学生提供热点学习主题,不能为学生提供有效的学习方向指导。本系统开创性地将主题模型应用到大量的计算机专业论坛数据的深层次信息挖掘中,更准确、科学地反映出学生的学习热点,为学生的学习方向提供了有效的指导。

5.2系统结构图

1)系统功能模块图

图2为高职院校网络学习平台系统功能模块图,从图中可以看出该系统由六大功能模块组成,分别为教学资源、作业布置、知识拓展、互动社区、热点分析、后台管理,其中,热点分析模块中,分为学习热点分析和学习路径规划。各功能模块相互联系,共同实现了网络学习平台的功能,并实现了基于大量计算机专业论坛数据的信息挖掘,为学生的自主学习提供了有效、全方位的帮助。

2)系统层次结构图

图3为高职院校网络学习平台的层次结构图,从图中可以看出,该平台基于大量计算机专业论坛数据,先对论坛发表的帖子资源进行数据抽取和数据清洗等步骤实现数据的预处理,然后在预处理后的数据上进行LDA主体模型建模实验,最后将实验结果作为平台应用的后台数据支持,为学生提供实际的展示和搜索功能。

3)系统功能实现

图4为高职院校网络学习平台首页展示图,可以清晰、直观的展示系统主要功能,方便学生、教师用户操作与使用,界面简洁美观。

本文主要介绍热点分析部分,热点分析功能是LDA主题模型的实际应用。该功能基于计算机专业论坛帖子信息,经过词语过滤等数据预处理后,进行主题模型建模,最后得出目前计算机软件专业的学习者关注的学习热点及其关键词,如图5所示。

参考文献:

[1]周朝菲. 基于主题模型的微博推荐研究[D]. 浙江大学硕士论文,2012.

[2]Blei.D g.A, Jordan.M.LatentDirichlet allocation. Journal of Machine learning Research[J].2003,3:993-1002.

[3]Vapnik V N. The nature of statistical learning theory[M].New York:Springer,1995.

[4]Griffiths.T.L, Steyvers.M.Finding scientific topics[C]. Proceeding of the National Academy of Science of United States of America,2004,101:5228-5235.

猜你喜欢
计算机专业文档数据挖掘
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
“以赛促学,以赛促教”促进计算机专业教学理念创新与实践研究
基于并行计算的大数据挖掘在电网中的应用
基于RI码计算的Word复制文档鉴别
一种基于Hadoop的大数据挖掘云服务及应用
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
职业高中计算机专业教学改革浅析
非计算机专业C语言教学探讨
新形势下技校计算机专业人才培养探讨