国外教育大数据研究的可视化分析

2018-03-14 19:51梅鹏飞何晓萍

中国教育信息化·高教职教 2018年2期

梅鹏飞+何晓萍

摘要：随着网络教育技术的迅速发展，教育领域大数据必然会成为全世界顶尖教育研究者竞相争夺的前沿研究阵地。本文以SCI和SSCI数据库为文献来源，以教育大数据研究为主题，利用引文分析法和可视化分析工具，分析出国外教育大数据研究的主要力量分布集中在普渡大学、斯坦福大学等核心研究团队。从教育大数据的知识基础中分析得知，数据挖掘技术可以探测出有效信息，用于形成性评估，以协助教育者，为设计教学情境修改教学方法时提供决策并建立教学基础。关键词共现图谱揭示了国外教育大数据研究热点，主要包括数据挖掘、学习分析、教育数据挖掘。未来研究的趋势更加关注“数据越大是否就是好数据”、“数据的客观性和准确性是否满足可证伪条件”、“限制性采集大数据所创建的新数据是否会形成信息孤岛从而影响数据共享”。

关键词：教育大数据；可视化分析；数据挖掘

中图分类号：G40-034 文献标志码：A 文章编号：1673-8454（2018）03-0011-07

一、引言

《大数据时代》的作者维克托·迈尔-舍恩伯格开创了国外大数据研究先河，并通过4个“V”描述了大数据具有的四大特征。即数据体量大（Volume）、数据类型多（Variety）、数据价值密度低（Value）、数据具有实效性（Velocity）四大特征。[1]教育大数据是大数据的一个子集，特指教育领域的大数据，是整个教育活动过程中所产生的以及根据教育需要采集到的，一切用于教育发展并可创造巨大潜在价值的数据集合。[2]本文采用词频分析法和引文分析法，使用CiteSpace软件对Web of Science核心合集中SCI和SSCI两个数据库中教育大数据研究的相关文献进行了搜索、梳理，客观生成的国外教育大数据研究的知识图谱，揭示了国外教育大数据研究领域、研究力量分布、知识基础与研究热点主题。有效的数据分析，以期为我国教育大数据的进一步研究提供参考和借鉴。

二、研究设计

1.研究方法

词频分析法是指分析某学科领域特定时间内发表的文献关键词，通过关键词出现的频次的高低及频次的变化趋势来确定该领域研究重点和发展方向的文献计量方法。[3]引文分析法，利用数学及统计学方法进行比较、归纳、抽象、概括等，对科学期刊、论文、著者等分析对象的引用和被引用现象进行分析，以揭示其数量特征和内在规律的一种信息计量研究方法。[4]本文利用词频分析法和引文分析法，分析国外教育大数据研究的领域分布、知识基础与热点主题。采取定量研究与定性研究相结合的方法，首先结合词频分析法、引文分析法对相关文献进行定量分析，再通过定性分析加以补充。

2.数据来源

为确保文献的权威性，本文以Web of Science核心合集中SCI和SSCI两个数据库作为文献信息来源，检索策略中以“big data”、“education”作为主题词，时间限制为2007-2017年，限定学科为Education Educational Research，文献类型为Article，搜索、筛选、整理得到209条相关文献。导出文献数据的题录信息，以全记录格式保存，保存日期为2017年6月8日。

3.分析工具

本文分析工具采用陈超美博士及其团队开发的基于Java语言的可视化分析软件CiteSpace V，这是一款专门用于学术文献分析的信息可视化分析工具。目前已广泛应用于探测、分析学科研究前沿的发展趋势以及研究前沿与知识基础之间、不同研究前沿之间的关系。[5]可视化工具以图表形式直观展现关键词的热点分布及领域走向，揭示了研究主题的外表特征，且图谱的数据为科学、客观地分析教育大数据提供了依据。

三、研究结果与分析

1.时间分布

国际教育大数据研究10年来发文数量及引文数量统计与分析结果如图1、图2所示。从图中可以看出，国际教育大数据研究的发文数量2007至2013逐年增长，2013达到一个小高峰，2014年有所回落，但比较稳定；2015至2016年关于教育大数据研究又开始受到更多研究者的关注，2016年又达到顶峰。而引文数量在2008-2012年亦逐年增长，且增速比较显著。结合图1和图2来看，发文数量越多，相应的引文数量也越多，其走向有着密切的相关性。说明了随着大数据时代的到来，教育大数据研究越来越受重视。

2.国家（地区）和机构分布

在CiteSpace V中设置时间切片为1，时间设置为2007-2017年，分析对象同时选择“Institution”和“Country”，选择TopN，N值设为50，采用Pathfinder（寻径）算法，运行CiteSpace V，得到教育大数据国家和地区图谱，如图3所示。

其中，圆形节点代表国家（地区），处于连接线上的小节点代表机构。圆圈的大小代表发文数量，圆圈越大表示发文数量越多；节点间的连线代表合作程度，节点间的连线越多，表示合作越密切；节点最外层的紫色圆环代表中心性，中心性越大，表示在该领域内影响力越大。[6]从图3中可以看出，节点最大的国家是美国（USA），其次是西班牙（SPAIN）。

从表1中可见，被引频次最高的是美国，文献贡献率最大，接下来是西班牙、澳大利亚、英国、土耳其、加拿大。從整个图谱来看，美国最外层的紫色圆环最大，节点中心性最高，说明美国在教育大数据领域占有领先地位。同时，美国与其他国家的节点间连线较多。由此可见，图谱中绝大多数国家与美国有合作关系。

美国关于教育大数据研究机构主要集中在大学和科技公司（Microsoft），如普渡大学、斯坦福大学、美国佐治亚大学、匹兹堡大学等；西班牙的主要研究机构有科尔多瓦大学、马德里科技大学、西班牙格拉纳达大学等；澳大利亚主要有莫纳什大学、堪培拉大学、麦考瑞大学等；英国主要研究机构有伦敦大学、诺丁汉大学、英国普利茅斯大学等；土耳其具有代表性的机构有哈希德佩大学、加齐大学等；加拿大主要研究机构有皇家大学、卡尔加里大学等。这些国家和机构在教育大数据研究方向占有重要地位，研究者给予了更多关注。

3.研究热点分析

在CiteSpace V软件界面中选择分析对象为关键词（Keyword），其余设置不变。运行软件，得到关于教育大数据研究领域的关键词共现图谱，如图4所示。图谱中，节点（圆圈）大小代表关键词共现频次，圆圈内环不同颜色代表其出现的相应年份，节点紫色圆环（在黑白图中用圆环粗细显示）表示关键词具有高度中心性。中心性越高的节点，对其他节点间的联系起控制作用，这也体现其在整个网络中的重要地位。[7]

图4揭示了国际教育大数据研究热点，节点最大的是“data mining（数据挖掘）”，具体包括“education（教育）”、“performance（绩效）”、“high education（高等教育）”、“model（模型）”、“technology（技术）”、“education data mining（教育数据挖掘）”、“big data（大数据）”、“learning analytics（学习分析）”。通过合并同义词后，从运行结果中导出前被引频次大于10的关键词，如表2所示。

结合图4所示图谱中关键词的圆圈大小、紫色圆环粗细，以及表3所示关键词中心性大小，可以发现频次排在前9的关键词，其中心性都较高，并处于图谱中心位置，表示它们与其他关键词存在着紧密的关联性，节点年轮较为突出。综合分析发现，2007-2017年教育大數据研究的关注点主要在“data mining（数据挖掘）”、“performance（绩效）”、“education（教育）”、“big data（大数据）”、“higher education（高等教育）”、“technology（技术）”、“learning analytics（学习分析）”、“education data mining（教育数据挖掘）”，在教育大数据研究中占有重要地位。

在线教育和大数据时代背景下，计算机领域（数据挖掘）与教育领域相结合是一种必然的趋势。大数据在教育领域中的应用主要有学习分析（Learning Analytics）和教育数据挖掘（Education data mining）。[8]利用数据挖掘和学习分析技术可以依据学习者学习行为有效预测学习者学习偏好，跟踪学习者学习状态，必要时进行干预，有助于提高学习效果并实现个性化教学。目前，教育大数据研究领域的热点，主要是围绕大数据的概念表征、教育（高等教育）、数据挖掘以及学习分析等基础理论的研究。

教育大数据研究也存在一些亟待解决的问题。其一，教育数据由教育者和受教育者进行教学活动所产生，对主导-主体相结合的教学行为和学习行为，具有潜在的应用价值，但也涉及教师和学生的隐私，保护不当会带来严重的后果。其二，在算法研究上要加大安全系数，以防黑客恶意入侵（如2017年5月份出现的勒索病毒攻击教育网站及几所高校导致毕业论文系统瘫痪）。

4.研究主题知识基础分析

本节对教育大数据进行知识基础的分析，目的是对研究某领域的发展历程和前沿有一个清晰的了解。其中主要包括奠基性文献分析和关键性文献分析。

（1）奠基性文献分析

文献共被引图谱反映了对应研究领域的知识基础。若两篇文献同时被其他文献引用，则这两篇文献间就存在共被引关系。参考文献通过共被引关系构成了文献共被引图谱。在图谱中，节点表示参考文献，节点间的连线表示其间存在共被引关系。[9]连线的粗细表征了共被引的强弱。知识基础分析有利于研究某领域的前沿和本质，由共引聚类来表示，共引聚类中的文献越多，其知识基础越大并趋于稳定状态。[10]教育大数据研究的知识基础分析大致可分为两类：一是早期研究的奠基性文献，二是被引频次和中心性都较高的文献。

在CiteSpace V软件中，分析对象选择“Cited Reference”，以Thresholding（c，cc，ccv），c（引文数量）、cc（共被引频次）和ccv（共被引系数）三个层次上，分别设定阈值为（2，2，20），运行软件，得到关于教育大数据研究的共引文献时间序列图谱，如图5所示。

由图5可知，大数据研究的奠基性文献最早可追溯到2008年，Borgman在《LEARNED PUBLISHING》上出版的《Data， disciplines， and scholarly publishing》。同样在2008年，Erik W.Black在Internet and Higher Education上发表的《Data for free：Using LMS activity logs to measure community in online courses》。此外还有Beer D于2009年发表在《New Media & Society》上的《Power through the algorithm？ Participatory web cultures and the technological unconscious》等文献。

Borgman认为研究数据可以被重复使用，复制研究，以提出新的问题，并验证研究结果。数据正在成为学识或学问的重要产物，在补充期刊文章、论文和书籍中所起的作用。文中指出当链接到出版物和其他相关资源以形成价值链时，数据变得更加有价值。数据的类型和用途在学科之间差异很大，出版物的在线可用性和学者发表文章的初衷也不尽相同。出版社、学者和图书馆员都可以在构建数字化研究的信息基础设施方面发挥作用。技术、政策和机构组成部分正在逐渐成熟，在公共存储库中实现大量的数据集，以及与出版商数据库的链接，是维护和维持数字形式的学术记录的最有希望的解决方案。[11]

Beer在文中指出，对Web 2.0版本的描述通常被理解为大规模地转向Web的参与式和协作版本，用户可以在其中参与和创建内容。事实上，迄今为止还没有机会探索在这种明显的“赋权”和“民主化”的背景下如何发挥作用。本文认为，这是一个迫切需要关注的问题。[12]后Web2.0时代是网络发展中一个重要阶段，它连接着下一代互联网Web3.0。在这个时代背景下，互联网、物联网每天都在产生大量的数据。“大数据的出现究竟带来了什么”，必须对这些问题进行深入的思考。

2011年，Mackenzie、Adrian等人在文中指出，连接代码和编码、“危机”的产生式和对“危机”的担忧为探索的主题。从中分析了当代生活中越来越多的各种各样的代码如何受到危机扩散的严重影响。讨论了跨越这些看似多样化主题的代码和危机耦合的三个相关方面（Signification意义，Performativity操演和Excess过度）。跨越这些看似不同的主题，作者和这个特殊问题中的其他贡献者试图超越对代码语言限制的理解。[13]随着大数据时代的到来这些问题显得尤为明显，随之而来的教育大数据也必然存在这样的问题，研究者应该予以重视。

2012年，Boyd D在《Information Communication & Society》上发表的文章《CRITICAL QUESTIONS FOR BIG DATA Provocations for a cultural， technological， and scholarly phenomenon》，作者提出了大数据的关键性问题：大型搜索数据是否能帮助我们创造更好的工具、服务和公共产品，还是会迎来新一轮的隐私入侵和侵入性营销；数据分析是否能帮助我们了解在线社区和政治运动，还是使用分析来跟踪抗议者和抑制言论；大数据会改变我们如何研究人际交往和文化，还是缩小研究选择范围，并改变“研究”的意义。文章将大数据定义为一种文化、技术和学术现象，并论述了六个值得深思的代表性观点：①大數据改变了知识的定义。②声称客观性和准确性是误导性的。③更大的数据并不总是更好的数据。④脱离上下文，大数据将失去意义。⑤只是因为它是可访问的并不会使其受伦理约束。⑥有限的获取大数据带来了新的数字鸿沟。[14]

2013年Eynon Rebecca在《The rise of Big Data： what does it mean foreducation， technology， and media research？》一文中提出了三组大数据在教育领域中的挑战：①道德挑战，大数据代表了一系列伦理道德方面的考虑，特别是要考虑关于隐私、知情同意和对伤害的防护等方面，并提出了更广泛的问题——应该将哪些数据结合和分析，以及运用其达到何种目的。②确保了解使用大数据可以或不能执行的研究种类。③围绕不平等问题的挑战。除此之外作者提出了一些实际问题——大家如何熟练地进行这种分析、在多学科团队中学习与他人合作是否足够。[15]这些问题的提出为后期研究者继续研究教育大数据时提供参考，有利于问题进一步得到解决。

2014年Di Cerbo和Behrens在《Impacts of the Digital Ocean on Education》一文中提出了“数字海洋”概念，“数字海洋”用来描述与数字工具交互获得的超大规模数据。正如“大数据”正在转变其他行业，如保险、金融、零售和职业体育，“数字海洋”将及时转变教育。它将解决一些长期困扰教育工作者的问题，从而实现从课堂到整个系统的各个层面的循证政策的长期愿望。[16]文中通过设定一个希望取得成功的愿景：他们将教学、学习和评估视为一个综合过程的三个不同方面，随时/实时互相补充；他们看到更复杂的教育成果，如个人和个人的技能，并使之变得可评估、可教导和可学习。但是，作者也对读者提出了要求——在21世纪的学习中，对学习、推理和技术从不同角度进行思考。

（2）关键性文献分析

关键性文献指被引频次或中心性比较高的文献。在CiteSpace V中，分析对象选择“Cited Reference”，运行CiteSpace软件得到文献共被引图谱，便于直观地呈现关键节点文献，如图6所示。

根据软件运行结果，将被引频次排前10的文献导出，如表4所示。

结合图6和表4可知，来自科瓦多尔大学教授Romero Cristobal在2010年发表的《Educational Data Mining： A Review of the State of the Art》一文被引频次13次，中心性0.50，影响力较大，是教育大数据领域的关键性文献。文中调查了迄今为止在教育领域进行的最相关的研究。首先介绍EDM（教育数据挖掘），并描述不同用户组，教育环境类型及其提供的数据。然后，列出通过数据挖掘技术解决的教育环境中最典型/最常见的任务，最后讨论一些最有潜力的未来研究课题。文中对EDM方面进行了最新情况的回顾，并对该领域迄今为止最为相关的研究工作进行了调查。对每个研究都进行了分类，这些研究类目来自不同的研究平台（e-learning/LMS和ITS/AEHS），使用了不同的数据挖掘技术或方法（决策树、神经网络以及贝叶斯网络），完成数据挖掘任务（回归、聚类、分类以及关联规则挖掘）。[17]教育数据挖掘是一个新兴的跨学科研究领域，主要任务是开发一些用于探索源自教育环境中数据的方法。为了研究教育问题，教育数据挖掘使用计算方法来分析教育数据。

Romero Cristobal在2007年发表的论文《Educational data mining： A survey from 1995 to 2005》被引频次10次，中心性0.37，是教育大数据研究领域的关键性文献之一。文中提出了在教育系统中应用数据挖掘的循环模型，是集形成假设、测试和修复的迭代循环系统。并指出数据挖掘技术可以探测出有用的信息，用于形成性评估，以协助教育者，为设计教学情境修改教学方法时提供决策并建立教学基础。[18]文中对数据挖掘在教育系统中应用的多角度分析，包括面向学生、教师、学术负责人和管理员，为后期教育大数据研究模型的构建做出了重要贡献。

怀卡托大学的计算机科学系教授Witten I在2005年编著了一本数据挖掘领域经典教材《Data Mining： Practical Machine Learning Tools and Techniques，Second Edition》（《数据挖掘：实用机器学习技术》），自第一版出版后对上一版内容进行了全面更新：数据挖掘领域的技术变革和新方法，包括数据转换、集成学习、大规模数据集、多示例学习方面的新材料，以及新版的Weka机器学习软件。[19]机器学习（Machine Learning）是计算机科学的一个子领域，机器学习关注预测，是对已知的特性进行预测。数据挖掘使用机器学习的手法，关注从数据中发现未知的特性。因此，这本专著属于教育大数据领域研究的关键性文献之一，为后续教育大数据研究提供了参考和线索。

四、结论

本文以Web of Science核心合集中SCI和SSCI两个数据库收录的近年来教育大数据研究文献为来源，通过使用CiteSpace V软件，对客观呈现的图表信息从教育大数据的研究力量分布、知识基础及研究热点等方面进行分析。

图谱揭示教育大数据研究的外部特征表明，研究力量主要分布于普渡大学、斯坦福大学及微软科技公司为核心的研究团体，其中最大的研究群体是普渡大学。西班牙地域的主要研究机构有科尔多瓦大学，其他研究群都含有多个机构。Romero C作为学科研究的领军人物，文献贡献量最大，影响力较高。Witten I和Yacef K等作为学科研究带头人，学术研究贡献量较大。

教育大数据共引文献时间序列图谱及文献共被引图谱显示了教育大数据研究的知识基础。数据可以复制利用已被证实，通过高精仪器的科学与工程研究，正在以更高的速度生成比以往任何时候都要多的数据。随着在网络世界中对教育、商业和社会活动更多的交流和沟通，正在形成广泛的数字化跟踪，产生一系列行为数据，这些数据对人类活动的建模和对个人反馈的定制非常有价值。“大数据的出现究竟带来了什么”，必须对这个问题进行深入的思考。

关键性文献分析表明，经典国外文献为国内的教育大数据研究提供了丰富的理论基础和分析框架，主要涉及數据挖掘在教育系统中运用循环模型，以协助教育者，为设计教学情境修改教学方法时提供决策并建立教学基础。教育数据挖掘是一个新兴的跨学科研究领域，主要任务是开发一些用于探索源自教育环境中数据的方法。为了研究教育问题，教育数据挖掘使用计算方法来分析教育数据。

关键词共现图谱直观呈现了国外教育大数据研究热点，主要包括数据挖掘、学习分析、教育数据挖掘。利用数据挖掘和学习分析技术可以依据学习者学习行为有效预测学习者学习偏好，跟踪学习者学习状态，必要时进行干预，有助于提高学习效果并实现个性化教学。

目前，大数据在教育领域中面临三大挑战，也就是研究领域所关注的三个值得研究的问题：其一，数据越大是否就是好数据，由于数据的类型和用途在学科之间差异很大，须考虑教育领域大数据的准确性和可行性；其二，采集的大数据是否满足可证伪条件，教育领域大数据只有满足了可证伪条件的验证，方能保证大数据的客观性和准确性；其三，限制性采集大数据所创建的新数据是否会形成信息孤岛从而影响数据共享，限制性地获取教育大数据，易形成数字鸿沟，从而影响数据共享。总之，为了保证教育大数据的均衡发展，需要在安全、应用、治理方面进行深入研究。

参考文献：

[1]维克托·迈尔-舍恩伯格著，盛扬燕、周涛译.大数据时代[M].杭州：浙江人民出版社，2012.

[2]杨现民，王榴卉，唐斯斯.教育大数据的应用模式与政策建议[J].电化教育研究，2015（9）：54-61，69.

[3]马费成，张勤.国内外知识管理研究热点——基于词频的统计分析[J].情报学报，2006，25（2）：163-171.

[4]罗式胜.文献计量学概论[M].广州：中山大学出版社，1994.

[5]Chen C.M. Cite Space II： Detecting and visualizing emerging trends and transient patterns in scientific literature[J]. Journal of the American Society for information Science and Technology，2006，57（3），359-377.

[6]何晓萍，江毅，万昆.基于Web of Science的MOOC研究可视化分析[J].现代情报，2015（8）：92-99.

[7]陈超美.Cite SpaceⅡ：科学文献中新趋势与新动态的识别与可视化[J].情报学报， 2009，28（3）：401-402.

[8]Bienkowski，M.， Feng，M. & Means，B.（2012）.Enhancing Teaching and Learning Through Educational Data Mining and Learning Analytics：An Issue Brief[EB/OL].http：//www.ed.gov/edblogs/technology/files/edm-la-brief.pdf.

[9]Small H.Co-citation in Scientific Literature： New Measure of Relationship between 2 Documents[J].Journal of the American Society For Information Science，1973，24（4）：265-269.

[10]Persson O. The intellectual base and research fronts of JASIS 1986-1990 [J].Journal of the American Society for Information Science，1994，45（1）：31-38.

[11]Borgman C L. Data， disciplines， and scholarly publishing[M].Learned Publishing， 2008，21（1）：29-38.

[12]Beer D.Power through the algorithm？ Participatory web cultures and the technological unconscious[J].NEW MEDIA SOC，2009，11（6）：985-1002.

[13]Mackenzie A，Vurdubakis，T.Codes and Codings in Crisis Signification， Performativity and Excess[J].Theory Culture & Society，2011，28（6）：3-23.

[14]Boyd，D. CRITICAL QUESTIONS FOR BIG DATA Provocations for a cultural， technological， and scholarly phenomenon[J].Information Communication & Society，2012，15（5）：662-679.

[15]Eynon R. The rise of Big Data： what does it mean for education， technology， and media research？[J].Learning Media and Technology，2013，38（3）：237-240.

[16]Di Cerbo. K. E. & Behrens，J. T.（2014） Impacts of the Digital Ocean[M]. London：Pearson.

[17]Romero C. Educational Data Mining： A Review of the State of the Art[J].IEEETRANSACTIONS ON SYSTEMS MAN AND CYBERNETICS PART C-APPLICATIONS AND REVIEWS，2010，40（6）：601-608.

[18]Remero C. Educational data mining： A survey from 1995 to 2005[J].Expert Systems with Applications，33（2007）：135-146.

[19]IanH.Witten， EibeFrank.Data mining ： practical machine learning tools and techniques = 數据挖掘：实用机器学习技术 / 2nd[M].China Machine Press，2005.

（编辑：王天鹏）