当前流行教育数据挖掘与学习分析工具概览

2019-04-15 01:38:22 中国信息技术教育2019年6期

曲智丽等

近年来,为进行教育数据挖掘(EDM)、学习分析(LA)研究,国内外的研究者研发了大量的工具。本文将重点介绍一些对教育数据挖掘和学习分析感兴趣的研究人员使用的最广泛、最容易访问和最强大的工具。

首先是三种非常适合数据的操作、清理及创建的工具:Microsoft Excel、Google Sheets和EDM工作台。接下来讨论Python和SQL在编程中所扮演的角色。在数据清理、转换之后,EDM或LA研究人员面临的问题是数据分析。我们将介绍一组适合于此任务的工具:Waikato Environment for Knowledge Analysis(WEKA)、KNIME、Orange和SPSS。我们还将重点介绍知识可视化工具,这些工具使数据科学家能够创建经过修饰的信息丰富的图形、图表、模型等可视化信息。最后,我们将讨论匹兹堡科学学习中心(PSLC)的DataShop,这是一个集成了数据收集、构造、分析和可视化的独特工具。

入门级数据处理和可视化工具

我们提供以下可用于清理、组织和创建数据集的工具,讨论每种工具的优点和它们在操作重组大型数据集方面的效用。

1.Microsoft Excel和Google Sheets

对于数据科学家来说,Microsoft Excel是最容易访问的工具,它在数据可视化方面做得很好。近来基于网络的数据处理工具Google Sheets也加入了易用工具的群体。这些工具并不适合非常大的数据集。Excel和Google Sheets擅长在可视化的界面中清晰地显示数据,这使得识别数据中的结构或语义问题变得很容易。这些工具还可以非常直接地设计新变量,快速地将这些变量应用到整个工作表中,并通过一系列数据直观地检查这些变量以获得适当的功能。但是Excel和Google Sheets并不适合所有类型的变量,創建不同变量可能需要对数据进行重新排序,这使得记录工作具有挑战性,并且很容易更改语义。除此之外,Excel和Google Sheets对可加载和操作的数据量有限制。

2.EDM Workbench

EDM Workbench是一个用于自动提取和数据标记的工具,它的许多自动化功能可以解决Excel和Google Sheets的多方面不足,如生成复杂的序列变量、数据采样以及标记。EDM使研究人员能够基于xml.创建变量,提取现有文献和智能辅导系统。在数据标记方面,EDM具有创建文本回放的功能,这是由研究人员或其他领域专家根据行为类别标记编写的人类行为的片段。EDM支持采样、评估器之间的可靠性检查,以及标签和变量之间的同步。

3.Python和Jupyter notebook

对于具有编程知识的数据科学家来说,有几种语言特别适合于数据操作。许多人认为Python是实现这些目的的一种特别有用的语言。工程文件在Python中比在Excel或Google Sheets中更容易实现。另一个是Jupyter notebook,它记录所有的分析和中间结果,按顺序显示每个用户操作。尽管有这样的优势,Excel或Google Sheets的可视化地检查创建的数据和变量仍然更容易。丢失的数据、重复的案例或不寻常的值在数据集中尤其难以识别,而且对于新手程序员,Python和Jupyter notebook的验证可能更耗时。此外Python能够处理许多不同类型的数据格式,如MOOC和其他在线学习平台。虽然Python在计算上比前面介绍的电子表格工具更强大,但它在这些领域的能力并不是无限的。Python能够容纳比以前的工具更大的数据集,但它仍然受到大小限制,在研究人员的计算机的1000万行数据范围内,速度会变慢。

4.Structured Query Language (SQL)

SQL用于组织一些(但不是全部)数据库。SQL查询是一种提取所需数据的强大方法,有时跨多个数据库表进行集成连接。在SQL(或其他数据库语言,如Hadoop或Spark)中,许多基本的过滤任务(如选择特定的学生子集或从特定的日期范围获取数据)比上述任何工具都要快得多。然而,对于在工程文件过程中创建复杂的变量,SQL可能是一种笨拙的语言。SQL可以与前面提到的其他工具有效地结合使用:SQL擅长于批量排序和筛选任务,这些任务在Excel或Python中非常缓慢。

进阶级数据挖掘和分析工具

本节列出的工具提供了广泛的算法和建模框架,可用于对教育数据中的流程和关系进行建模和预测。

1.WEKA

WEKA是一个免费开源软件包,集合了广泛的数据挖掘和模型构建算法。它不支持创建新变量,但支持自动选择。WEKA有一组广泛的分类、集群和关联挖掘算法,可以单独使用,也可以结合使用。用户可以从命令行、图形用户界面(GUI)或Java API调用算法。

2.SPSS

SPSS主要是一个统计软件包,提供一系列统计测试、回归框架、相关性和因子分析。SPSS是由IBM SPSS Modeler Premium提供的补充,这是一个相对较新的分析和数据挖掘包,集成了以前的分析和文本挖掘包。SPSS Modeler尤其能够从现有功能部件中创建新功能部件、数据筛选功能部件以及功能部件选择和功能部件空间缩减功能部件。用于数据转换、变量选择的工具与数据挖掘包中的工具类似,但选择方法的种类较少。它还有在变量选择中使用目标类的功能,这在许多其他包中是不可用的。虽然SPSS代表一个全面的统计分析工具,但是对建模的支持比本节中的其他工具稍差。SPSS不如其他工具灵活,更难于定制,也没有文档化。

3.KNIME

KNIME是一个数据清理和分析包,通常类似于RapidMiner和WEKA。它提供了许多与这些工具相同的功能,并且像RapidMiner一样,集成了所有WEKA的算法。此外,它还在情绪分析和SNA等领域提供了大量专门的算法。KNIME有一个特别强大的功能,它能够在同一分析中集成来自多个源的数据。KNIME还提供扩展,允许它与R、Python、Java和SQL进行接口。

4.Orange

Orange是一个数据可视化和分析包。虽然它的算法和工具比WEKA或KNIME少得多,但它的界面更干净,更容易理解,带有颜色编码的小部件,可以区分数据输入和清理、可视化、回归和集群。它不仅提供许多常用的算法,还具有可定制的可视化模块,用于使用合理的文档表示模型结果。然而与Excel相比,Orange可以处理的数据规模有限。基于其易于理解的GUI和菜单布局,Orange可能更适合小型项目或新手研究人员。

5.Spark MLLib

Spark是以分布式方式跨多个计算机处理器,可以大规模处理数据的框架。Spark可以通过API连接几种编程语言,包括Java、Python和SQL,允许使用这些语言进行分布式处理。Spark的MLLib机器学习框架提供了几种机器学习和数据挖掘算法。尽管MLLib的功能仍然有限,而且它是一个纯粹的编程工具(减少了对非程序员的可用性),但是它的分布式特性使其成为一个高效和快速的选择。

高手级数据可视化工具

本节介绍一些用于视觉分析的通用工具和方法,这些工具和方法支持构建交互式的视觉界面,以便从数据中获取知识,以及教师向学生传达学习的重要含义。

1.Tableau

Tableau提供了一系列用于交互数据分析和可视化的产品。虽然Tableau工具集的主要关注点是支持商业智能,但它已广泛应用于教育环境中,用于分析学生数据、提供可操作的见解、增强教学实践和简化教育报告。Tableau的主要优点是不需要编程知识来分析大量数据,并提供了连接或导入数据的功能。Tableau还具有构建丰富的交互式功能,能够向最终用户显示实时可视化。然而Tableau的功能仅限于此,它不支持预测分析或关系数据挖掘。此外,Tableau作为一种商业工具,是不可扩展的,也不支持与其他软件平台的集成。

2.D3.js

D3.js(数据驱动文件)是一个JavaScript库,它允许操作数据驱动,使研究人员和实践者能够构建复杂的交互式数据可视化,这些可视化需要数据处理,并且是针对现代Web浏览器的。它有几个优点:在构建各种数据可视化方面具有相当大的灵活性,不需要安装,支持代码重用,并且是免费开源的。然而在教育研究目的采用方面存在着挑战。作为一种技术,D3.js需要广泛的编程知识,并且存在兼容性问题,以及对较大数据集的一些性能限制。最后,它不提供对可视化用户隐藏数据的任何方法,需要数据预处理来确保隐私和数据安全。

专家级教育数据挖掘和学习分析工具

上面我们讨论了用于教育数据挖掘建模和分析的通用工具。然而,特定类型的数据和特定的分析目标通常需要更专门化的算法,而这些算法在这些通用工具中是不可用的。对于这些情况,研究人员和实践者通常使用针对这些情况设计的更专业的工具。

1.贝叶斯知识追踪工具(BKT:Tools for Bayesian knowledge tracing)

贝叶斯知识追踪是一种流行的潜在知识估计方法,学生的知识是通过在线学习来测量的。这与测试中常见的教育测量类型不同,因为在在线学习过程中,知识在被测量时发生了变化。贝叶斯知识追踪是一个隐马尔可夫模型(同时也是一个简单的贝叶斯网络),它可以预测一个学生是否掌握了智能辅导系统或类似程序中的特定技能。贝叶斯知识追踪模型通常使用以下两种算法之一进行匹配——网格搜索或期望最大化,两种算法在预测性能上具有可比性。

2.文本挖掘工具

文本挖掘是一个快速发展的数据挖掘领域,有大量应用程序和API可用来标记、处理和标识文本數据。文本分析工具可以处理语音的文本部分、句子结构和语义词的意义。此外,一些工具能够识别不同单词和句子之间的表示关系。下面介绍的工具并不是所有可用程序的详尽列表,而是一些工具的选择,它们跨越了文本处理和分析的许多方面。

①语言查询与字数统计(LIWC)。LIWC工具是一种图形化、易于使用的计算机文本分析工具,它通过分析使用的词汇量来测量文本的潜在特征。LIWC针对不同的心理词汇类别(如认知词汇、情感词汇、功能词汇和分析词汇)提供了80多个指标,并在大量研究中得到了广泛的应用和验证。

②WMatrix是一个在线图形化工具。该工具可用于文本语库的词频分析和可视化。虽然它可以用来进行完整的分析过程,但它主要用于提取语言特征,包括单词、重要的多单词短语标记,特别是单词语义类别。它还以词云的形式提供了文本语料库的可视化,同时为多个文本语料库提供了接口。

③Coh-Metrix是另一个流行的文本分析工具。它提供了100多个衡量文本分为11个类别。与WMatrix相比,CohMetrix提供了对文本特性和数据关系的上下文的理解和分析。WMatrix从语义上标记单词,而CohMetrix标记多个用于评估深层文本内聚。随着分析深层含义的增加,就需要更大的数据集,使用CohMetrix有效地倾向于需要更大的文本语料库。

3.过程和序列挖掘工具

除了更多的教育数据分析的传统方法,研究人员还瞄准跟踪学习者学习策略和流程序列。针对这类应用程序,出现了一组独特的工具。在本节中,我们将介绍用于支持教育数据挖掘和学习分析研究的过程和序列挖掘的ProM和tramler-tools。

①ProM是一个基于Java的、独立于平台的、模块化的、开源的平台,支持多种流程挖掘技术。最近的实现(ProM 6)支持在分布式设置中或通过批处理运行进程挖掘。ProM还支持多个进程挖掘算法的链接,提供预期输入和输出的清晰规范。此外,可以在运行时添加新的插件,从而直接集成到分析过程中。ProM允许与现有信息系统轻松集成,而不需要编程。

②TraMineR是一个免费开源工具,支持挖掘和可视化状态或事件序列。TraMineR的一些主要特性:用于状态分析和可视化,序列数据包括处理不同格式的序列和改造各种表示;描述纵向(如长度、复杂性和时间)和其他聚合(如过渡率、平均持续时间)的特征序列;访问各种各样的绘图功能(如频率或情节、密度指数情节);用广泛的指标来评估序列之间的距离。

4.匹兹堡科学学习中心(PSLC)开发的DataShop

PSLC的数据库包含一个存储库,其中包含许多可下载和分析的数据集,以及一组支持探索性分析和模型的工具。DataShop在数据集上具有知识组件模型的功能。它还能够在正确性、提示使用、潜在知识、响应时间和其他感兴趣的变量方面将学生的表现可视化。PSLC数据是一个Web应用程序,可以免费使用,但不是开源的。

教育数据挖掘和学习分析工具的终极原则:混合应用

研究人员和实践者在开始使用教育数据挖掘和学习分析时需要考虑的一个关键问题是,没有一种工具能够完美地从开始到结束分析大多数数据集的整个过程。不同的工具适合于不同的任务。例如,一个研究人员可能在一个流行的MOOC中拥有6000万次系统交易的数据。从这个数据集中,他只选择一个特定的数据(SQL),然后细化数据集计算系统中总学生时间(Excel),在拟合预测模型中(RapidMiner)分析论坛的帖子,回复(NodeXL)之间的关系和整体文本质量的帖子,回复学生(CohMetrix)。最后,研究人员可能会找出可视化社交网络数据(Gephi)中最有趣的学生集群。

所有的工具,它们都代表了在这个领域工作的不同科学家群体的总和。它们代表了解决不同问题的不同方法,每一种方法都有其独特的优缺点。通过工具的组合,可以实现复杂的分析,并可以做出有用的发现。这是一个快速变化的领域,新的工具不断出现。尽管如此,我们希望这篇综述能够对那些在理论层面以及在实际应用中对这些工具感兴趣的研究人员有所帮助。