基于聚类算法的学习风格建模策略研究

2020-07-30 14:04龙坡何晶

科技视界 2020年18期

龙坡何晶

摘要

传统学习风格基于调查者提前设定的问卷项目权重，加权后得出学习者所属的学习风格类型，这种方式存在很强的人为干预的不确定性。本文讨论基于机器学习和大数据的方法，通过聚类算法，利用样本之间客观存在的关联关系，自动将大数据样本分类成多个学习风格分类，从而减少人为主观因素的干扰，提高学习风格类型判断模型的准确率。

关键词

学习风格;学习偏好;聚类;机器学习;大数据

中图分类号： TP18 文献标识码： A

DOI：10.19694/j.cnki.issn2095-2457 . 2020 . 18 . 86

0 前言

学习风格也称为学习偏好，或者说是学习者更倾向的学习方式。每个人在对待问题的态度、处理和感知时都具有自己的特点和处理方式。传统的学习风格测试主要通过问卷调查进行，得到问卷调查后，人工根据预先判断的权重，进行加权计算，得出所属的学习风格类型。这种方式，人为因素干预很大。如果模型设定之人对于每一项答案的结果认识有偏差，则整个模型准确度就会下降。本文讨论基于机器学习和大数据处理技术，采用聚类算法，利用特征之间的关系，自动地将样本数据集分成多个类，并以此样本聚类后的结果作为算法模型，来判定一个新的样本所属的学习风格类型。基于聚类算法的学习风格建模策略，能够减少人工干预对模型造成的误差，从而提高测试准确率。

1 常见学习风格分类

1.1 凯夫分类法

关于学习风格，一直以来都是各有一套自己的理论体系。国外学者在20世纪70年代开始就提出了学习风格理论，并从多种角度阐述了自己的观点。学习风格论最早由美国学者哈伯特·赛伦（Herbert Thelen）提出，凯夫（Keefe）将其进一步丰富和发展[1]。国内著名学习风格学者谭顶良先生也提出了自己的分类方法。目前国际上认可度最高的学习风格概念的体系则是凯夫对学习风格概念的界定[2]。

（1）主动型：主动型风格的人喜欢和很多人一起合作学习，也就是我们常说的团队型选手。

（2）反思型：这类人相对于喜欢独立自主的去完成工作和任务，具有较强的个人自主意识，偏向独立观点。

（3）感官型：感官型的学习者喜欢将学习内容和实际的事物相关联，他们觉得脱离了真实世界的学习方法是不太能接受。

（4）直觉型：这类的学习者对于知识反应迅速，并喜欢创新的进行学习，不喜欢墨守成规，同时发现能力强，善于洞察事物间的关联或可能性。

（5）视觉型：视觉型顾名思义就是喜欢即见即所得，他们喜欢从可以看得见的或者实操性比较强的场景中进行学习。

（6）听觉型：听觉学习者更倾向于从口述或者文字描述中获得知识。

（7）循序型：这类学习者比较适合按照某些章法和规则，循序渐进的学习。

（8）总体型：这类的学习者，喜欢先把问题逐个理解的方式学习，而且有时候是跳跃式的吸收知识，很多情况下表现的是顿悟。

1.2 VARK模型

VARK模型是弗莱明（Neil Fleming）提出的学习风格调查问卷。VARK学习风格模型主要学习者类型如下：

（1）视觉学习型：视觉学习者习惯通过观察来进行学习，大多数的IT从业人员都是偏向于视觉学习者，他们喜欢看到有层次的图文并茂的学习资源。

（2）听觉学习型：听觉学习者倾向于通过与人交流获取来获取信息，从中学习。这种风格的人习惯通过沟通来解决问题，并且善于记住听过的事情。

（3）读写学习型：读写型的学习者喜欢通过文字来表达和获取知识。因此他们的写作能力一般都比较好。

（4）动觉学习型：动觉学习型的人比较喜欢实践，他们坚信实践出真知，因此他们善于模拟演练，喜欢扮演角色，从中获得知识和学习。

（5）多模态学习型：多模态类型的学习者喜欢从多个角度入手学习，而且可以根据自己的需求进行学习风格的切换。

2 聚类算法实现学习风格分类

使用聚类算法实现学习风格分类模型，相同的类别的数据一般具有比较相近的属性或者特征，而一旦特征或者属性差异很大，那么数据表现也会截然不同。通过计算学习者的特征向量之间的距离关系，经过多次迭代后，自动的聚成预先设定的几个分组。自动分组后根据每组样本的共性，人工判断每个组所属的学习风格分类，从而得到学习风格算法模型。当一个新的样本需要进行学习风格判定时，计算该样本与每个学习风格分类组的中心距离，距离最近的一个分组即为新样本所属的学习风格。

2.1 分类特征的选取

机器学习领域里，样本数据的特征就是能代表样本特异性的信息。也就是信息论里面说的，有价值有信息量的数据项，称作为信息特征[3]。人物的特征包括外貌特征、性格特征、从事工作、家庭背景等等。其中对学习风格影响最大的特征应该是性格特征。性格特征又包括如下几个方面，态度特征、意志特征、情绪特征、理智特征。以上这些特征，我们可以通过现在普遍适用的问卷调查的方式收集，并给予评分，于是得到多组向量：

特征名称：态度特征，意志特征，情绪特征，理智特征，外貌特征，从事工作，家庭背景。

其中，态度特征、意志特征、理智特征、情绪特征在平时生活中，表现出来的是一种程度，程度通过量化后可以用连续的数值进行描述，因此我们可以根据取值情况，给每个性格特征设定一个范围。外貌特征、从事工作、家庭背景3个特征是离散数据。针对离散数据，机器学习方法中可以转换成one-hot编码，从而变成数值型特征，再和其他连续值的特征数组进行合并，从而成功构建后续模型构建所需要的测试数据集。機器学习支持常用的数据格式CSV、SQL、XLS、JSON、HDF5等，这里建议使用HDF5作为数据集，因为它支持压缩，因此即使我们收集的数据量很大，也能够处理。

2.2 模型的构建

聚类算法是机器学习里面的一种无监督学习，我们通常使用k-means聚类算法，因为他历史悠久，并且应用最为广泛，数据分析领域，工业领域都很流行。具体聚类迭代过程：

（1）首先，要明确分类的个数N，初始化为随机选择N个特征向量作为各分类的中心点。关于分组数量，我们可以在选择一个学习风格分类的时候，就能够得到，例如我们选择VARK理论，那么分类个数N则为5。

（2）计算待分配点与每个类别中心点的距离，距离最近的一个中心点的分类，则为待分配点的分类，然后将这个待分配点归入该分类中。

（3）基于迭代一组数据后，计算每一类所有点的平均值，作为当前类别新的中心。中心点的定义为距离本组所有向量之间的距离都相等的点。

（4）不断重复上述三个步骤，直到所有组的中心点的位置变化趋近于0的时候，或者说中心点位置收敛。为了保证效果的最佳，还可以重新随机选择N个中心点再次迭代，比较多次计算结果，得出最佳结论。

假设我们选择将学习风格按照VARK模型划分成5个类别，那么我们的聚类数量就是5，我们随机选取5个基准学习者的样本，依次计算所有学习者样本和这5个样本之间的距离，并且把它归类到距离最近的一个基准样本所属的组。接下来，我们需要更新计算新加入的样本和基准样本之间的中心点，把这个中心点作为新的基准样本。依次计算完所有样本和基准样本之间的距离，纳入后再次不断更新中心点。直到把所有样本计算完成，形成5个分组，以及5个分组中心点。然后只需要人工审核一下5个组别分别对应VARK模型的学习风格的哪一个类别，进行标记即可。

2.3 模型的应用

经过模型的构建和迭代后，得到了5个VARK模型的类别，以及还知道了每个类别的中心点样本的特征向量，即模型的基本数据参数。基于聚类模型的常用应用流程和模型构建迭代过程实际上是相似的。首先，根据用户填写的问卷调查，拿到用户输入的数据，经过属于预处理，剔除噪声数据，减少对结果的干扰。第二步，根据我们的特征定义规则，提取待检测数据的特征向量。第三步，计算该特征向量和5个聚类中心的距离，距离最近的一个聚类中心点所属的学习风格，即为待检测数据的学习风格，从而完成一次数据检测应用。

模型的应用可以发布成web应用或者restful-api服务，如果采用python的sklearn或者Tensorflow等机器学习框架构建模型，可以导出hdf5格式，模型参数也可以保存成支持跨平台的格式。从而方便根据需求随时迁移到各种平台进行应用。

3 总结

聚类算法的稳定性和悠久的历史，证明了其优越性，我们将其引入到学习风格判定和预测上面，可以提高其客观性，从而提高其准确性。实际上，在聚类算法的应用过程中，我们可以继续进一步迭代算法，把新样本的计算结果和用户给予计算结果的评分，反馈给系统，系统对模型进行进一步迭代，从而优化系统的准确率。另外，我们还可以考虑采用深度学习来进行学习风格的分类，基于深度神经网络，我们不需要提取用户的特征，因此进一步减少人为因素的干预，让评价数据更加客观。

参考文献

[1]王蓉，李小青，刘军兰，等.基于大数据网络用户兴趣个性化推荐模型分析[J].电子设计工程，2019，27（21）：5-8.

[2]刘路，魏源.当代大学生学习偏好的差异性比较[J].广西教育学院学报，2014（3）：119-121.

[3]单留举，王晓东，马英运.基于大數据的用户学习偏好建模及应用[J].计算机应用与软件，2016（1）：77-80，共4页.