基于SVM算法的学生学习行为聚类分析

2018-10-19 16:09杨子恒
科学与财富 2018年25期
关键词:数据挖掘向量函数

摘要:针对数据挖掘算法以及在解决在线学习领域中解决复杂问题的优势及不足,本文提出一种基于支持向量机SVM算法的学生学习行为聚类算法,并将基于随机森林模型下的基尼指标特征加权的支持向量机方法应用于学生学习行为分析中。从而改善了SVM算法在分类识别方面性能,并且验证了采用数据挖掘算法应用到分析学生学习行为是可行的,并且具有较高的准确性。

关键词:SVM;学习行为聚类

1 引言

随着计算机网络技术的不断发展和互联网应用的普及,信息技术正在不断地改变我们传统的教育教学模式。数据挖掘于2003年正式开启开发和研究工作,美国的七所顶尖院校的研究人员共同提出了“数据挖掘VGrADS和网格虚拟化”的项目,之后Amazon、Giftag、Saleforce.com以及IBM都使用数据挖掘来提高自己在业界的竞争力。例如,Google以企业搜索、应用托管等形式向企业提供Google开放云,而Microsoft推出了Live Mesh这种网络管理和数据存储软件来与Google竞争。在2006年Amazon推出了弹性计算云和简单存储服务,是建立在2004年Amazon提出了MechanicalTurk、简单队列服务等数据挖掘服务雏形之上的。在2008年,IBM提出了公有云和私有云的定义。而Apple公司近年来也相继推出iTunes服务以及MobileMe服务等,标志向数据挖掘开始进军。从而采用数据挖掘技术进行学生学习行为分析将十分有必要,并且会迅速掀起了一场全球范围的教育技术革命,得到了教育界、高校教师和学生以及社会受众的普遍欢迎。

2 改进的支持向量机SVM

特征加权支持向量机由核函数经特征加权构造的支持向量机。并且特征加权核函数的定义为:

若Kp是定义在X*X(X∈Rn)上的核函数, p是已知的待输入集的n阶线性变换矩阵,其中n为待输入集的维数。特征加权核函数Kp定义为

(1)

由于在随机森林(RandomForest)模型中可以根据Gini指标来确定每个样本自变量对应变量的影响程度,即确定样本量中特征属性的重要性,并且本文将特征加权核函数的 值进行优化,用此Gini指标确定样本特征的重要性之后,构造了在RandomForest模型下的Gini指标特征加权的支持向量机,即为改进的支持向量机SVM。

改进支持向量机SVM算法的详细步骤如下:

Step1.确定样本集S,即为:

其中x(i)为特征变量,y(i)为类别量。

Step2.在随机森林模型下计算各个特征变量的Gini指标,标准化各个指标参数,并以所得指标参数对其相应的特征属性加权,构造加权的特征向量: 来优化核函数中的原始特征内积。

Step3.构造待输入空间的线性变换矩阵 (也可以是一个数据向量或者是一稀疏矩阵),以p建立特征加权的核函数Kp。

Step4.对所建立的核函数Kp进行有效性判定;如果假设K是正定的,则根据定义有:

(2)

Step5.应用所构造的特征加权的核函数 在程序设计中替换传统的支持向量机SVM模型中的线性核函数,并且输出核心的SVM构造分类器,与此同时,对构造的改进的支持向量机SVM算法进行性能测试。

3 实验与结果分析

为了验证所提出方法的可行性及实用性,本文学生进行了实验,该数据集的原始样本共有699行数据,10列特征属性,在 R语言的R-Studio环境中对其进行数据清洗预处理,消除了其中缺失以及不完整的样本,得到683行10列数据集。然后在随机森林模型中用VarImpPlot()函数包对清洗后的数据进行特征分析。本文将以上三种算法在学生数据库中的多个在线学习学生学习行为分析数据集上进行了实验,将数据集分别应用前面所提到的SVM, FWSVM, 改进的支持向量机SVM三种算法在MATLAB 2014a环境中进行仿真实验,其统计结果如图1所示:

UCI在线学习学生学习行为分析数据集对比实验结果的分析如图1所示,在这五个分析数据上,可以看出本文所提出的改进的支持向量机SVM算法算法平均的识别性能相对最高,而经典的SVM算法的识别性能最差,但总体而言,本文所提出的改进的支持向量机SVM算法在在线学习中识别的正确率最高,效果最为明显。

综上实验数据可知,本文提出的基于随机森林模型下Gini指标的特征加权支持向量机算法的的正确率相对更高,分类性能相对更具优势。

4总结

本文通過分析数据挖掘算法以及在解决在线学习领域中复杂问题的优势及不足,提出一种基于支持向量机SVM算法的学生学习行为聚类算法,并将基于随机森林模型下的基尼指标特征加权的支持向量机方法应用于学生学习行为分析中。从而改善了SVM算法在分类识别方面性能,而且验证了采用数据挖掘算法应用到分析学生学习行为的可行性以及准确性,实验结果表明,本文所提出的改进的支持向量机SVM算法在在线学习中识别的正确率最高,效果最为明显。

参考文献:

[1] 黄晟. 基于变电站为中心的配电网电压态势图片图形特征的态势评估模型及算法[D]. 杭州电子科技大学, 2017.

[2] 许国栋. 半监督学习框架下基于图的SVM分类算法研究[D]. 北方民族大学, 2017.

杨子恒(1986.9-),男,汉族,原籍湖南常德,香港中文大学信息工程系硕士研究生,现任天津华泰克数码科技有限公司总经理,主要从事政府和企事业单位信息化建设方面的工作。历经公安、大型医院、高职院校等多处的重大信息化建设项目的管理工作,对大数据、虚拟现实、网络及音视频、安全防范技术等方向有较深的设计及实施经验。

猜你喜欢
数据挖掘向量函数
向量的分解
二次函数
第3讲 “函数”复习精讲
聚焦“向量与三角”创新题
探讨人工智能与数据挖掘发展趋势
二次函数
函数备考精讲
基于并行计算的大数据挖掘在电网中的应用
向量垂直在解析几何中的应用
一种基于Hadoop的大数据挖掘云服务及应用