单因素方差分析在大学生上网数据中的应用

2017-02-21 20:10弋改珍
科技创新与应用 2016年35期
关键词:大数据

弋改珍

摘 要:大数据的意义是由人类日益普及的网络行为所伴生的,蕴含数据生产者真实意图、喜好的,非传统结构和意义的數据。以某普通高校大学生上网行为数据为数据源,研究了数据分析技术中单因素方差分析方法的原理和数据建模方法,借助SAS软件中的数据库和分析模块,对数据源进行采集、整理、清洗,并建立评价指标,对预处理后的数据从用户量方面进行分析。

关键词:大数据;单因素方差分析;大学生上网行为数据

引言

随着互联网和信息技术的快速发展,物联网、移动互联、各种社交网络从各个方面扩展了互联网的应用领域。网络对在校大学生的生活产生了深远的影响,学生的行为方式、思维方式、价值观念发生了巨大变化。如何及时了解学生的行为和思想动态,把握学生管理的时机,对教育管理部门提出了严峻的问题和考验。

文章利用统计学中的单因素分析方法,在研究单因素分析方法的原理的基础上,以某普通高校大学生上网行为数据为数据源,借助SAS软件的数据库和分析模块,对数据源进行采集、整理、清洗,并逐步分析。根据分析结果,对大学生上网情况给出合理的建议,能够使处于信息时代的大学生们正确、合理地运用网络资源,充分把握信息的重要性。

1 单因素方差分析原理

单因素方差分析[1](one-wayANOVA)假设影响观测值的多个因素中,只有一个因素在发生变化,其余因素不变时,变化的因素A有多个水平,在每个水平下进行ni次独立观测,得到试验指标。

这里SE代表随机误差的影响,称为误差平方;SA是因素A的效应平方和,表示在Ai水平下样本均值和总平均值之间的差异之和,反映了r个总体均值之间的差异,即μi之间的差异。

因此,总平方和ST可分解为由随机误差引起的误差平方和SE和由因素各个水平的差异引起的因素平方和SA。

如果原假设H0成立,经过统计分析得到SE/(n-r)和SA/(r-1)是σ2的无偏估计,且SE和SA相互独立,因此,有:

于是F可以作为H0的检验统计量,若F>Fα (r-1,n-r),则拒绝原假设。也可以使用P值决定是否接受原假设H0:p=P{F(r-1,n-r)>F}。若P<α,拒绝原假设H0;否则接受原假设H0。

2 数据预处理

数据来源于某普通高校的学生上网数据。原始数据是学生上网的日志文件,不符合SAS进行处理的数据格式。在进行数据分析之前,要对原始数据进行预处理和标准化,然后倒入SAS,利用SAS中的相关分析过程进行分析。

选取2016年4月11号-4月16号这一个星期的上网数据。数据的观测是按时间进行排序的,其指标有日期,学号,网址等。

2.1 原始数据的处理

数据的合并及导入:原始数据是每小时的数据,要利用(copy *.log 合并文件.txt)进行每小时数据的合并,合并成为一天的数据。接下来在SAS中利用IMPORT过程[3]将一天的数据导入。

数据的整理:首先选取学生学号做指标,利用SQL过程查找有效学号信息过滤掉无效学号及缺省值,并留存筛选后的数据。然后以网址为指标进行筛选过滤掉无效网址及私有不可访问网址。并基于保护用户私密信息,经过数据清洗处理,保留下的数据集具有学号与网址两个属性值。

数据二次清洗:对于学号与网址数据中不完整的数据,错误的数据,重复的数据进行清洗。

2.2 基于学号网址的网址类别处理

通过从360网址大全,百度网址大全,2345网址导航等网站的源码中提取网址关键字,并对网址关键字进行分类。

通过模糊匹配法对网址进行关键字的匹配,从工具、购物、军事、科技、旅游、其它、社交、体育、新闻、学习、音乐、影像、游戏等13个方面对网址进行分类。

(1)排序按照类别排序,保证所有数据集的变量顺序一致,以便分析。

(2)计算频数对每个类别求访问量及所占百分比。

(3)转置,追加对所得表实现转置并清洗其中无效信息以便追加数据集。对转置后的表进行竖向追加。

(4)整理分析所用数据对一天的表求和并将七天的合并在一张表中。

2.3 指标的建立

根据单因素方差分析原理,选取一周中每天每一类网址作为样本指标,分别用符号X0,X1,X2,X3,X4,X5,X6,X7来表示。其表示矩阵为Mij(i=1,2,…,n;j=1,2,…p)。如图表1所示。

3 大学生上网行为数据的单因素方差分析

在ANOVA过程中,首先,假设时间对观测值没有显著性影响,从图1看出显著性水平p=0.3210远远大于显著性水平默认值α=0.05,所以不能拒绝原假设,表明均值之间的差异不显著,时间对观测值没有显著影响。其次,通过拟合统计量衡量假设模型的预期值和实现所得的实际值之间的差距。最后利用ANOVA模型判定我们的假设是可靠的。进一步由图2可直观简单的看出在星期一的时候上网时间高于其它时间。

4 结束语

单因素方差分析方法中,虽然只有一个因素发生变化,但是这个因素具有多个水平,在实验研究中按随机化原则将受试对象随机分配到因素的多个水平中,观察各个组的试验效应。通过使用单因素方差分析法对大学生上网行为数据的分析,时间对大学生上网没有影响,学生每天上网量较大。在此我们提出建议,希望大学生能合理安排上网时间,正确对待网络娱乐资源劳逸结合,寓教于乐是我们所提倡的健康的学习方式,适度娱乐能缓解学习,生活中的压力也为后续的学习和工作提供能量。过度沉溺于如网络娱乐,在线聊天等不仅浪费时间而且影响学习。我们必须合理的安排上网时间,做到有效的使用网络资源并使其真正的为学习,生活带来便利。

参考文献

[1]何晓群.现代统计分析方法与应用[M].北京:中国人民大学出版社,2003.

[2]田兵.单因素方差分析的数学模型及其应用[J].阴山学刊,2013,27(2):24-27.

[3]谢龙汉,尚涛.SAS统计分析方法与数据挖掘[M].北京:电子工业出版社,2012.

猜你喜欢
大数据
基于在线教育的大数据研究
“互联网+”农产品物流业的大数据策略研究
大数据时代新闻的新变化探究
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索