高校图书馆读者借阅行为分析的数据挖掘算法

2021-01-28 03:35范雯雯
微型电脑应用 2021年1期
关键词:分析方法数据挖掘向量

范雯雯

(云南交通职业技术学院 交通信息工程学院, 云南 昆明 650000)

0 引言

随着科学技术的不断发展,每一个大学的图书馆越来越大,图书的种类和数量大幅度增加,图书资源更加丰富,可以为读者提供更好的学习资源,在这种数据爆炸式背景下,如何对读者借阅行为进行分析十分重要,因此其成为高校图书馆研究领域中的一个重要方向[1-3]。

为了获得理想高校图书馆读者借阅行为分析结果,提出了高校图书馆读者借阅行为分析的数据挖掘算法,并与其它高校图书馆读者借阅行为分析方法进行了对比分析。结果表明,本文算法是一种精度高、用时少的高校图书馆读者借阅行为分析方法,相对于其它高校图书馆读者借阅行为分析方法,具有十分明显的优越性。

1 高校图书馆读者借阅行为的研究进展

当前图书馆文献资源虽然丰富,但是质量相差很大,读者花费大量的时间,却获得了一些没有价值的东西,因此如何从众多的文献资源中快速找到读者真正需要的资源,为读者提供个性化的服务是当前迫切需要解决的问题[4]。多年以来,人们对高校图书馆读者借阅行为分析问题进行了长期的研究,可以将高校图书馆读者借阅行为分析划分为两个阶段:第一个阶段为人工阶段,该阶段为一些高校图书馆管理员对读者的借阅历史记录进行分析,如调查问卷法,多元统计学方法,根据分析结果给高校图书馆读者借阅行为提供一些参考意见,由于读者的借阅历史记录相当大,使得该过程的工作时间比较长,容易出现错误,而且高校图书馆资源比较大,因此人工方式不能满足要求[5];第二阶段为自动化阶段,该阶段利用计算机、互联网、物联网、传感器以及人工智能等技术进行高校图书馆读者借阅行为分析,最初人们采用多因素关联分析法,从读者的电子阅读时间、读者借阅数量等因素去分析高校图书馆读者借阅行为变化态势,但是其分析结果缺乏定量分析,结果可信度不高。近几年出来了基于聚类分析的高校图书馆读者借阅行为分析方法、基于时间序列法的高校图书馆读者借阅行为分析方法、关联规则推荐算法的高校图书馆读者借阅行为分析方法,它们根据读者偏好、读者借阅的历史数据,挖掘出读者借阅流量的变化规律,将读者划分为不同的类型,根据读者类型推荐相应的书籍[6-7],但是它们在实际应用中,还是存在高校图书馆读者借阅行为分析结果存在精度低、效率低等缺陷,因此高校图书馆读者借阅行为分析结果有待进一步提高[9-10],当前数据挖掘技术得到了飞速发展,为解决高校图书馆读者借阅行为问题提供了一种新的工具。

2 高校图书馆读者借阅行为分析的数据挖掘算法具体设计

2.1 最小二乘支持向量机

最小二乘支持向量机是一种数据挖掘算法,其工作原理与标准支持向量机差不多,但是其学习速度要明显快于支持向量机,同时学习精度要高于人工神经网络,因此,本文将其引入到高校图书馆读者借阅行为分析中。最小二乘支持向量机的结构,如图1所示。

图1 最小二乘支持向量机的结构

在一定的空间范围中,设高校图书馆读者借阅行为分析的样本集D={(xk,yk)|k=1,2,…,N},其中,xk为高校图书馆读者借阅行为特征,yk为高校图书馆读者借阅行为类型,采用径向基函数作为高校图书馆读者借阅行为分析建模的核函数,如式(1)。

(1)

对于高校图书馆读者借阅行为分析问题,采用最小二乘支持向量机可以描述为一个目标优化函数,如式(2)。

(2)

式中,γ表示正则化参数,式(2)应该满足如下约束条件,如式(3)。

yk[wTφ(xk)+b]=1-ek

(3)

由于式(2)是一个带等式约束的二次规划问题,直接求解比较复杂,导致的高校图书馆读者借阅行为分析效率低下,为此采用拉格朗日乘子αk,建立拉格朗日乘子函数,如式(4)。

L(w,b,e,α)=φ(w,b,e)-

(4)

设w,b,ek,αk的偏导数为零,对上式进行优化,如式(5)。

(5)

将式(4)写成矩阵方程,如式(6)。

(6)

根据ykylφ(xk)Tφ(xl)=ykylψ(xk,xl),最后得到高校图书馆读者借阅行为分析的最优决策函数,如式(7)。

(7)

2.3 高校图书馆读者借阅行为分析方法的工作步骤

Step1:分析影响高校图书馆读者借阅行为的因素,采集相应影响因素的数据,并对其进行如下处理,如式(8)。

(8)

式中,n表示高校图书馆读者借阅行为影响因素的个数。

Step2:根据高校图书馆读者借阅行为影响因素值,通过专业人员对高校图书馆读者借阅行为的类型进行标记,这样建立了高校图书馆读者借阅行为分析的样本集合。

Step3:根据4∶1的方式将高校图书馆读者借阅行为分析的样本集合划分为训练集和测试集。

Step4:确定最小二乘支持向量机的参数,以高校图书馆读者借阅行为分析精度为目标,采用5折交叉验证算法确定最优参数,并对高校图书馆读者借阅行为分析训练集进行学习,建立高校图书馆读者借阅行为分析模型。

Step5:采用训练样本对高校图书馆读者借阅行为分析模型的性能进行分析。

高校图书馆读者借阅行为分析的数据挖掘算法的工作流程,如图2所示。

3 仿真实例分析

3.1 数据来源

为了分析本文设计的高校图书馆读者借阅行为分析的数据挖掘算法的性能,采用Python语言编程实现高校图书馆读者借阅行为分析程序,数据来自某高校的高校图书馆,读者借阅行为划分为5类,每一类行为的读者数量,如表1所示。

图2 高校图书馆读者借阅行为的分析流程

表1 仿真实例分析的数据分布

它们组成学习样本集合。

3.2 结果与分析

为了测试本文方法的实验结果的优越性,采用时间序列法的高校图书馆读者借阅行为分析方法和关联规则推荐算法的高校图书馆读者借阅行为分析方法进行对比测试,统计它们的分析精度,如图3所示。

图3 读者借阅行为分析精度

从图3的高校图书馆读者借阅行为分析结果可以看出,时间序列法的高校图书馆读者借阅行为分析精度最低,其次为关联规则推荐算法,本文方法的高校图书馆读者借阅行为分析精度最优,有效降低了高校图书馆读者借阅行为分析误差,可以更加准确的为读者推荐更好的图书资源,解决了当前高校图书馆读者借阅行为分析建模过程中存在的问题。

计算所有方法的高校图书馆读者借阅行为分析时间(秒,s),如图4所示。

对图4的结果进行分析可以知道,相对于用时间序列法的高校图书馆读者借阅行为分析方法和关联规则推荐算法的高校图书馆读者借阅行为分析方法,本文方法的分析速度得到了明显的改善,提高了高校图书馆读者借阅行为分析效率。

图4 读者借阅行为分析时间

4 总结

为了解决当前高校图书馆读者借阅行为分析过程存在的问题,如精度低、效率低等,提出了高校图书馆读者借阅行为分析的数据挖掘算法,与经典借阅行为分析方法的对比结果表明,本文方法无论是高校图书馆读者借阅行为精度或者是分析效率均要优于经典方法,可以实现读者个性化服务功能。

猜你喜欢
分析方法数据挖掘向量
向量的分解
基于EMD的MEMS陀螺仪随机漂移分析方法
聚焦“向量与三角”创新题
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
一种角接触球轴承静特性分析方法
中国设立PSSA的可行性及其分析方法
向量垂直在解析几何中的应用
TD-LTE网络覆盖的分析方法研究
一种基于Hadoop的大数据挖掘云服务及应用