数据挖掘技术在图书采购中的应用

2012-10-23 09:09
中国现代教育装备 2012年7期
关键词:类别数据挖掘问卷

许 毅

大连职业技术学院 辽宁大连 116037

数据挖掘技术在图书采购中的应用

许 毅

大连职业技术学院 辽宁大连 116037

数据挖掘技术是一种可以将隐藏在大量数据信息中的有用信息以规则、概念、规律以及模式等形式提取出来的技术。把数据挖掘技术应用到图书采购策略的制定工作中,可以在挖掘图书馆计算机管理系统潜力的同时,很好地提高管理水平和服务水平。

数据挖掘;图书采购;策略;SPSS

Abstract: Data mining technology is a kind of technology which can be hidden in the multitudinous data information of which the useful information to rules, concepts, rules and models and other forms were extracted. The application of data mining technology to the book procurement strategy development work in mining, computer management system of library potential while well improve the management level and the level of reader service.

Key words: data mining; book purchases; tactic; SPSS

在信息高速传播、知识飞速更新的今天,图书馆只有正确合理地进行图书采购,才能够更好地实现其“在最恰当的时机,将最合适的图书,提供给最需要的读者”的目标。采用目前流行的数据挖掘技术,可以很好地对图书馆读者实际借阅情况进行分析,从而得出能够正确指导图书采购策略制定的信息,以保证图书馆能够更好地为读者服务。

1 数据挖掘简介

数据挖掘是一门涉及人工智能、数理统计、数据库、可视化、并行计算等多领域的交叉性新兴学科。数据挖掘就是将隐藏在大量数据信息中的那些对用户有用的信息提取出来的过程,这些信息通常会以:规则、概念、规律以及模式等形式展现出来,而提取的过程往往要采用一些特殊手段的非平凡过程,即数据挖掘技术。提取出来的信息可以帮助决策者分析历史的和当前的数据,发现隐藏在其中的联系和规律,从而对未来可能发生的情况进行合理地判断和预测[1]。

2 基于数据挖掘的图书采购策略

描述式数据挖掘和预测式数据挖掘是数据挖掘技术的两种形式。描述式数据挖掘又称概念描述,是数据挖掘的最基本形式,以简明扼要的形式来描述给定的数据集,体现了数据的特征。我们使用特征化描述方式的数据挖掘方法,根据读者借书的历史记录,发现并描述读者的真正需求。实现特征化描述主要有准备数据、相关分析、归纳特征属性、表示和使用挖掘结果几个基本阶段[2]。

图1 流程图

2.1 准备数据

获得有关数据、对数据进行初步处理和准备。具体步骤如下:

(1)获取主要字段:读者类型、专业、书名、主题、编著者、出版社、出版时间、价格、索书号、条码等。

(2)整合数据归纳成库,保证相同字段的数据在类型格式上一致。

(3)拆分“主题”字段,限制1本书最多包含3个主题词,即3个主题字段,其他忽略。

(4)拆分合并后的数据库,按学科不同分成各学科的子库(这在数据挖掘过程中称为数据分组),对各个子库分别进行处理。

2.2 相关分析

对待挖掘数据库中的字段进行分析,剔除掉那些相关性不足的字段。具体步骤如下:

(1)选用恰当的方法对属性字段进行分析;

(2)将待挖掘数据库中的相关性不足字段剔除掉;

(3)整理保留的字段,主要有:读者类型、主题1、主题2、主题3、编著者、出版社。

2.3 归纳特征属性

根据实际情况,只进行单因素分析,即只计算比较单一属性值域读者需求的关联程度。

2.4 表示和使用结果

式中P为任一主题总的人气系数,m为主题在挖掘数据库中出现的次数,rj为主题的权系数,rj∈{3,2,1},Ki为借阅频率系数[3]。

3 数据挖掘在图书采购中的应用

这里笔者以所在学院的图书馆为研究对象进行研究。3.1 统计数据

为了能够较真实地反应学院师生对图书借阅的情况,笔者设计了一份调查问卷,对学院电气系和汽车系的图书借阅者进行访问。该调查问卷包括单选题和多选题,内容涵盖了职业、系别、图书种类等(见表1)。

表1 借阅者借阅图书类别调查问卷

3.2 定义变量

对数据的定义笔者采用多项选择的二分法(Multiple dichotomy method),即将所有因素都设成一个变量,每个变量只有“1”和“0”两个水平值,代表“是”和“否”。例如用1来代表教师,0代表学生;专业方面用1表示电气系,0表示汽车系;图书类别中用1表示“经常借阅”,0表示“不经常借阅”。

3.3 分析数据

在这里选用SPSS统计分析软件对数据进行分析。

3.3.1 多重反应频数分析(见表2和表3)

表2 借阅图书类别多重反应分析频数表

表3 借阅图书类别多重反应频数分析结果

3.3.2 多重反应列联表分析(见表4~7)

表4 职业与类别多重反应列联表分析表

表5 职业与类别多重反应列联表分析结果

表6 专业与类别多重反应列联表分析表

表7 专业与类别多重反应列联表分析结果

根据这些分析结果,图书采购人员就能够很好地制定出恰当适用的图书采购计划[4]。

4 结束语

以数据挖掘技术为基础,对实际图书馆中读者的借阅情况进行问卷调查,再利用SPSS软件对所调查问卷进行系统分析,虽然问卷数目较少,但对图书馆分析读者借阅需求﹑指导图书采购﹑提高服务能力有一定的帮助。

[1] JiaweiHan, MichelineKamber.数据挖掘:概念与技术[M].北京:机械工业出版社,2007.

[2] 吴奕宽.浅论信息在教材图书采购中的应用[J].情报科学,2002,20(1):28-30.

[3] 刘晓东.数据挖掘在图书馆工作中的应用[J].情报杂志,2005.8:63-65.

[4] 翟旭.利用SPSS分析消费者购买场所调查问卷[J].中国科技论文在线,2010,10:57-60.

Data mining technology in book purchase application

Xu Yi
Dalian vocational & technical college, Dalian, 116037, China

2011-11-15

许毅,本科,讲师。

猜你喜欢
类别数据挖掘问卷
探讨人工智能与数据挖掘发展趋势
一起去图书馆吧
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
问卷网
问卷大调查
多类别复合资源的空间匹配
问卷你做主
高级数据挖掘与应用国际学术会议
高级数据挖掘与应用国际学术会议
选相纸 打照片