基于云计算的数字图书馆研究

2015-09-14 10:04
中国管理信息化 2015年2期
关键词:关联检索聚类

宋 翠

(河南水利与环境职业学院,郑州 450000)

基于云计算的数字图书馆研究

宋 翠

(河南水利与环境职业学院,郑州 450000)

为提高数字图书馆智能化与个性化服务,借助云计算强大的计算及后台处理能力,实现数字图书馆的智能化服务。首先,对云环境下数字图书馆的自适应系统内容及形式做详细介绍;其次,对关键模块进行了详细阐述;最后,运用实例仿真,验证本文方法在数字图书馆智能化及个性化服务的性能表现。

云计算;数字图书馆;自适应系统;FCM聚类;Apriori关联规则

1 云计算环境下的数字图书馆

1.1自适应系统作用

数字图书馆的自适应系统在传统数字图书馆的基础上增加了智能反馈,负责适应性推送和更新阅读内容、智能检索以及个性化首页呈现。这种自适应系统,能够更好地增强数字图书馆的智能化、个性化和交互性。

自适应的其他作用还有个人首页的定制,界面风格的个性化等。用户首页提示用户的登陆次数,用户关注领域的信息更新动态,如新书预告,资源预览等。

1.2自适应主要表现形式

1.2.1自适应信息检索

信息检索是用户查找资源的主要方法,现有的数字图书馆大部分没有考虑用户的差异,对于所有用户,输入相同,反馈搜索结构就相同,用户要找到自己的需求,还需要在大量的搜索结果中逐一寻找,搜索效率低。这种方法没有考虑用户的知识背景、兴趣爱好,自适应检索根据不同用户的只是背景及兴趣爱好返回不同的结果,最接近用户专业的结果将返回在最前页。

自适应检索将用户检索条件列为关键字列表,将用关键字列表搜索得到的结果与用户个性化信息相结合,最后返回搜索结果至页面,可以运用向量空间和矢量模型将用户信息进行节点归类,并与关键字搜索结果匹配后进行结果输出。

1.2.2自适应推荐

自适应推荐是根据用户信息将满足用户习惯的资源进行线上线下的个性化推荐,用户登录图书馆系统后,进行在线推送符合用户习惯的信息,比如新书推荐、用户感兴趣领域新文献等,不再呈现统一的登陆首页;同时在线下推荐,当有了满足用户需求的文献资料后,及时通过邮件和短信方式通知用户。

2 数字图书馆自适应系统的关键模块实现

2.1用户数据标准化

可以得到原始数据矩阵为

获得原始数据之后,便可以对数据进行标准差变换:

变换之后,所有变量单位量纲都去除,且均值为0,标准差为1,下面进行极差变换:

变换之后,所有变量取值均为[0,1]之间。

已经建立了原始矩阵后,根据原始矩阵,建立模糊相似矩阵,模糊相似矩阵表示的是各对象之间的相似程度,计算ijr的方法主要有如下6种:

夹角余弦法求解相似系数

相关系数法求解相似系数

最大最小值法

算术平均与最小值法

几何平均与最小值法:

计算出rij后便可以得到模糊相似矩阵,得到的是不同元素之间的相似度,比如现在可以确定某一用户的专业为工科专业,且计算机专业还是通信专业这两者之间的相似程度较高,至于用户具体是什么专业还需要通过聚类来完成。

2.2FCM聚类

数字图书馆的聚类主要实现三方面内容:图书馆资源项聚类、用户检索项聚类、用户推荐项聚类。

根据图书资源项聚类,可以根据所有用户的搜索情况,及用户的专业及学历,聚类分析得到不同图书类别的需求情况,从而及时补充供给相应图书;用户检索项聚类主要是根据用户的检索情况,记录用户的搜索偏好,以便为用户提供个性化服务,聚类分析根据用户多次的搜索情况及模糊矩阵结果,进行归类,判断该用户检索分类属于哪个类别;用户推荐类是根据用户的访问数据进行聚类,决定给用户推荐相关类型的文献资料。

本文采用模糊聚类C算法(FCM)进行用户数据聚类。首先需要明确4个基本定义:

定义二:数据样本XA的完整率η:

定义三:数据样本kx对聚类分析的影响因子kα

定义四:数据样本xi与xj之间的相似度βij:

样本kx与子集的隶属关系用来表示,为了记录多个子集的隶属函数,采用矩阵的方式来完成,记作

X的模糊C划分空间fcM:

FCM算法的计算过程是在保证目标函数mJ最小的同时,求解划分矩阵与聚类原型的过程。mJ的计算表达式为:

迭代规则公式如下:

2.3Apriori关联规则应用

关联规则为自适应检索和自适应推荐提供过滤标准的,当用户输入关键字进行信息检索时,系统首先会返回所有关于该关键字的搜索结果,然后将这些结果通过关联规则过滤,优先显示与用户访问习惯相关的内容,与用户搜索习惯不一致的内容放在后续页面显示,以便最大程度地保证客户在首页就能找到用户需要的内容。

关联规则挖掘用于发现大量数据中项集之间有趣的关联或相关联系,可以根据用户检索资源的某一项因素来多用户资源需求的整个行为模式进行判别。

定义1:关联规则的关联度:即同时包含X和Y的事务集与所有事务集之间的比例,记为support(X⇒Y)。即:

定义2:关联规则的可信度:即同时包含X和Y的事务集与仅包含X的事务集之间的比例,记为confidence(X⇒Y),即:

定义3:当项目集关联度support(X)大于阈值minsup,称该项目集是频繁项目集。

3 结 语

云计算为数字图书馆建设提供了便捷,本文从数字图书馆的智能化与个性化服务角度出发,分析云计算在数字图书馆建设中所起作用,借助云计算的强大计算能力的优势,建立数字图书馆的自适应系统,为用户提供个性化服务,这对数字图书馆建设具有深远意义,拥有广阔的市场应用前景。

主要参考文献

[1]邱瑾,吴丹.协同信息检索用户行为研究方法综述[J].信息资源管理学报,2012(1).

[2]王伟.基于数据挖掘的图书馆用户行为分析与偏好研究[J].情报科学,2012(3).

10.3969/j.issn.1673-0194.2015.02.125

G250.76

A

1673-0194(2015)02-0170-02

2014-12-26

猜你喜欢
关联检索聚类
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
“一带一路”递进,关联民生更紧
2019年第4-6期便捷检索目录
奇趣搭配
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
智趣
专利检索中“语义”的表现
一种层次初始的聚类个数自适应的聚类方法研究
自适应确定K-means算法的聚类数:以遥感图像聚类为例