基于模糊概念网的多Agent个性化信息检索研究

2011-01-09 03:05俞扬信
关键词:信息检索搜索引擎文档

化 莉 俞扬信

(淮阴工学院 计算机工程学院,江苏 淮安 223003)

基于模糊概念网的多Agent个性化信息检索研究

化 莉 俞扬信

(淮阴工学院 计算机工程学院,江苏 淮安 223003)

随着计算机网络的快速增长和Web内容的动态变化,通用网络搜索引擎的不足越来越明显.文章提出了一种基于模糊概念网的多Agent个性化信息检索模型,描述了个性化信息检索的过程和检索机制,讨论了应用不同方法的Agent检索效果.实验结果表明,使用个性化多搜索引擎检索的结果比其他搜索引擎检索的结果具有更好的整体性能比,能改善用户需要的检索结果.

模糊概念网;多Agent;个性化信息检索;多搜索引擎

0 引言

目前多数搜索引擎存在着许多缺陷:覆盖部分网页(只能提供网站页面的信息标题)、提供错误答案、返回结果冗余.尽管现有的多搜索引擎可解决网页的部分覆盖,但大多数缺乏很好的机制去克服另两个问题.在多搜索引擎返回的结果中,用户被大量的检索结果淹没,效率不高.

互联网上的信息超载预示着需要快速搜索和检索用户合适的信息.研究表明信息检索系统的智能代理是解决问题的有效方式.多Agent的多搜索引擎体系结构易于扩展、维护和分发.因此,多搜索引擎的个性化可有效帮助用户查找相关需求信息.可提取用户隐含爱好、对用户兴趣进行过滤并重排搜索结果.本文主要是研究基于模糊概念网的多Agent个性化信息检索模型,描述处理过程及检索机制,讨论应用不同方法的Agent检索效果和影响.

1 相关研究

搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统.搜索引擎常分为:全文搜索引擎、目录索引和多搜索引擎.多搜索引擎通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至同时利用若干个)搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制.一些多搜索引擎可提供原始的个性化服务.Radovanovic等提出了一种称为“猫”的多搜索引擎,利用文本分类技术改善搜索结果,展示开放目录主题层,便于浏览[1];Excalibur项目使用朴素贝叶斯分类和相似性测量提取用户的隐式偏好并重排结果[2];Nemo项目根据个性化检索模式和呈现方式对搜索结果进行检索[3].

2 模糊概念网

使用模糊概念网表示的信息检索系统包括节点和直接链[4],其中每个节点代表一概念ci∈C或一文档d j∈D,每个直接链连接两概念或连接一概念ci和一文档d j,并用一真正的0~1之间的值标注.图1为一模糊概念网的例子.

从图1中可以看出文档d2可表示为一个模糊概念集,d2={(C1,0.5),(C2,1),(C5,0.8)}.

C是一概念集C={c1,c2,…,cn}.

3 个性化信息检索方法

使用自动模糊概念网进行个性化多搜索分3步进行:

Step1:收集用户爱好,包括用户访问过的网页.预处理用户爱好后,根据预先定义的概念矢量产生模糊概念网.

Step2:提出用户查询,搜索引擎返回一检索结果列表,包括检索过的网页.

Step3:使用排序算法计算与用户爱好对应的模糊概念网的传递闭包,并用它与由用户检索过的文档获得的模糊概念网相乘.当用户使用特定的查询q搜索文档时,可用余弦相似度方法搜索最相似的文档,查询q中的关键词应包含在最相似的文档中.基于以下两主要因素,用本文的检索方法得到的检索结果就已被重新排序:1)文档集和用户语义文档之间的语义关系;2)文档集和用户语义文档最相似簇之间的语义关系.使用算法对用户文档进行映射排序,给用户的语义文档d i分配一优先级(α=5.0)(第1类)、推荐簇的文档d i分配一优先级(β=3.0)(第2类),剩下的文档分配最低的优先级(γ=1.0)(第3类).根据查询q的余弦相似度,对每个大类中的所有文档进行重新排序.这样,较高优先级的关键词将起到更重要的作用,具体细节见如下算法.

图1 模糊概念网

4 多Agent的个性化信息检索模型

图2是本文提出的一种多Agent的个性化信息检索模型.为了使搜索结果的个性化,该结构使用了自动模糊概念网.

由图2可知,该模型由3部分组成:用户Agent、搜索Agent组和个性化Agent组.搜索Agent组包含:Google Agent,Yahoo Agent,Ask Agent和Msn Agent.每个引擎只对专门的通信负责.个性化Agent组包含:FCN1 Agent,FCN2Agent和排序Agent.Agent之间的通信如图3所示.

各Agent的执行过程:1)用户Agent完成与用户的沟通并获得用户的查询、预定义概念矢量和用户爱好;2)预处理用户爱好后,用户Agent将它发送到FCN1 Agent和搜索Agent组,给FCN1 Agent和FCN2 Agent预定义概念矢量;3)搜索Agent组调用与用户查询相关的搜索引擎并将搜索结果发送到FCN2 A-gent;4)FCN1 Agent根据用户爱好和概念矢量产生一自动模糊概念网,然后将它发送到排序Agent;5)根据Borda规则[10],FCN2 Agent将每个搜索引擎搜索的结果进行合并,根据合并结果表产生一自动模糊概念网,并发送到排序A-gent;6)排序Agent对模糊概念网实施排序算法,然后排序Agent发送个性化检索结果的排序到用户Agent并显示给用户.

图2 多Agent的个性化信息检索模型

5 性能评价

使用JADE(Java Agent DEvelopment Framework)技术进行这种多Agent层次的个性化信息检索系统的开发,用Java编写的框架促进了基于Agent的应用程序的开发.为了测试和评估系统,收集了一些用户对计算机方面感兴趣的概念,其概念矢量长度定义为100.

根据Borda规则,进行每个搜索引擎的第一页的网址合并,并根据出现在Borda列表中的前5个网址产生模糊概念网.为了评估本文提出的系统,进行了与Borda规则结果的比较,各排名间的平均差d定义如下:

图3 Agent之间的通信

其中,m是网页的数量,ri是用户的排名,r′i是由本文提出的系统或由Borda规则产生的排名,结果如表1所示.

表1 Borda列表中的前5个网址

表2 6个用户的排名

表3 6用户个性化搜索结果的排名

表4 评估均差d的值

表1是出现在Borda列表中的前5个网址,每个用户都可评估;表2是6个用户的排名;表3是6用户个性化信息检索结果的排名,如果个性化的秩等于用户检查的秩就用阴影表示;表4是本文提出的方法或由Borda规则产生的评估平均差d的值.实验结果表明使用本文提出的方法比使用Borda规则产生的结果其准确率提高了约61%.

6 结束语

本文提出的多Agent的多搜索引擎使用自动模糊概念网进行个性化信息检索,克服了目前搜索引擎的一些局限性.多搜索引擎使多Agent的体系结构更容易扩展、维护.该系统根据用户爱好对检索结果进行重排,在产生模糊概念网之前使用了本体论,丰富了用户的爱好,得到了较好的检索结果.在知识表示、处理及其推理、数据挖掘、多用户协同工作等应用领域具有很好的应用价值,在软件开发与应用方面可节约大量经费,具有广阔的应用前景和经济效益.今后的信息获取模式将由目前的信息获取系统具有固定的层次结构,变为下一代的信息获取系统根据任务进行自组织.随着人工智能和无线技术的进一步发展,传感器也将由智能传感器发展到多自主体传感器网络,以任务为中心,采用动态架构,从本地智能发展到网络智能.

[1]Radovanovic M,Ivanovic M.A classification-powered meta-search engine[J].Advances in Web Intelligence and Data Mining,2006,23:191-200

[2]Yue L,Chang M,Lai Y K,ea al.Excalibur a personalized meta-search engine[J].Computer Society,2004,28(2):138-141

[3]Souldatos S,Dalamagas T,Sellis T,et al.Captain nemo:a meta search engine with personalized hierarchical.search space[J].Informatica Ljubljana,2006,30:173-182

[4]窦永香,赵捧未.基于社区的对等网语义检索系统模型研究[J].情报学报,2010,29(3):393-401

[5]Heckelman J.Probabicistic borda rule voting[J].Social Choice and Welfare,2003,21(3):455-468

Personalized Information Retrieval Study on Multi-Agent Using Fuzzy Concept Networks

Hua Li Yu Yangxin
(Faculty of Computer Engineering,Huaiyin Institute of Technology,Huai’an 223003,China)

With the rapid growth of computer networks and dynamic Web content,the lack of general web search engines are becoming more and more evident.In this paper,a personalized information retrieval model on multi-agent using fuzzy concept networks is proposed.We illustrate the process and retrieval mechanism of personalized information retrieval model,and discuss the effect and influence of applying different types agent.Experimental results indicate that the personalized information retrieval results on multi-agent are more relevant than other search engines and prove that proposed model presents better overall performance and is natural way to improve retrieval results of users needed.

fuzzy concept network;multi-agent;personalized Information retrieval;multisearch engine

王映苗】

1672-2027(2011)03-0071-04

TP391

A

2011-03-10

淮阴工学院科研基金项目(HGB0907).

化 莉(1977-),女,江苏淮安人,硕士,淮阴工学院计算机工程学院讲师,主要从事计算机应用.

猜你喜欢
信息检索搜索引擎文档
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
基于RI码计算的Word复制文档鉴别
医学期刊编辑中文献信息检索的应用
在网络环境下高职院校开设信息检索课的必要性研究
基于神经网络的个性化信息检索模型研究
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
网络搜索引擎亟待规范
基于Nutch的医疗搜索引擎的研究与开发
基于Lucene搜索引擎的研究