返回主站|会员中心|保存桌面|手机浏览

《商场现代化》杂志

杂志等级
    期刊级别:国家级期刊 收录期刊:万方收录(中) 上海图书馆馆藏 国家图书馆馆藏 知网收录(中) 维普收录(中)
本刊往期
站内搜索
 
友情链接
  • 暂无链接
首页 > 杂志论文 > 基于用户兴趣的分组模型在电子图书馆检索中的应用研究
杂志文章正文
基于用户兴趣的分组模型在电子图书馆检索中的应用研究
发布时间:2024-06-29        浏览次数:69        返回列表

范玉霞 贵州大学职业技术学院

[摘要]本文针对教育系统中的电子图书馆检索,提出了一个基于用户兴趣的分组模型。通过为电子图书馆访问用户划分不同的组,实现有的放矢的资源检索。论文采用LINGO聚簇算法进行资源主题的提取,然后通过相似度匹配的方式进行用户分组调整,以实现准确高效的电子信息资源检索。

[关键词]电子图书馆LINGO聚簇算法用户兴趣分组模型

20世纪末开始随着计算机技术的发展,各种信息资源大量涌现,进入了信息大爆炸的时代。如何在广阔的信息海洋中检索到自己感兴趣的数据越来越成为网络用户关注的焦点。针对用户检索信息的需求,相继出现了许多优秀的搜索引擎,比如雅虎,Google,百度等。同时一些电子商务网站,比如Amazon,eBay,淘宝,当当等也通过不同的检索策略为用户提供信息检索服务。而且随着商业搜索引擎的不断完善,信息检索在教育领域发挥的作用也越来越重要,其中最重要的应用就是在电子图书馆中的资源检索。

一、电子图书馆概述

电子图书馆( Digita『Library)在信息大爆炸的时代背景下诞生,改变了传统图书馆资源管理方式、信息检索方式上的不足,越来越成为图书资源管理和资源检索的重中之重。

广义而言,电子图书馆包括所有电子形式的图书馆资源:经过电子化转换的或以电子形式出版的资料,新出版的或经过回溯性加工的资料(包括期刊、参考工具书、专著、视频音频资料等)[2]。电子图书馆还可以通过网络将分散的电子资源集中在一起,为用户提供无限量的电子资源信息。

一个完整的电子图书馆系统应该包括以下几个部分:用户发出信息查询请求、系统接收请求并进行检索处理、检索结果返回给用户三个部分。

但是现存的很多电子图书馆系统把注意力放在如何提高检索请求的处理速度上,而忽略了最重要的一个因素:用户( Users)。电子图书馆服务的主要服务对象是不同的用户,关键在于针对不同的用户,通过系统的分析和判断,对不同用户的检索行为进行记录、分析、综合,进而为不同的用户返回用户感兴趣的检索结果。

例如电子图书馆应该针对不同学院不同学科的用户的不同兴趣进行信息的检索,通过为不同组的用户设置不同的检索库,在进行相关检索时首先从这几个数据库中进行检索,从而达到最快最高效的返回检索结果的目的。

所以本文提出了一个基于用户兴趣的分组模型。根据用户的兴趣将用户进行分组,根据不同的分组采取更有针对性的信息检索。

二、用户分组算法设计

用户分组模块主要包含两个部分,第一部分是电子资源主题关键字的获取,获取主题关键字后返回给用户,根据用户对这些关键字的兴趣获得用户兴趣集合,该集合是进行用户分组的主要依据;第二部分是根据第一部分获得的用户兴趣集合进行用户间的形似度匹配,将具有相同兴趣的用户划归为同一组。

1.资源主题提取原理

本文提出的检索系统模型根据用户的检索兴趣对用户进行分类,通过处理同类用户的请求以实现快速准确的检索电子资源。用户兴趣( User interest)主要通过归纳分析用户对电子资源的浏览、查询以及下载等操作而获得。

要实现资源检索,首先就要获得相应资源的主题( Topic)信息。本文利用LINGO聚簇算法实现电子资源主题的提取。同时该算法也可以用来解决稀有主题的检索和冷门主题过度重复检索的问题。

当用户检索主题为T1的资源时,通过LINGO聚簇算法返回的结果既包括T1有关的资源,也包括与主题T1相近的其他资源,用户需要在这些返回结果中进行选择。同时系统为用户返回一组这些相近主题的集合T={T1,T2.T3……TN}。通过记录、分析、归纳用户对这些主题对应资源的操作,为每个主题T计算一个权值,同时对这些主题T根据其权值进行排列.获得用户兴趣关键字集合I={{T1 d1}.{T2,d2}.{T3 d3}.……{ta.dn}}。

利用LINGO算法检索到的电子资源主题( topic)和用户兴趣集合是本文提出的检索模型中对用户进行分类的主要依据。

2.相似度匹配算法原理

在进行信息检索时,最重要的相似度匹配方法有两种:变量相似性匹配和相关性匹配。所以,我们需要进行如下计算:

其中R。表示用户组k受影响的概率。T为系统中所有用户的数量,r.是用户i所属的分组,V,是用户;受主题J影响的概率,N代表用户组K中的用户总数,P表示用户组k的用户数在系统总用户数中的比率。

三、系统框架及原理

1模型框架设计

图3-1是本模型的一个系统框架结构图。

由图3-1可知,该模型与传统的图书馆检索模型并没有差别,都是由三大部分组成:用户,检索服务器,资源。首先,用户的查询请求发送给检索服务器,检索服务器根据用户的检索主题和用户兴趣集合对用户分类,然后针对用户类别的不同,将用户的检索请求进行分化处理,然后针对不同的用户组别查询相应的电子资源库。

在本模型中,最重要的是用户分组模块,只有对用户进行有效的分组才能对用户的信息检索请求进行有针对性的查询。本文提出的分组模型主要根据用户兴趣的相似度来对用户进行分组。

2系统工作流程

系统工作流程分为以下几个步骤:

(1)用户发出资源查询请求。

用户在客户端操作电子信息资源,在这个过程中,用户会浏览、下载、查询特定资源,客户端根据用户的行为搜集用户查询主题集合T与用户兴趣集合1。

(2)检索服务器接[来自wwW.lw5u.cOm]收用户请求以及集合T和集合l。

服务器端接收用户请求后,首先根据客户端传送过来的用户查询主题[来自www.lW5U.com]集合T和用户兴趣集合I为用户分组。同时,当用户有新的查询请求到达时,分组模块利用相似度匹配算法对现在的分组情况进行调整。

(3)根据步骤(2J获得的分组结果,针对电子图书馆的不同资源库进行资源查询处理。

(4)将查询结果返回给用户。

四、结束语

本文介绍了基于用户兴趣的分组模型在电子图书馆信息检索中的应用。本论文提出的检索模型与传统的图书馆检索模型并无大的差别,唯一不同的地方是在检索服务器端对用户进行分组处理,根据用户兴趣将用户分成不同的组别,针对不同的组别,检索服务器将检索不同的电子信息资源库。这样缩小了检索服务器检索资源的范围,提高了检索效率和准确度。

本文采用LINGO聚簇算法实现电子资源主题的提取,该算法能够有效僻决稀有关键字的检索问题,同时对于某些冷门领域的过度重复检索问题也有良好的解决方案,所以利用该算法进行电子资源的检索和管理,能够提供用户感兴趣且全面的电子资源信息。

本文的重点在于用户的分组,根据用户兴趣集合利用相关性匹配和变量相似度匹配算法进行用户的分组处理,该算法能够根据用户检索、浏览、下载电子资源的行为对用户进行自动分组,为检索服务器确定目标检索资源库提供了依据。进一步保证了检索结果的准确性和高效性。

参考文献:

【1】 Digital Lihrarieshttp://.springerlink.lib.tsinghua.edu.cn/c-ontent/u34u5 3494t7 36660/fu Utext.hCml

【2】王预:基于数字图书馆检索技术的数据挖掘研究Ul计算机技术与发展,2I)()6(1 1)

【3】 Stanislaw Oilskin and David Weiss: Conceptual C,lusrcring Using Lingo Algorithm: evaluation on Open Directory ProjecrI)an.AclvlnCed in Soft Compuring, Inrelligent Information Processing and Weh Mining,Proceedingsofthe Intcrnational IIS: IIPWM’()4 Conference, Zapopan,Poland(2()1)4)369-37

【4】林鸿飞,杨元生:用户兴趣模型的表示和更新机制Ul计算机研究与发展,2002(7)

【5】宋丽哲,詹赤兵,王胜海:基于本体的数字图书馆个性化用户模型表示,中文信息学报,2008,((11)

【6】李秋,王建维,魏小鹏:改进的蚁群聚类算法在本体知识库中的应用计算机系统应用,2009(10)