|
元搜索引擎技术优化Web检索
在我国刑事司法和刑事执法领域,理论研究者和实务工作者,有着从WWW中获取“刑法相关信息”的特定需求,和互联网上的一般用户一样,同样面临着“大海捞针”的窘境。司法部于2004年6月以部级科研项目形式向中央司法警官学院下达专项任务,研制开发《刑法信息综合分析系统》,面向互联网刑法相关信息,对其进行筛选、分类等处理,并在此基础上为刑事司法和刑事执法领域特定用户群体提供多种形式的信息服务。系统前端使用元搜索引擎为用户提供了一个友好的信息检索交互界面,向用户提供统一的访问服务,并运用文档聚类方法对搜索引擎的返回结果进行快速分类,并通过用户的行为反应探视用户的兴趣,动态调整聚类结果,提高了检索的有效性、检索的查准率和查全率,帮助用户快速检索到相关信息。本文作者参加了该课题研究并负责计算机技术工作,本文即是对其中部分技术的介绍。
元搜索引擎:
“搜索引擎之母”
目前,搜索引擎已成为Internet研究的热点,元搜索引擎被称作“搜索引擎之上的搜索引擎”或“搜索引擎之母”,在国外也得到了广泛研究,也产生了像ProFusion、SavvySearch及MetaSeek等著名的元搜索引擎。
为了提高检索精度,这些元搜索引擎ProFusion、SavvySearch及MeatSEEK并不总是将用户的查询请求固定发往相同的搜索引擎。ProFusion综合考虑检索的性能、预测的主题以及用户表达的偏好。在执行查询时,ProFusion分别下载网页并检查无效的(broken)链接以及重复的链接。MetaSeek考虑过去的查询结果以及用户关键词的选择来源,SavvySearch允许用户通过指定目录确定搜索的范围。
在国内相关的研究相对较少,特别是涉及到中文处理,加大了研究的难度。中国科学院、北京大学等都已在这方面取得了一定的成果。
中文网页分类是搜索引擎研究的核心问题之一,网页自动分类方法包括自动归类和聚类,目前已有不少针对英文的分类算法,如kNN、朴素贝叶斯、神经网络、支持向量机、系统聚类法、层次凝聚法等,但中文网页具有自身的一些特性,其分类方法也构成了目前研究的热点。本文采用了聚类方法对中文网页中搜索引擎的返回结果进行聚类分析,并结合用户特性给出了统一的结果排序评价算法,并建立了元搜索引擎的模型。同时给出了详细的算法构成和实现过程。
元搜索引擎的设计与实现
刑法信息综合分析系统完整的系统体系结构如下图所示,包括了信息的采集、处理和发布三部分,系统前端是本文介绍的元搜索引擎。
元搜索引擎实现检索的基本流程为:
第1步,用户通过浏览器提交查询请求;第2步,元搜索引擎对查询请求规范化形成规范查询请求向量Q=(q1,q2,…,qn);第3步,向各个搜索引擎分发检索请求;第4步,结合用户特征对各搜索引擎的返回结果进行过滤、排序等整合处理,体现用户的个性,优化了检索;第5步,返回检索结果并记录用户对结果的反馈信息,作为进一步整合后续结果的依据,并作为用户特征动态分析的依据,为其他应用提供信息。
查询结果的聚类分析
查询结果整合是元搜索引擎的关键问题,因为每个搜索引擎都具有自己对搜索结果的排序算法,使得不同搜索引擎的搜索结果的排序无法比较,搜索结果与用户查询之间的相关程度也无法建立统一的度量标准,因此查询结果整合问题成了搜索引擎研究的核心问题。目前已有不少研究者从不同角度提出了各自的解决方法。本系统主要采用聚类分析和相关度分析进行查询结果整合,基本步骤是:
(1) 对各搜索引擎的查询结果进行聚类分析,形成对查询结果的自动分类;
(2) 分析对各类和用户查询请求之间的相关度,以及各类和刑法信息之间的相关度,并根据相关度确定类排序;
(3) 将相关度最大的类中的结果返回用户。
聚类分析是由计算机系统按照被考察对象的内部或外部特征,按照一定的要求将相近、相似或者相同特征的对象聚合在一起的过程。自动聚类在于要揭示所考察对象之间本质的“抱团”性质,根据对象的不同特征划分成不同的类,使得同一个类中的对象之间的差别尽可能地小,而不同类中的对象之间的差别尽可能地大。
聚类分析在机器学习、模式识别等领域已有不少研究,也已提出了不少聚类算法,如系统聚类法、C-均值聚类法、层次聚类法、密度聚类法、网格聚类法等,其中K-均值聚类法以其计算的高效率而被广泛采用。
在确定了应该返回用户的类之后需要进一步确定类内各结果项的排序。查询结果排序采用类似于类排序的策略,通过计算每一个结果项和查询请求之间的相似度以及和用户特征之间的相似度,同时考虑结果项在元搜索引擎中的排序。
设元搜索引擎使用的搜索引擎个数为p,结果项r={t1,t2,…,tn}在第i个搜索引擎中的排序为Rs(i,r),且该搜索引擎总的查询结果项为Ni。另外假定所有搜索引擎返回的结果项的总和为S。则定义该结果项r的相对排序Rt为:
对于给定的查询请求Q=(q1,q2,…,qn)和用户u=(ut1,ut2,…,utm),通过下式确定其排序Rank(r):
这里θ为经验常数,其作用是将结果项Rt(r)排序位置值转换为和相似度一致的度量上,目前实验的理想值为0.025。常数ρ、σ、τ为加权系数,并满足:
这里ρ、σ、τ的值和α、β一样,需要通过实验获得,并需要在用户使用过程中通过用户模式的稳定和完善取得理想的值。
实验结果
刑法信息综合分析系统是司法部专项任务项目,其中元搜索引擎技术的运用是系统的核心之一,我们对算法的基本性能进行了实验测试,取得了令人满意的结果。实验中,为了评价元搜索引擎本身性能,所以未使用正在开发中的专用搜索引擎,我们使用了google、sohu、baidu和sina四个搜索引擎作为基础搜索引擎。
为了得到稳定的α、β、ρ、σ、τ的值,我们进行了如下几种形式的实验:
(1)固定单词条查询请求,不同的用户特征词条个数;
(2)固定多词条查询请求,不同的用户特征词条个数;
(3)多个查询请求、固定用户特征词条个数;
(4)单搜索引擎模式下的性能测试。
通过实验我们得出了α、β、ρ、σ、τ的比较稳定的值分别为0.8、0.2、0.5、0.2、0.3。
下表是在以上系数时,使用单检索词条“杀人罪”进行的检索情况,用户感兴趣的检索结果为“故意杀人罪犯罪特征探讨”。
从表中可以看出我们的元搜索引擎对于提高检索效率有明显效果,缩短了用户查找到感兴趣信息的查询时间。
为了提高检索效率,帮助用户快速地定位感兴趣的信息,我们使用元搜索引擎技术,面向特定的刑法信息领域以及特定的用户群体,优化了web检索服务,在两个方面进行了卓有成效的研究:(1)运用注册用户管理机制,以静态和动态两种方式收集用户特征,建立用户访问模式,并在用户检索的全过程以及用户检索的历史过程中关注用户信息需求兴趣并动态收集、调整用户特征,使用用户特征优化检索;(2)运用动态聚类方法对各搜索引擎的返回结果快速分类,并提出分层次的结果排序算法,帮助用户快速检索到相关信息。实验结果也表明了元搜索引擎的有效性,作为刑法信息综合分析系统前端,满足了系统的性能要求。
在系统中有待进一步研究的问题是:(1)针对刑法领域的特定内容,在系统中将形成刑法词典,其运用对优化元搜索引擎性能的影响;(2)在用户使用元搜索引擎的过程中,用户日志的分析对改进系统性能的影响;(3)算法中加权系数α、β、ρ、σ、τ的值,还有待大量用户实践的检验。
|