绷缝机厂家
免费服务热线

Free service

hotline

010-00000000
绷缝机厂家
热门搜索:
技术资讯
当前位置:首页 > 技术资讯

硅谷杂志基于语义网的信息检索系统研究

发布时间:2020-02-12 21:11:22 阅读: 来源:绷缝机厂家

【硅谷网11月3日文】据《硅谷》杂志2012年第16期刊文称,为解决传统的基于web1.0、web2.0检索系统中出现的难以查全、查准信息的状况,探讨将语义网技术应用到web3.0中,使检索系统的运用实现语义功能,即检索系统所识别的不再是传统的简单的字符及单纯的字符匹配处理,而是能够理解字、词、语句中所包含的含义,从而实现信息检索服务的个性化、智能化、精准化和高效化。

在互联网海量的数字资源中,传统的信息检索方式是基于关键词比对技术的检索,用户登陆检索界面,尽可能的挑选准确的关键词,但是检索的结果仍然会比较杂乱,误检率和漏检率也会比较高。此时,检索用户一般会改变检索策略,重新进行检索,或者在前面检索的基础上,输入新的检索词进行二次检索,以提高查全率和查准率。这种传统的检索方式,计算机检索系统只是将检索词语作简单的匹配工作,并将匹配到的结果按照一定的方法进行简单排序后,输出给用户,而对于检索用户的真正检索意图并不了解。基于语义网(SemantieWeb)的信息检索方式是经过智能化处理后的交互,面对检索用户输入的检索式,通过语义网技术进行分析,筛选出符合用户检索意图的信息,这种检索方式使互联网上的信息检索变得更为简易,且信息的准确率也得到了很大的提高。

1语义网概述

语义网是一种能够理解人类自然语言的智能网络,是因特网的扩展和延伸,比因特网更利于计算机理解用户的真实想法。通过语义网,检索系统能理解人类的语言,使得人与系统之间的交流变得像人与人之间交流一样简单。

语义网应用的范围很广,传统的信息检索大都基于web1.0、web2.0技术,而语义网作为web3.0的关键技术,以此建立的信息检索系统,比web1.0、web2.0时代具有更好的互动性。通过语义网,检索系统可以实现为用户提供智能化的信息检索服务,用户只需要在检索系统中输入符合自己意图的自然语言,就可以快速便捷的得到自己所需的信息,甚至是一套完善的、系统的信息集。

用一个例子来说明以语义网为技术基础的web3.0与web1.0、web2.0的区别。例如我们需要检索关于计算机网络的信息。在web1.0的时代,检索系统根据检索词“计算机网络”而静态的展示检索到的文献的特征信息、专业等,这些信息之间互不关联、各自分离,需要用户自己去选择。到web2.0时期,检索系统除提供上面的结果外,还会提供如其他用户对某信息的评论以及该信息被浏览、引用、下载及其有节点关系的其他文献信息,这些给用户选择信息时提供了参考。到web3.0环境下,检索系统根据用户提供的检索概念语义,可智能化的先对网络上的信息进行阅读、搜集、评价,并与用户的专业背景、检索习惯等因素结合,对检索到的结果根据相关性进行排序后,提供给用户,这不仅节约用户选择时间,也提高了信息检索的准确率和覆盖面。

2构建基于语义网的信息检索系统模型

语义网在web3.0中的应用,使检索服务由传统的基于关键词匹配的模式上升到了语义知识的层次,这使计算机检索系统能够智能化的理解检索者的真实意图,并与之进行良好的人机交互,从而更好的实现信息资源的共建共享、科研、学习等服务。

图1是基于语义网构建的信息检索系统模型。在该模型中,系统主要由信息检索、资源整合两各部分构成。用户登陆系统界面输入检索语句,系统对语句进行语义分析处理,然后将生成的概念图一方面与个人偏好库进行匹配,若偏好库中包含则增加其权重,否则记录用户检索行为并对偏好库数据进行更新,另一方面在领域本体库中采用概念图匹配算法进行匹配相似度计算,然后系统对查询结果进行相关性排序后输出,并将用户对结果的评价反馈给个性偏好库。

2.1信息检索

用户采用自然语言的方式来进行检索,系统语义分析功能主要是对用户的检索需求通过抽词、词性标注、句法分析、概念识别来进行分析、处理,从而映射成概念图的模式,以便进行语义检索。当然,在检索时,系统根据用户初次登陆时提供的个人兴趣、专业等信息,并根据用户在历次检索中的检索行为、结果反馈、浏览记录而不断更新的个性化偏好库信息自动生成适合用户的个性化页面。同样,在检索时,系统也会根据用户的个性偏好,输出符合用户个性需求的检索结果。

2.2资源整合

传统的关键词检索方式,需要信息资源提炼出相应的词语以供检索匹配。而基于语义网的信息检索系统采用语义方式检索,需要对信息资源创建本体模型,进而构建领域本体库。在创建领域本体库的过程中,需要创建人员与领域专家进行交流、沟通,并且在领域专家的帮助下,充分挖掘相关领域的信息和知识,以求达到对相关领域概念理解的一致性,从而形成创建人员与领域专家一致认可的领域词汇,进而消除领域本题库中歧义、异议词汇。

3语义网的关键技术

基于语义网的信息检索系统的构建,能轻松的让计算机理解并处理用户的需求,并为用户实现个性化、智能化的信息服务。这需要解决三个关键的技术,即本体(Ontology)、概念图(ConceptualGraph)及相似度计算。

3.1本体(ontology)

本体的构建是实现语义网的根本,通过对某一领域知识定义其领域术语,并用相同的术语对相应的信息资源进行详细的、准确的描述,从而在具体应用中可通过共享语言达到相互之间的理解,就能在计算机系统中表征、交互,最终能够自动的被解析、识别。一个本体的构建一般也是针对现实生活中的某一特定的领域,即领域本体。一个完整本体主要有类(或概念)、关系、函数、公理和实例五个基本元素来构成:类或概念可以是一切事物,包括功能、行为、推理等;关系表示概念之间的相互联系;函数是一种对应关系;公理表示众多领域中,皆可成立的规则。实例是概念类所指的具体实体,领域的所有实例相当于该领域的值域。

3.2概念图

概念图(ConceptualGraph)是一种图形化的表示工具,是计算机领域与自然语言之间的桥梁,作为桥梁作用的语言,它为计算机更进一步处理并能够理解语句的语义奠定了很好的基础。

概念图结构是利用有向弧将结点连接,从而形成有向连通图。概念图的结点主要有两类:一类是概念结点,另一类是关系结点。概念结点主要由两个实体组成,即概念类型和实体对象,它们一般用矩形来表示实体、属性、状态或事件;关系结点则以椭圆表示概念间的交互关系。概念结点和关系结点之间需要通过有向弧进行连接。如句子“Johnreadbook”的概念图如下:

图2概念图示例

3.3概念图相似度计算

概念图和本体论之间在一定程度上可以相互转换或表示,如将概念图中的结点与本体中的类、实例、属性值相对应,概念图中的有向弧与本体论中类间的关系相对应。这样,概念图就可以通过本体论的概念进行表达。所以,我们完全可以将本体论看作是一种特殊的概念图,在实际检索中,系统需要把检索的自然语言转化成相关的概念图与系统数据库中存储的本体资源转化的概念图进行比对。概念图由于主要是概念结点和表示概念之间关系的弧组成,所以概念图的相似度的计算需要分解为概念结点的相似度和概念结点之间关系的相似度。

S(t,t)=*simG(t,t)+

上述公式中,tQ和tR分别表示检索语句生成的概念图和本体资源库中本体的概念图。S(tQ,tR)的值在0~1之间,值为1,则完全匹配,值为0,则没有交集。SimG代表概念相似度,Simr则为概念图中的关系相似度。n(tQ)代表图tQ中概念项的个数,n(tQ∩tR)则表示图tQ和图tR之间有多少公共概念项。表示资源概念图和检索概念图中的第j条关系,表示和相关子图的入口点,w(tQ,j)表示与入口相关的第j条关系的权重。该公式将两个概念图进行匹配的相似度计算,可得到比关键词检索更好的效果。

4概念图相似度计算实验

在信息检索中,对检索结果质量进行评价有两个经常使用的指标:查准率和查全率。

查准率=检索到的相关信息数/检索到的所有信息数,查全率=检索到的相关信息数/数据库中与检索需求相关的所有信息数。

通过选用开放源代码的全文检索引擎Lucene作为工具,提供一定数量的样本,在不断扩大样本检索的覆盖面的情况下,语义和关键词检索的查准率均有不同程度的下降,试验结果如表1:

表1语义和关键词检索的查准率随着查全率增长时而降低

关键词查准率0.680.610.570.510.470.390.350.300.270.220.180.12

语义查准率0.840.780.760.740.710.680.630.610.580.550.530.51

查全率0.040.120.20.310.370.450.520.630.710.780.040.12

图3中蓝色表示语义检索,红色表示关键词检索。通过图3可以看出,查全率越高,语义检索查准率下降的速度比关键词检索的查准率下降的速度更慢,说明在利用关键词进行检索的结果中,存在着许多不符合检索需求的信息,这些不符合检索用户需求的信息能够被检索出来,主要是因为在单纯的词语匹配上,符合关键词查询的要求,但从语义上则无本质的关联。这也真正的说明了语义检索方式比关键词检索方式,其结果更加精确。

5结束语

本文在探讨信息检索系统的构建中,主要借助了在web3.0中应用的语义网技术,这使信息检索系统实现了语义功能。此时,检索系统不再是对字符和标识作简单的识别,并对词语单纯的进行匹配处理,而是能够理解词、字、语句中所包含的语义,这改善了传统技术难以查全、查准相关信息的状况,从而将基于语义网的信息检索系统更加趋向于有利信息资源的共建共享,方便用户与系统中存储的信息进行交流。当然由于基于语义网的信息检索系统的建立和完善需要进一步完善领域知识本体的构建和语义概念的匹配工作。

项目基金:学院教科研立项课题青年基金《基于WEB3.0的信息服务平台建设研究》QN201118

作者简介:

许建林(1979-),男,江苏宝应人,本科,实验师、馆员,研究方向:信息系统管理;毛烨(1983-),女,江苏靖江人,本科,讲师,研究方向:计算机应用设计。

(责任编辑:硅谷网·)

上一篇:基于手机短信的在线教学信息反馈系统研究与实现

下一篇:硅谷杂志:嵌入式系统中基于语音识别技术研究 对“硅谷杂志:基于语义网的信息检索系统研究”发布评论

注册公司时间

广州筹划税务企业

广州代理记账业务

深圳注册公司资金增资