i社区用户: 密码:
搜索:
首页| 资讯| 信息化| 产品| 专题| 创业| 技术天地| 企业中心| 企业论坛| 职场| 周报全文| 商城| 市场
会展| Blog| i社区| 社区联盟| RSS| 电子杂志| 发行| 直播| IT两会| i| 下载| 上网导航| CIO俱乐部

网络信息“拉取”技术

◇ 彭岩 艾迪明



网络信息“拉取”(Pull)技术指用户有目的地在网络上主动查询信息,用户从浏览器给Web发出请求,由Web获取所需信息。随着Internet上资源的日趋丰富,面对拥有海量信息的Internet环境,为了能快速、高效地寻找到有用信息,搜索引擎(Search Engine)应运而生。搜索引擎是通往浩瀚信息海洋的捷径,因而也有人将其称为“网络之门”。实践表明,搜索引擎是有效的网络信息拉取(查询)的辅助工具。

1994年初,第一代真正基于WWW的搜索引擎诞生。到1995年,商业化的搜索引擎开始大规模开发,其第一代产品的代表厂商包括Yahoo!、Excite、Infoseek、altaVista等,并从典型的目录式分类结构发展到全文搜索引擎、图形图像搜索及元搜索。

一、基本类型和工作原理

按照搜索引擎提供的功能和使用的技术来划分,目前Internet上的搜索引擎有以下几种基本类型:

1、分类目录

这类搜索引擎使用网站分类技术,即把网站进行树状的归类,对每个站点都有简略的描述。分类目录将网站系统地分类整理,提供一个按类别编排的网站目录。在每一类中,排列着属于这一类别的网站的站名、网址链接、内容提要,以及子分类目录。当然,为了分类科学准确,需要有一支由各学科人才组成的维护队伍。这些编辑人员在访问了某个Web站点后撰写一段对该站点的描述,并根据站点的内容和性质将其归类,把站点的URL和描述放在这个类别中。当用户查询某个关键词时,搜索软件只需在这些描述中进行搜索即可。

分类目录式搜索引擎由于其目录是依靠人工来评价一个网站的内容,因此用户从目录搜索得到的结果往往更具参考价值。这类搜索引擎因为加入了人的智能,所以所发信息准确、导航质量高;缺点是需要人工介入、维护量大、信息更新不及时、成本较高。

2.网页搜索

网页搜索引擎同分类目录的最大区别是搜索结果不是网站信息,而是符合检索条件的网页信息。这类搜索引擎采用基于Robot的技术,它利用一个被称为Robot(也叫做Spider、Web Crawler或Web Wanderer)的程序自动访问Web站点,机器人程序以某种策略自动地在Internet中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。

该类搜索引擎的优点是信息量大、更新及时、不需要人工干预;缺点是返回信息过多。此外,还有两个问题:一个是用户有时很难简单地用关键词或关键词串来准确地表达需要检索的内容,表达困难导致检索困难。

另一个是随着时间、地域或领域的改变,同一概念可以用不同的形式来表达,如 “计算机”、“电脑”和“微机”;而同一个词也有可能表达不同的意义,如 “Java”可以指一种编程语言、印度尼西亚的一个岛或一种咖啡豆。

3.图形图像搜索

图形图像搜索引擎是专门搜索图形、图像(照片)的搜索引擎,它是一种新的搜索引擎服务。由于涉及到图像等多媒体信息,因而图形图像搜索引擎的数据库组织需要采用不同于网站和网页搜索引擎的技术,需要充分考虑到多媒体信息的组织和查询问题。

实际上现在的图形图像搜索引擎使用的基本技术仍然是传统的“网站搜索引擎”和“网页搜索引擎”的基本技术。目前图形图像搜索引擎可以分为两类:一类是搜索引擎等门户网站提供的图形图像搜索,用户仍然是通过文本关键词或分类目录查询相关的图形图像信息;另一类是一些专业图库提供的图形图像搜索引擎,这些图库一般都由专门的机构维护,收录有某一方面的珍贵图像信息,典型的如“Smithsonian图片数据库”、“美国航太总署图片交流中心”等。

现在图像检索技术正在向利用图像的颜色特征、形状特征、纹理特征等内容特征进行查询(即基于内容的检索)的方向发展。

4.元搜索(Meta Search Engine)

这类搜索引擎自己并不收集网站或网页信息,通常也没有自己的资源库和Robot,当用户查询一个关键词时,它把用户的查询请求转换成其他搜索引擎能够接受的命令格式,并行地访问数个传统的搜索引擎来查询这个关键词,然后将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。当使用元搜索引擎进行搜索时,虽然结果信息来自不同的独立引擎,但经过处理后以统一形式显示,并且对重复的内容进行了综合整理。服务方式为面向网页的全文检索。严格地讲,元搜索引擎只是以一个代理的角色接收用户的查询请求。

元搜索引擎的优点是返回结果的信息量更大、更全;缺点是不能够充分发挥所采用的搜索引擎的功能,用户需要做更多的筛选。现在的元搜索引擎都只能进行简单的关键词查询,不支持复杂的高级条件查询,这是因为不同的搜索引擎所能支持的高级查询不同,处理方式差别也很大,元搜索无法同时向多个搜索引擎提交高级条件查询。

现在主要的几个元搜索引擎都是英文搜索引擎,还没有中文的元搜索引擎。元搜索引擎的技术仍在快速发展,它的一些缺点会有所改善。这类搜索引擎的代表是Hotbot、Lycos、MetaCrawler等。

二、性能评价

影响一个搜索引擎系统性能的因素有很多,最主要的是信息检索模型,包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法等。评价一个搜索引擎传统的方法是使用查全率(recall)、查准率(precision)及响应时间(Response Time)等,同时还包括以下几个方面:

1.被索引文档数量

近几年来Internet迅速扩张,其上的站点和网页越来越多,预计Internet上的文档数量将超过10亿份,各搜索引擎索引文档数从几万到1亿不等,现在最大的两个搜索引擎Northern Light和AltaVista只分别给1.6亿和1.5亿份网页建立了索引,最大的目录Yahoo!也只收集了120万个左右的站点。但所有这些服务的索引加起来也只是Internet上可存取文档的一部分。

2.更新频率

主页的更新频率从一周左右一次到一年左右一次不等,而整个数据库的更新通常为一年两次。

3.获取文档的策略

采用广度优先搜索(如AltaVista)可能获取更多的页面和上层主页;深度优先搜索(如Lycos)则可以从小数量的服务器中获取更深更详细的内容和专业化文档。深度和广度存在一个平衡,这个关系决定数据库的内容。

作为搜索引擎的用户,他们主要看重的是系统的稳定性、速度、易用性和返回的信息量及相关度。

三、未来展望

搜索引擎的发展经历了几个阶段,从最初一味地追求收集更多的网页,发展到目前注重网页质量与相关性的结合。搜索引擎的研究、开发涉及到信息检索、计算机网络、数据库、人工智能、数据挖掘、自然语言处理等多领域的理论和技术,具有综合性和挑战性。同时又由于其用户数量巨大,因而具有很好的经济价值。因此,搜索引擎的研究、开发工作引起了世界各国信息产业界的高度重视,同时也出现了不少很有意义的研究方向。

1.更精确的搜索引擎

搜索引擎技术本身一个最重要的发展方向是提供更精确的搜索。实际上,用户在搜索引擎上进行信息查询时,并不十分关注返回的结果有多少,而是看结果是否和自己的需求吻合。目前出现了几种提高查准率的方法,如通过使用相关度反馈机制,使用户告诉搜索引擎哪些文档和自己的需求相关(及其相关的程度),通过多次交互逐步求精等方法了解用户的真正意图。

但要想大幅度地提高查准率,搜索引擎必须能够处理语义信息,即当前影响搜索引擎效率和搜索结果准确度的主要原因是它不能处理复杂语义信息。显然,人工智能技术将在这方面大有用武之地。

2.个性化与本地化

入门网站的个性化已经比较成熟了,但是搜索引擎的个性化并没有得到解决,也就是说搜索引擎不考虑人的地域、性别、年龄等方面的差别。一些搜索引擎公司已经开始了个性化方面的研发工作。例如,信息智能代理(intelligent agent)使用自动获得的领域模型(如Web知识、信息处理、与用户兴趣相关的信息资源、领域组织结构)、用户模型(如用户背景、兴趣、行为、风格)知识进行信息搜集、索引、过滤(包括兴趣过滤和不良信息过滤),并自动地将用户感兴趣的、对用户有用的信息提交给用户。智能代理具有不断学习、适应信息和用户兴趣动态变化的能力,从而提供个性化的服务。

近期多个搜索引擎已开始提供个性化的服务,例如Yahoo!的“My Yahoo!”、Infoseek的“Personalized start page”、Lycos的“My Lycos”等,它们允许用户为自己定制起始页面,并选择感兴趣的内容和经常使用的服务放在该页面中。

本地化是另一个明显的趋势。随着Internet在全球的迅速普及,综合性的搜索引擎已经不能满足不同国家网民的信息需求。近来,Yahoo!、Lycos等公司不断推出各国、各地区的本地搜索网站,搜索的本地化已经势不可挡。

3.交叉语言检索的研究

交叉语言信息检索是指用户用母语提交查询,搜索引擎在多种语言的数据库中进行信息检索,返回能够回答用户问题的多种语言的文档。如果再加上机器翻译,则返回结果可以用母语显示。该技术目前还处于初步研究阶段,主要的困难在于语言之间在表达方式和语义对应上存在不确定性。

传统搜索引擎对于非结构化数据的处理能力很弱,它无法处理在用户看来是非常普通的常识性知识,更不能处理随用户不同而变化的个性化知识、随地域不同而变化的区域性知识以及随领域不同而变化的专业性知识等。我们认为,造成上述困难的实质性原因在于搜索引擎缺乏知识处理能力和理解能力。把信息检索从目前基于关键词层面提高到基于知识层面,进行智能化的信息拉取是解决问题的根本和关键。

(计算机世界报 第45期 B6、B9)



周报全文频道联系方式:010-68130909
【关于我们】  【广告服务】  【周报发行】  【投稿指南】  【投稿声明】  【联系方式】  【法律声明】
  【媒体手册】  【编读往来】  
Copyright© ccw.com.cn,All rights reserved
中国计算机世界出版服务公司版权所有