中文全文检索软件的选择



邮电部科技情报研究所 张彦辉
引言
来自统计学的报告显示,在今天的信息时代,每天都会产生出大量的、具有反复利用价值
的信息,而在这些数据中,不能直接转化成字段信息被数据库处理的文本、图像、音频、视频
、复合文档等信息占了近80%,它们不能被传统的关系型数据库管理系统有效地处理,因而大
大降低了这些数据的实际价值。同时,即使对于那些能够被传统的关系型数据库管理系统有
效处理的结构化信息而言,传统的标引加工检索也存在着加工速度慢、不一致和不全面等诸
多缺陷,已经远远不能满足今天信息快速增长的需要。
全文检索就是以文本数据为主要处理对象,提供根据资料内容而不是外在特征来实现的
先进查询手段。"文海捞针"是对全文检索的形象描述,全面、准确和快速是衡量全文检索系
统的关键指标。
全文检索技术的出现,导致了信息检索领域的一场革命;比起标引检索来,全文检索提供
了全新的、强大的检索功能,可以直接根据文献资料的内容进行检索,支持多角度、多侧面地
综合利用信息资源;全文检索技术是发现信息、分析和过滤信息、信息代理、信息安全控制
等应用的主要技术基础。以全文检索为核心技术的搜索引擎已经成为网络时代的主流技术之
一。

中文全文检索技术方兴未艾
全文检索技术在80年代以前主要用于大型的联机信息查询系统,如美国的Dialog、Lexs
等系统。90年代以来,随着Internet/Intranet的迅猛发展和信息对正确决策的日趋重要,信
息高速公路已成为人们通向未来的必由之路,因而全文检索技术愈来愈成为信息系统中不可
缺少的关键功能和必要手段。然而,中文全文检索无法在西文产品的已有结构上实现,这使得
中文全文检索技术的开发研究及其应用进入了前所未有的新阶段,各种中文全文检索系统相
继问世。TRS、TRIP、东方龙马、海文、PKUIR、天宇、SAVVY/EFS等大大小小的中文全文检
索软件正在竞相开拓各自的市场领域。因此,对于中文信息提供者来说,选择一套合适的中文
全文检索系统,已成为建设信息服务系统时应该考虑的首要问题之一。

中文全文检索软件的选择
选择中文全文检索系统,主要应从以下几个方面来考虑:

1.实现中文全文检索功能
一个能够真正高效地处理中文文本资料的全文检索系统,应该具备如下特性:
·内核及界面全面中文化,系统应从核心设计到界面操作均支持中文(国标GB代码集GB
-2312/80)。
·对文本中的任何词或词组都能进行检索;且可以用布尔逻辑(与、或、非等)、位置和
距离运算进行组合检索。
·在支持全文检索的同时,能进行特征字段检索;能处理特定需求的结构文献。
·中英文及数字全方位兼容,所处理的数据对象应允许同时含有中英文及数字,且全角
/半角、大小写均能兼容。
·有一定的控制机制,保证较高的查全率和查准率。
目前,具有代表性的中文全文检索技术主要有按字检索与按词检索。
所谓按字检索,是将每个汉字当作一个词来处理,即在扫描时,凡是碰到第8位为"1"的机
器码,便连同其后的第二个字节(无论第8位是"0"还是"1")一起当作一个双字节的词给予编址
定位。面向对象的全文数据库系统TRIP就采用了这种技术来处理中文汉字。TRIP是PARALO
AB软件公司在1985年推出的全文检索与数据库管理系统(Full Text Base Management Sst
em,简称TRIP)。在世界全文检索系统领域里占有15%的市场份额;1987年由中国科技信息所与
TRIP的开发者合作汉化,推出中文版。
按字处理技术的主要优点在于避开了汉字词义分析、切分这一困难,仅仅是在第8位为1
"时按双字节词处理,因此这种处理技术不仅对汉字,只要是采用双字节编码的各种东方文字
,均可进行全文检索。按字处理技术的主要缺陷是检索时间的开销相对较大。
按词检索则是以汉字的词而不是字为基本单位建库和检索。采用按词检索技术的中文全
文检索系统,一般都嵌有自动分词子系统,并附以多种建库词典,从内核实现按词建库和按词
检索。TRS、PKUIR(北京大学计算机工程系开发的全文信息管理系统)、CGRS(杭州天宇资讯
开发公司研制的天宇全文信息管理系统)采用的都是这种策略。

2.支持Client/Server
采用Client/Server体系结构,可使系统具有良好的可伸缩性和可选择性,在实际多用户
环境中可以获得更高的性能,适合于以网络为中心的计算模式和Internet应用。尤其在信息
建设网络化的今天,是否支持Client/Server体系结构,已成为不可忽视的重要指标。

3.支持多媒体的能力
目前信息正在从单一文字向多媒体发展,可以接受并处理、存储、显示图文一体化的信
息资料,是检索系统进一步扩大应用领域的必然;因此,全文检索系统除支持标准的文本数据
外,还需支持各种流行格式的图像、图形、视频和音频信息的存储、管理、检索和播放以及
各种字处理软件、图表制作软件产生的格式化文件的存储、管理、检索和输出,如Microsot
Word、Excel、Powerpoint文件等,从而实现文字、图片的统一管理、存储、检索和输出。

4.Internet Web-Gateway功能
一套先进的中文全文检索系统必须和Internet技术紧密结合,具有Internet Web-Gatea
y功能,在全文数据库服务器和WWW服务器之间建立起桥梁,使其能应用于Internet/Intrant中
的各种领域,包括:
·在企业内部建立各种资料库,用标准Web浏览器进行访问。
·对单位内部Web服务器上的HTML文件提供搜索引擎。
·对Internet Web服务器上的信息进行加工、整理,提供快速准确的分类查找工具。
·为海量数据库信息服务提供高性能的全文检索服务器引擎。

5.用户管理、计费管理和权限管理
应具有独立于操作系统的用户管理机制。被授权用户需要一个独立于操作系统的用户帐
号才能使用和检索数据库,这不仅能保证系统的安全,也是计费功能的基础。
允许用户设立自己的收费标准,实行实时计费管理,并按计费标准统计输出用户帐单。
提供至少三级,即系统级、数据库级和记录级安全机制,TRS等已可以提供到包括字段级
的四级安全机制。

6.所支持的软、硬件平台
目前流行的硬件平台有:IBM、SUN、DEC、SGI、Unisys、NCR、Alpha、VAX等;软件平台
有:VMS,OpenVMS、NT及各种UNIX软件平台。
中文全文检索系统应能支持以上软、硬件平台中的绝大部分,以保证企业用户在Intere
t应用方面具有优势,同时使信息服务系统的水平升级和垂直升级简便易行。

7.性能分析
评价一套中文全文检索系统,除考虑以上的系统功能外,还必须分析系统的性能标准,即
检索速度;
检索的准确性、全面性;
数据库的空间膨胀率。
在现有的全文检索系统中,由于采用按词检索技术、倒排索引、Cache技术和查询优化技
术等机制,可以显著提高系统的响应速度和查询的准确性。采用这种技术的全文检索系统,如
TRS、CGRS等,早已有"海量数据秒级查询"的说法。如同所有的检索软件一样,信息的查全率
与查准率永远是一对矛盾的统一体,按词检索技术在提高检索准确性的同时,也牺牲部分查全
率,只是这种损失相对于带来的优点而言,是很值得的。在这一点上,以按字检索技术实现的
中文全文检索系统,在系统检索的全面性方面则具有一定优势。因此,对于查全率与查准率的
考虑,应该是相对的,而不能绝对化。要根据信息服务系统的性质、面向的对象以及信息的特
点进行综合考虑。就目前全文检索市场而言,按词检索技术占有较大优势。
全文检索的另一个关键技术是,在保证系统能向用户提供尽可能多的查询手段的同时,数
据库中的最大文献吞吐量以及数据库文件在计算机硬盘(光盘)中占用的存储空间的比例,也
就是通常所讲的数据库索引的空间膨胀问题。理想的情况是,在保证系统的功能和性能不受
影响的前提下,使系统文件在磁盘上占用的空间越少越好。但这二者也是一对矛盾。选择时
只能根据信息服务系统的具体要求来取舍。

(计算机世界报 1997年 第50期)