英文网络信息检索工具 刘作奎 2001年 40期 笔者根据长期的工作经验,总结出一些英文网络信息检索工具,认识这些工具,有利于你在最快的时间里获取最有价值的大量信息。笔者有针对性地将这些信息检索工具分为三种类型,它们各有各的用途。请读者朋友读后选择使用。   #1一、检索型网络信息检索工具   在这里我们要向网络用户提供一些世界上有名的网络搜索引擎。这些专业搜索引擎要比国内中文网站的搜索引擎起步早,更加完善。起初上网,我主要是利用新浪、搜狐、263等的搜索引擎,但随着对搜索引擎理解的深入,便发现我们自己的搜索引擎还有许多的问题。比如说新浪网,其搜索引擎不够精确,有时也不完全按照用户的设定条件来完成搜索任务,形成了许多资源垃圾,为查阅增添了许多麻烦。国内其它搜索引擎也存在着这样的问题,这说明我们的网上引擎服务正处在发展阶段,还不够完善。   一些外国著名的搜索引擎服务公司看准了中国网络市场这种缺陷,及时地打入中国的市场。目前,几个著名的国际搜索引擎公司都有中文检索搜寻功能,这极大地方便了我们获取重要资料。这些有名的搜索引擎公司服务质量好、服务完善、精确匹配高,大大提高了文献提取的效率。更为重要的是,我们要获得国际上的资源,就更离不开它们了。前些日子,我和一位美国史学专家探讨如何搜索到有用的中外资料时,他毫不犹豫地向我提供了Google搜索引擎。我打开一看,这真是一个方便、快捷而又个人化的搜索引擎。它的搜索功能和结果列表筛选是国内网站无法比拟的。因此,我建议大家在以后进行搜索时,应该使中外的搜索引擎兼顾使用,这样才能达到预想的效果。下面我就向大家介绍一下世界有名的几大搜索引擎公司。   #2●Excite   http://www.excite.com   优点:个人化检索是Excite的一个重要特点。Excite组织专家精选Web站点和撰写站点评价,依此建立站点评价目录。Excite就是利用这个目录来提供分类浏览功能,给出各类中的站点指南。Excite在主页中还提供了若干专题检索功能,例如检索Yellow Pages(电话簿)、People Finder(人物)、Map&Direction(地图)、E-mail Look-up(电子邮件)等。   #2●HotBot   http://www.hotbot.com   优点:HotBot提供的专题检索非常丰富,包括对新闻组、黄页、白页、电子邮件地址、域名等的检索。   #2●Infoseek   http://www.infoseek.com   优点:实时性强,更新速度快,重要的新闻和消息每15分钟左右就会更新一次。   #2●Lycos   http://www.lycos.com   优点:以索引数据库标引的网页数量来看,Lycos只是一个中型搜索引擎。但Lycos并不局限于搜索引擎功能,而是力图建立一个引导用户进入其它站点的门户,甚至进而建立一种为访问者提供所有基本服务的网络枢纽和基地。为此,Lycos在最近几年相继收购了Tripod、WiseWire、HotBot、GuestWorld、WhoWhere、Wired Digital、Angelfire等网络服务站点,形成了一个提供全面网络服务的体系。   #2●Northern Light   http://www.northernlight.com   优点:Northern Light有强大的文献获取功能和服务,为我们的各类科研人员的研究提供了极大的方便,只是在我们获取这些有用的资料时,需要我们付给一定的费用。   #2●OpenText   http://pinstripe.opentext.com   优点:OpenText是一个历史较长、不断变化且具有特色的网络公司。OpenText是一家业务众多的公司,搜索引擎只是它经营的业务之一。最早的OpenText搜索引擎与多数搜索引擎一样,试图广泛采集标引网页来覆盖所有的区域,但现在OpenText只采集与商业相关的网页,为商业用户提供更加专门化、更加深入细致的检索服务及其它信息服务。   #2●Webcrawler   http://www.webcrawler.com   优点:Webcrawler号称是第一搜索引擎,也是第一个提供全文检索的搜索引擎。1994年4月它开始提供网上检索服务。1995年3月,它被美国在线收购,成为一个商业化的服务站点。1996年11月,它被Excite公司收购,成为Excite网络的一部分。   其它简单的搜索引擎:   #2●PlanetSearch   http://www.planetsearch.com   PlanetSearch是一个相对比较简单的搜索引擎,但在结果的显示和处理上有它独到的地方。   #2●Magellan   http://magellan.excite.com   Magellan是Excite网络的一部分。Magellan除了有关键词检索功能外,还提供概念检索,即可以检索与输入检索词词形不同,但意义相同的其它词汇。   #2●Google   http://www.google.com   Google也是一个相对比较简单的搜索引擎,但结果处理也有独到之处。Google经过几年的发展,现在已经成为登录用户较多、服务比较完备、比较简洁实用的一个搜索引擎,我现在就一直用它。   #1二、浏览型网络信息检索工具   为什么要引入浏览型网络检索工具呢?前面介绍的几种通过搜索来获取信息是一种检索模式,它们均使用搜索引擎来发现和标引文件,并采集各类Web网页的所有内容,忽视主题内容的选择。这些检索工具没有为庞大的网页集提供预先协调的机构,例如一个分类系统。它们难以提供评判的标准,也不提供关于选择和收集的明白解说。缺少这些都会影响所创建的索引的结构的和检索的优化,而且数据库规模逐渐开始接近整个万维网的大小。因此我建议读者使用多个检索工具增加检索结果的覆盖率。我也建议读者使用不同的检索工具类型,特别是那些解说清晰、获取快捷的工具。以下我将介绍另一种类型的检索工具,它们均依靠人工收集和整理采集到的Web站点和网页。   #2●eBLAST   http://www.ebig.com   优点:eBLAST翻译为不列颠百科全书链接与检索工具,是一个WWW导航服务系统,目前已对众多的站点进行了分类、排序。由于采用人工挑选的方法,eBLAST中站点的权威性和可信度都相当高。   #2●Galaxy   http://www.galaxy.com   优点:Galaxy是由CyberGuard公司提供的全球信息服务指南。1994年1月开始在网上运行,它允许任何人提交因特网站点资源,还允许任何一个人为一个信息资源、产品或服务提供简单的说明信息。用户提交的站点需要经过专业人士分析提炼,因此,一个站点被专业人员访问分析并被放置在Galaxy数据库中需要花费很长时间。   #2●Yahoo!   http://www.yahoo.com   优点:因为呈现出截然不同的检索接口和分类索引方式,Yahoo!常常用作与AltaVista一类搜索工具相区别的最佳例子。尽管Yahoo!也提供了一个检索其数据库的输入框,但它最显著的特点在于浏览,以及连接着数据库中每一记录的超文本分类体系。同其它检索工具一样,Yahoo!并不存储实际网页,再将其呈送给用户。而是为每一个网页或站点建立一条记录,该记录包括对该网页或站点的简单描述、标题和用超链接的方式显示实际网页所在服务器的URL。这样用户通过关键词检索实际检索的是Yahoo!的分类目录,并不检索任何实际的Web网页文本。Yahoo!确信分类标题足以弥补这一缺点——因为它可以快速地引导用户找到合适的文件。   #1三、集合型网络信息检索工具   随着人们检索要求的不断提高,对网络的检索能力提出了新的要求。人们想要在一个统一用户接口,在多个检索工具中选择和利用合适的(甚至是同时利用若干个)检索工具来进行网络信息查询,因此它们往往能够获得较高的查全率,在广泛查询时具有较大的优势。这样的检索工具——集合型网络信息检索工具也就应运而生了。   用户向集合型检索工具发出检索请求,它将该请求整理为相应的检索指令发往多个单独型检索工具。它们各自执行检索指令后将检索结果传送给集合型检索工具,集合型检索工具再将检索结果经过整理后传送给用户。在这个过程中,各单独型检索工具保持其原来的局部资料模式和自己的检索指令。   集合型检索工具除了可用手工选择搜索引擎外,它可利用一定的条件自动选择成员检索工具。(1)“选择最好”模式:集合型检索工具可以采取以下方式选择“最好”的检索工具,例如它可跟踪一定时期各类检索式对成员检索工具的命中记录数量统计分布,根据该分布来确定相对一个主题的“最好”检索工具。或者,集合型检索工具可对成员检索工具的索引数据库进行某种方式的分类统计,建立类目与资源数量的对应关系,并据此确立“最好”检索工具。(2)“选择最快”模式:集合型检索工具系统可能采取下列两种方式来选择“最快”的检索工具:①随机产生方式:集合型检索工具以并行方式将检索指令传送给若干检索工具,选择返回速度最快的三个检索工具的结果组织成全部的结果。②先验式:检索工具开发者在大量测试资料的基础上,制定相应的控制目录,明确标明某一类信息与某些检索工具检索速度的对照关系。用户提交检索式后,集合型检索工具首先确认它隶属的类别范畴,然后对照控制目录选择最快的前几个检索工具。下面介绍几个主要的这类检索工具。   #2●Dogpile   http://www.dogpile.com   优点:Dogpile共收集了26个搜索引擎,分别组织到若干并行检索类别中,各类别及其所包含的检索工具如下:   ①Web检索:Yahoo!、Thunderstone、Lycos A2Z、Goto、Mining Co.、Excite Guide、PlanetSearch、What U Seek、Magellan、Lycos、Webcrawler、InfoSeek、Excite、AltaVista。②新闻组检索(Usenet):Reference、Dejanews、AltaVista、Dejanews’old Database。③FTP检索:FTP Search。④新闻检索。⑤股市检索。⑥黄页检索。⑦白页检索。⑧地图检索。⑨天气检索。   #2●Metacrawler   http://www.go2net.com/search.html   优点:Metacrawler能对Lycos、InfoSeek、Webcrawler、Excite、AltaVista、Thunderstone、Mining Co.、Looksmart、Yahoo!八个检索工具进行并行检索,并能分门别类地对许多专门检索工具进行并行检索。它在接受到检索要求后,将该检索要求转换为每个成员搜索引擎的专门指令形式,并分发给各个搜索引擎,然后监视和接收它们的检索结果。当所有结果都收到或超过规定的时间,它就将所有的结果收集起来,去掉重复,按相关性排序后显示给用户。   #2●Profusion   http://www.profusion.com   优点:该搜索引擎功能强大,你可以通过选择框来界定检索要求。检索方式(Search mode)选择框包括“简单”(simple)、“所有词汇”(All(AND))、“任意词”(Any(OR))、“布尔检索”(Boolean)和“短语”(Phrase);检索对象(Search in)包括Web和Usenet;结果方式(Summary option)选择框则规定结果包含摘要(With Summary)或不包含摘要(Without Summary)。在检索时,你可选择欲使用的搜索引擎。Profusion提供四种选择:选所有(All)、选最好的三个(Best 3)、选最快的三个(Fastest 3)、自己选择(Manually)。当你选择“最好的三个”或“最快的三个”时,Profusion将分析你输入的检索内容,然后决定哪三个搜索引擎最适合你。   #2●SavvySearch   http://www.savvysearch.com/search   优点:SavvySearch按检索对象分为三大类别,即检索类(Search),对网络资源进行普遍的检索;专题类(Specialty),对各个专题的网络资源分别进行检索;商店类(Shop),对不同商品的网络信息分别进行检索。   “检索类”是SavvySearch的基本功能,其中又按资源类型分为指南和目录(guides/directories)、新闻(news)、搜索引擎(search engines)、自由软件图书馆(shareware libraries)、新闻组(Usenet)。   在检索不同类型的资源时,SavvySearch利用了不同的检索工具,例如:   搜索引擎类:Lycos、Excite、HotBot、Webcrawler、Google、Galaxy、AltaVista、Thunderstone、NationalDirectory、InfoSeek、Direct Hit!。   指南和目录类:Yahoo!、Top5%、SurfPoint、Snap、Magellan、Goto、eBlast、Mining Co.、Looksmart、Clearinghouse、PlanetSearch、Open Director、RealNames。   新闻类:Infoseek News、News.com、Newsbot、NewsTracker、Yahoo!News。   新闻组类:AltaVistaNews、DejaNews、Reference.com。