搜索引擎三大定律 信海光 2001年 40期 在思考了很久以后,百度创始人李彦宏终于决定为其搜索引擎服务找一个收费的途径——这几乎意味着整个搜索引擎市场都开始收费了,因为百度占领着中国搜索引擎市场的半数以上的份额,新浪、搜狐等都在使用百度提供的服务。   在百度发起的主题为“你想要的,正在找你”的互联网搜索引擎竞价排名服务中,用户(通常为企业)可以为自己的网页出资购买关键字排名,按点击计费,即当利用搜索引擎进行信息搜索时,搜索结果排名将依据客房为该关键字竞价的多少由高到低进行排列。   对于参加竞价排名企业来说,如果有用户通过百度的搜索引擎排名访问了自己的网站,它需为每次访问付费一毛钱。   此前,百度将搜索引擎的使用权出让新浪等网站并收取使用费,而推出此次收费项目后,百度给了新浪、搜狐们两个选择;一是继续向百度支付使用费,参加其代理的企业注册费分成;二是不参加分成,但不支付(或少支付)使用费。据说,几乎所有的网站都选择了前者。   #1 三大定律   作为一个搜索引擎方面的技术高手,这已经是李彦宏的第三次突破了。在此之前,他已经提出了搜索引擎方面的两条定律了。   第一定律是相关性定律。也就是说,当用户输入检索词时,搜索引擎去找那些检索词在文章(网页)中出现频率较高的,位置较重要的,再加上一引起对检索词本身常用程度的加权,最后排出一个结果来(检索结果页面)。早期的搜索引擎结果排序都是基于这一定律的,如Infoseek,Excite,Lycos等,它们基本上是沿用了网络时代之前学术界的研究成果,主要精力放在处理大访问量和大数据量上,对相关性排序没有有突破。词频统计其实根本没有利用任何跟网络有关的特性,是前网络时代的技术。然而,网络时代的主要文献是以网页的形式存在的,而几乎每个人都可以随心所欲地在网上发表各种内容,词频相同的两个网页,质量相差可以很远。为了能排在某些检索结果的前几位,许多网页内容的制作者绞尽缡汁,在其页面上堆砌关键词,搜索引擎对此防不胜防,苦不堪言。   为了应对这种情况,1996年,李彦宏发现了第二定律。1996年4月,李彦宏到赌城拉斯维加斯开一个有关信息检索方面的学术会议。就在听一个毫不相干的论文演讲的时候,李彦宏突然把科学引文索引的机制跟Web上的超级链接联系起来了。科学引文索引的机制,说白了就是谁的论文被引用次数多,谁就被认为是权威,论文就是好论文。这个思路移植到网上就是谁的网页被链接次数多,那个网页就被认为是质量高,人气旺。再加上相应的链接文字分析,就可以用在搜索结果的排序上了。这就引出了搜索引擎的第二定律:人气质量定律。根据这一定律,搜索结果的相关性排序,并不完全依赖于词频统计,而是更多地依赖于超链分析。   李彦宏意识到这是一个突破性的东西,回去以后就很快总结了思路,1996年6月申请了这一方面的美国专利。1999年7月6号,美国专利和商标局批准了专利号为“5,920,859”,以李彦宏为唯一发明的专利。超链分析的方法1998年以后逐渐被各大搜索引擎所接受,由于链接是网络内容的一个根特性,这时候的搜索引擎才开始真正利用网络时代的检索技术。   然而,世事难料,2000年起网络泡沫迅速破灭,各大搜索引擎要么遭人收购,要么推迟上市,所有使用人气质量定律的搜索引擎公司都未能幸免。那么,搜索引擎的出路到底在哪儿?   李彦宏总结出了第三定律:自信心定律。他认为:人气质量定律解决的还只是一个技术层面的问题,然而搜索引擎从诞生的那一天起,从来就不是一个纯技术现象,它融合了技术,文化,市场等各个层面的因素。解决搜索引擎公司的生存和发展问题需要搜索引擎的第三定律——自信心定律。   1998年的时候,没有太多的人拿一家远在硅谷500英里以外,刚刚成立的,叫作GOTO.COM的公司当回事儿。它们不过是买了一个搜索引擎的技术服务,然后再向那些网站的拥有者们拍卖他们网站在GOTO.COM检索结果中的排名,谁付的钱多,谁的网站就排在前面,而且付费是根据网民点击该网站的情况来计算的,仅仅在搜索结果中出现并不需要付费。这就是自信心定律的最早实践者!   李彦宏在一篇文章里曾写道:“今天,在网络业一片萧条,纳斯达克风声鹤唳的时候,GOTO.COM却如日中天,市值高达13亿美金,收入高达雅虎总收入的35%。反观门户网站,有哪一个能从它们的搜索引擎服务中赚出总收入的三分之一呢?”究其原因,就是因为GOTO最早实践了搜索引擎的自信心定律。以前的搜索引擎都是靠CPM(第千次浏览成本,cost per thousand ad impressions)来收费的,而CPM是从传统广告业借鉴过来,没有考虑网络媒体即时性、交互性、易竞价的特点,而竞价排名,点击收费则是为网站拥有者直接提供销售线索,而不是传统意义上的广告宣传。自信心定律一改过去搜索引擎靠CPM收钱的尴尬局面,开创了真正属于互联网的收费模式。”   #1 争议   只要是由免费转向收费的服务就肯定会引起争议,在互联网时代,这几乎已经成了一个贯例。   比电子邮件收费稍好一点的是,这次搜索引擎收费只针对加入搜索引擎的企业,不针对使用者。无疑从商业角度来讲,对搜索引擎收费具有巨大的利益前景,据调查显示目前中国互联网用户中有51.3%的用户经常使用搜索引擎,其中57.5%的用户得知新网站的主要途径就是搜索引擎,所有访问者均具有极强的针对性和倾向性,绝大部分都是企业未来的潜在目标客户。因此可以肯定此种系统的推出将是一种非常有效的让目标用户直接认识、了解企业的最佳途径之一。   在李彦宏的计划中,一些热门的、商业价值高的词汇将会竞得很高的价格,比如“手机”。   但是此项举措会不会影响其服务质量呢?在试使用中,记者搜索“双语学校”一词,果然出现在最前面的是一些已交费的网站,值得担心的是,如果交费的企业太多的话,岂不是会影响普通网民的使用效率,比如,在检索一个网页的时候,很可能翻了好几页才绕过前面那些交费的商业网站链接。   此举的关键是,在没有实行第三定律以前,百度的服务原则是以风包的方便为核心,而在第三定律中,则是以交费客房的利益为核心,这个转变,是不是会影响搜索引擎的服务质量?更远一点的担心是,在这个服务中,搜索引擎的一大职责是尽量减少商业欺诈,如果一旦其链接的商业网站出现问题的话,因为收费的缘故,搜索引擎将难辞其纠。   李彦宏则认为如果收费的话,将能够使服务更加有保障,而商户推荐实际上了方便了消费者,他坚持认为这样将促进互联网的发展。   值得一提的是,通过搜索引擎注册收费并不是百度的首创,在另一著名搜索引擎Google上,亦早有此种服务,只不过没有百度范围如此广罢了。