全面闡述搜索引擎技術、應用及商業模式

8月5日，百度公司在美國納斯達克上市，其表現引起全球關注。該公司的發行價為27美元，其時的P/E即已超過去年8月在納斯達克上市的Google，而Google是全球排名第一的搜索引擎。去年的Google以發行價85美元上市後，股價上衝到300美元以上，市值達到800億美元。百度上市當日，開盤價即達到66美元，最高股價達到151美元，最後收盤於122美元。其當日股價上升幅度超過Google一年的“努力”。

百度總裁李彥宏在回答本報記者“為什麼百度會受到追捧，獲得成功”的提問時說:“這是因為百度一直非常專注(於搜索引擎)。”

為什麼連續兩年全球資本均看好搜索引擎公司——家為全球最大的搜索引擎公司，一家為全球最大的中文搜索引擎公司?

為什麼搜索引擎具有如此大的“殺傷力”，會成為繼互聯網第一波的門戶網站，以及第二波的網路遊戲、短信、電子郵件之後，成為互聯網第三波的新主?

人們進一步的問題是:搜索引擎公司到底是什麼樣的公司，搜索引擎的員工在做什麼?搜索引擎公司的盈利模式是什麼，它們的盈利空間究竟有多大?新的搜索引擎公司能像百度、Google一樣成功嗎?搜索引擎公司相互之間如何競爭?搜索引擎現在發展到了一個什麼樣的階段，明天搜索引擎有什麼用處……

本報將透過系列報道與分析全面闡述搜索引擎的技術、應用，搜索引擎公司的商業模式和競爭策略。

搜索引擎應資訊時代而生

王益明

搜索是如此簡單。

打開Google或百度主頁，鍵入想要搜索的任何一個詞語，不到10秒的時間裏，瀏覽器頁面裏就嘩啦啦給你吐出一大堆搜索結果。“百度一下”某個關鍵詞，一個“搜索”的操作，簡單到用戶認為這是互聯網天生就應該具備的功能。

但是，搜索引擎的背後——支撐這一“簡單”的背後，是非常複雜的搜索技術。

眾所周知，我們生活在資訊大爆炸時代，每天的資訊量太大了，足以將所有人湮沒。在如此龐雜的新鮮資訊與存量資訊面前，人們如何找到斯時有用或急需的資訊，那，請搜索吧。搜索引擎如此應運而生。

那麼，什麼是搜索引擎?曾有人形象地比喻說:“搜索引擎就像一個巨大的吸塵器，能將互聯網海洋的任何東西都吸上來，不管它在多深的海底。”這句解釋儘管並不準確，但比較形象，我們來看看真實的搜索引擎工作是怎樣一個流程吧。

蜘蛛程式

實際上，搜索引擎捕捉網頁並不是“吸”，而是“抓”——抓取。還是繼續以海洋作為互聯網的形象代表吧。這個海洋，是以不計其數的網頁組成的，而網頁間，靠一個個鏈結相連，形成一個寬廣無垠的互聯“網”。

搜索引擎“抓取”網頁的工具，人們叫它蜘蛛程式(SpiderPro-gram)，它沿著網頁的鏈結，從一個網頁爬到另一個網頁，並有選擇地將一個個網頁抓取回來。

我們知道，每一個互聯網頁面，都是用html語言寫成的。“蜘蛛程式”訪問的並不是我們日常看到的頁面，而是後臺的html源碼，如果“蜘蛛”認為這個頁面有用，它就會將關於這個頁面的html源碼複製下來，發送回搜索引擎的伺服器進行存儲，然後繼續它的旅程，去訪問下一個頁面。

從理論上來說，從一個頁面出發，根據該頁面的鏈結資訊，這個蜘蛛可以訪遍互聯網上所有的網頁——就好像你認識一個人，你可以根據這個人認識的人，和這個人認識的人所認識的人，一直和這個世界上所有的人建立某種關係。“蜘蛛程式”的工作原理也是這樣的。

不同的搜索引擎，它們所擁有的“蜘蛛程式”不一樣，蜘蛛的能力大小也不一樣。比如，每天能抓到網頁的數量是一個指標，避免抓重復網頁的能力是一個指標，如何抓到最新網頁的能力也是一個指標。因此，“蜘蛛”能力的大小，首先就會導致不同搜索引擎之間的差異。

建立索引和排序

蜘蛛程式固然重要，但這還不是各搜索引擎的核心差異，其核心差異還是在於搜索引擎對抓取回來的頁面所進行索引和設定排序規則。

抓回來的頁面源程式放在搜索引擎龐大的伺服器群中，就好像是成千上萬本書散落在一個巨大的圖書館中，如果不對這些書進行索引和排序，要找到一本書就跟大海撈針的難度是一樣的。索引就是要對每個頁面中的每個字詞都進行分析、整理和提煉，將每個頁面分門別類地放在各個索引庫中。

顯然，如果依靠人工肯定不能對每個頁面的字詞都進行詳細的分析，這個過程也是透過程式來完成的。這中間分詞技術就很關鍵，比如，分詞技術直接影響到搜索引擎會不會根據“任務”這樣一個詞，來建立包含“李主任務必來開會”字樣的網頁索引(早期的搜索引擎，包括Google在內，就曾經出現過鍵入“任務”一詞，搜出包含“李主任務必來開會”網頁的事情)。

索引之後就是排序，即確定用戶向搜索引擎提交了一個搜索請求後，搜索引擎應該向用戶返回搜索結果的秩序。顯然，用戶最想要的資訊應該排在搜索結果的最前列，但究竟什麼樣的資訊是用戶最想要的資訊?這個問題就仁者見仁，智者見智了。

在搜索引擎領域，著名的排序規則是百度創始人李彥宏的“超鏈分析”(李在美國申請了相關技術的專利)。超鏈分析認為一個網頁的重要性可由其他網頁指向該網頁的鏈結數目決定，這有點像要判斷一個人是否重要，就看這個世界有多少其他人認識他。與超鏈分析排序規則類似，Google也採用根據網頁被鏈結指向多少的規則來進行排序，創造了自己獨特的PageRank技術。

可以說，正是由於掌握了網頁索引和排序規則方面的核心技術，才造就了目前Google和百度在各自市場上各領風騷的局面。

反作弊

將互聯網有用的網頁抓取回來，並根據排序規則建立了網頁索引，用戶在使用搜索引擎進行檢索時，就可以以極快的速度找到相關性高的網頁了。然而道高一尺，魔高一丈，如果單純依靠靜態的蜘蛛程式抓取規則和排序規則，一些惡意的網站就可以利用這些規則，來進行所謂的網站優化。《南方週末》曾經在《搜索引擎與作弊網站的戰爭》一文中詳細介紹了這方面的情況。

從上面的介紹可以看出，搜索引擎絕不是僅僅執行簡單的“吸塵器”功能，它首先需要功能強大的“蜘蛛”來協助其收集互聯網規模日增、每天變化的各種網頁資訊，同時需要極大的投入，購買伺服器來將這些資訊保存起來。接著，搜索引擎要對所有收集來的網頁建立索引和排序，並時刻警惕外界的各種作弊行為。

透過這樣的搜索引擎工作流，我們也可以看到運作一個好的搜索引擎所需要的資源:“蜘蛛程式”，“分詞技術”、“排序規則”和“反作弊程式”，這些需要大量的程式員不停工作，來提升軟體的效率和功用;海量網頁資訊和索引資訊的存儲，需要企業投入大量財力，來部署伺服器群。目前，Google在全球投入搜索引擎技術開發的技術人員上千人，研究全球100多種語言的搜索技術，而百度目前700多的員工規模中，接近一半以上的技術人員，研究單一的中文搜索技術。

由於搜索引擎產業的複雜性，在資源投入的基礎上，“專注”也是一個很重要的因素。“我們將一如既往，專注在中文搜索引擎領域的研發和推廣上。”已經成為企業家明星的百度公司總裁李彥宏曾經公開表示。

了解了搜索引擎的技術內核，我們不難理解為什麼“全、新、快、準”四個字會成為衡量搜索引擎好壞的標準。“全”是指索引庫中蒐集的網頁要全，根據最新的統計數字，在差不多20億中文網頁中，百度索引庫中蒐集了8億，而Google的數位是5億;“新”就是要保證一些最新的網頁能被收錄在索引庫中，目前百度的索引庫每月會完整更新一遍，但每天會多次更新，每次更新一部分最新網頁;“快”就是指查詢提交後搜索引擎返還結果的速度，“準”指的是搜索結果的相關性和準確度。

技術層面上了解了搜索引擎之後，人們才能更清楚地進一步了解搜索引擎如何盈利、為什麼市場對搜索引擎公司如此青睞。

(作者王益民副教授為北京大學資訊管理系副主任)

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。