中國第一批搜索引擎往事丨CERNET30周年

來源:中國教育和科研計算機網 時間:2024-10-14

  三大搜索引擎成功實現(xiàn)了他們的初衷——研究關鍵應用,積累搜索引擎技術,并在此基礎上培養(yǎng)了大批互聯(lián)網人才,他們走出實驗室,成為了中國互聯(lián)網發(fā)展的重要力量。

  1991年,蒂姆·伯納斯·李發(fā)明的WWW席卷了全球,規(guī)模每年翻一番的互聯(lián)網開始每三個月翻一番。

  但總的來說,全球互聯(lián)網還是一片待開墾的土地:人們找不著北,不知道去哪里尋找自己想要的內容。雖然互聯(lián)網將計算機連接了起來,卻沒有把人和互聯(lián)網連起來。在沒有搜索引擎的日子里,人們只能按圖索驥,點開一個又一個網站,逐個尋找自己需要的信息。

  1994年,美國斯坦福大學的研究生楊志遠(Jerry Yang)和大衛(wèi)·費羅(David Filo)用人工分類目錄的方式制作了一個網站指南,這是由許多網站的鏈接組成的列表,取名為Yahoo。Yahoo一經推出就吸引了一大批需求者。

  但這種“喂到嘴邊”的目錄分類列表沒能真正滿足用戶的核心需求——讓信息蹦到眼前。

  搜索,作為互聯(lián)網最基本的信息服務,仍然沒有出現(xiàn)最優(yōu)解,也因此成為全球互聯(lián)網研究人員傾注熱情的課題。

  CERNET三大搜索引擎啟航

  1995年,全球互聯(lián)網的用戶數(shù)量達到了1600萬。隨后的幾年里,風險投資家們忙得不可開交?!度A爾街日報》說,幾乎每隔15秒就有一家以“.com”命名的新公司上市,互聯(lián)網走向了商業(yè)化。

  在網絡經濟破繭而出的前夕,中國全功能接入了國際互聯(lián)網。1994年4月20日,通過美國Sprint公司的64K專線,中關村地區(qū)教育與科研示范網絡NCFC接入國際互聯(lián)網。也在這一年,中國第一個覆蓋全國的互聯(lián)網主干網——中國教育和科研計算機網CERNET誕生了。

  從接入國際互聯(lián)網那一刻開始,中國就用互聯(lián)網連接并奮力追趕著世界。

  1996年,“九五”攻關啟動,旨在集中力量攻克產業(yè)升級和社會持續(xù)發(fā)展亟需解決的關鍵技術和共性技術。信息技術是其中一個重點領域。CERNET領到的任務是“計算機信息網絡及其應用關鍵技術研究”,即基于建成的CERNET示范工程,對計算機信息網絡及其應用關鍵技術展開研究。

  也就是說,一是要研究互聯(lián)網關鍵核心技術,二是要開展互聯(lián)網關鍵應用,從而構建一個完整的國內互聯(lián)網生態(tài)系統(tǒng)。項目提出了六大重要任務:網絡管理與運行技術、網絡及信息安全技術、網絡互連和路由技術、網絡設計和測試技術、網絡信息發(fā)現(xiàn)技術、典型網絡應用技術。而搜索引擎既屬于網絡信息發(fā)現(xiàn)技術,又屬于非常關鍵的互聯(lián)網應用。

  今天回過頭看,“九五”攻關的項目立項得非常及時,極具戰(zhàn)略眼光,富有遠見地抓住了互聯(lián)網發(fā)展的根本關鍵問題。

  搜索引擎研究課題采用的方式也非常有趣,并不是由一家單位來完成,而是選擇了三所高校來實施——清華大學、北京大學和華南理工大學。由此,在三所高校的網絡實驗室里,開啟了中國最早的搜索引擎技術研究。

  清華大學網絡指南針

501

網絡指南針搜索引擎主頁

  清華大學網絡指南針搜索引擎的研發(fā)由清華大學教授、CERNET網絡中心副主任李星主持。

  網絡指南針(Net Compass)的名字就是李星取的。早前,他從清華大學電子工程系本科畢業(yè)后赴美留學,1991年留學歸來后,他很不適應沒有網絡的生活,于是四處呼吁建設中國的互聯(lián)網。1994年,CERNET示范工程啟動,李星就被吸收進入了項目,所以他總說自己是“票友下?!?。

  1996年,李星帶領他的學生們張俐、楊文峰、解沖鋒、李粵、許靜芳和崔偉東等開始了對搜索技術的探索。

  網絡指南針主要研究中文搜索引擎的技術實現(xiàn)。比起英文的字詞搜索,中文更難。因為英文的字與字之間有空格,能很自然地切分詞匯,而中文不是。因此,團隊面臨的第一個關鍵問題就是:如何切分中文的關鍵詞來進行搜索?字與字之間應該如何切詞?如果基于一個一個字來切,計算量巨大;如果基于詞來切,那么沒有實質含義的詞組要不要切?

  在充分考慮了中國文化背景和漢語的使用習慣后,網絡指南針對切詞的方式進行了調整。像《紅樓夢》里的語句:“雨村領其意,作別至館中,忙尋邸報看真確了。”“邸報看真”這樣的詞條,雖不是成語,也不是常用詞,但能在指南針上搜出鏈接。

  除了提供網站列表之外,網絡指南針還提供了一些關于鏈接的模糊信息,由一個詞可以衍伸至另一個相關的詞。

  這種做法一是給用戶提供了更多選擇,二是提升了用戶搜索體驗的趣味感。當用戶注意到一個突出顯示的文字或短語時,就會進行點擊以了解更多信息,鏈接就將他們帶到另一個頁面。比如搜索“cisco”,就會自動出現(xiàn)“路由器”的鏈接,用戶就能順藤摸瓜瀏覽其他網頁。

  1997年10月,網絡指南針開始向用戶提供中英文信息查詢服務,它收錄有20多萬網頁,收集了CERNET、ChinaNet、中國科技網和中國金橋網等信息資源。1998年7月《軟件世界》雜志上刊登的一篇名為《中文搜索網站介紹與比較》的文章評論說:“網絡指南針的特色在于查詢方法的多種多樣。其系統(tǒng)穩(wěn)定性、查找速度均為中上之選?!?/p>

  從1999年12月到2000年8月,有10萬多名用戶對指南針進行了80多萬次的查詢,指南針成為教科網內知名的搜索引擎。

  “還是有遺憾的,”李星談起網絡指南針時表示,“第一個遺憾是依賴于集中式的技術,未能像谷歌那樣發(fā)明Map-Reduce技術,從而走到分布式。第二個遺憾是缺乏相應的機制,將網絡指南針商業(yè)化?!?/p>

  對于前者,網絡指南針當時的體系結構是集中式,隨著Web的發(fā)展,對于搜索引擎的可擴展性提出了挑戰(zhàn)。在互聯(lián)網發(fā)展初期信息量還沒有那么大的時候,集中式的技術確實可以滿足用戶的需求,而當互聯(lián)網飛速發(fā)展以后,這種模式就逐漸跟不上急速擴張的互聯(lián)網資源了。對于后者而言,商業(yè)化涉及時代理念和環(huán)境,更是難。

  對于搜索引擎而言,1998年是具有劃時代意義的一年。這年,斯坦福大學的博士生拉里·佩奇(Lawrence Edward Page)由科研文獻被引用率與其價值成正比想到,網頁鏈接也如此——不是所有鏈接都平等,一個鏈接被連接得越多,它就越重要。在此基礎上,拉里·佩奇和謝爾蓋·布林(Sergey Brin)發(fā)明了Page Rank(佩奇排名)算法。正是這個基于網頁鏈接分析的算法,使得搜索技術具有了和以往完全不同的使用效果,Google一舉成名。

  幾年后,Google發(fā)明了面向大規(guī)模數(shù)據(jù)處理的并行計算模型和方法——Map-Reduce技術,并將其廣泛應用于大規(guī)模的數(shù)據(jù)處理。技術上的不斷開拓,伴以成熟的風險投資機制,Google飛速壯大。

  然而,對于改革開放才20多個年頭、商業(yè)環(huán)境不夠成熟、還在迷霧中摸索互聯(lián)網技術的中國,一切都是Hard模式。和其他一些90年代的搜索引擎一樣,在缺乏商業(yè)化機制的情況下,網絡指南針沒能走到最后。二十世紀末的最后幾年,國內上網用戶的規(guī)模還很小,搜索引擎商業(yè)化的前景并不被看好。雖然在今天,在線廣告是互聯(lián)網最主流的變現(xiàn)模式,但在90年代,在報刊上登一次廣告的反饋率,比在網上登兩個月廣告的反饋率還要多一倍。

  網絡指南針(Net Compass)的名字還引發(fā)了一段小插曲。2024年,在中國互聯(lián)網協(xié)會舉辦的“中國互聯(lián)網30年紀念”座談上,搜狐的張朝陽回憶起1998年創(chuàng)立網站前夕,他靈光一閃,想出一個非常滿意的名字——指南針。他回到清華計算機系,興奮地和吳建平老師聊,吳建平說,清華的搜索引擎就叫指南針,還申請了域名。于是張朝陽把他的網站名改成了搜狐?!斑z憾的是,后來我們的域名沒有連續(xù)交費,現(xiàn)在已經不在了,要是留著也挺好的?!崩钚腔貞浀?。

  北大天網搜索引擎

502

天網搜索引擎主頁

  Google創(chuàng)立后的第二年,北京大學信息管理學院畢業(yè)的李彥宏結束了在美國的職業(yè)生涯,回國創(chuàng)業(yè),劍指搜索引擎。他的首要任務是招兵買馬,傳說中“百度七劍客”中的兩位——劉建國和雷鳴——就來自北大天網搜索引擎。

  天網搜索引擎取意“天網恢恢,疏而不漏”,用在信息搜索上十分貼切。

  1996年,北京大學網絡實驗室陳葆玨教授帶著劉建國、周利民和雷鳴等人開始了對天網搜索的研發(fā)。劉建國是北大教師,其他人都是研究生。

  團隊認為,搜索引擎是系統(tǒng)層面的新事物。它本質上是一種信息服務,核心問題有兩個:如何返回用戶想要的信息,如何讓用戶快速訪問。也就是一要準,二要快。要從幾千萬甚至上億個網頁中找出信息并在1秒內返回,難如大海撈針,而團隊成功實現(xiàn)了從零到一的突破,并取得了階段性的成果。

  1997年10月29日,北大天網開始在CERNET上向用戶提供服務。到了1998年9月,訪問者已經超過了10萬。1999年《中國信息導報》發(fā)布了一篇名為《中文搜索引擎發(fā)展的現(xiàn)狀、問題及對策》的文章,對天網搜索引擎做出了如下評價:“北京大學‘天網’的關鍵詞查詢方式有簡單查詢和復雜查詢,查詢界面友好且功能性較強,相比而言,查準率較高,因而深受廣大網上用戶的青睞?!?/p>

  其實,劉建國很早就開始思考如何讓搜索引擎在巨大的市場競爭中逆流而上。在1998年的一次采訪中,他提到,就像以前的操作系統(tǒng)、字處理軟件最后被許多國外軟件占了上風一樣,搜索引擎也面臨同樣的問題。技術的深入、資本的投入和商業(yè)化可能才是做大做強的必經之路。

  1999年對于天網搜索而言是很特別的一年。那一年,李彥宏回國創(chuàng)業(yè)?;貋砬跋Γ凑仗炀W上的Email地址給劉建國發(fā)了一封郵件,邀請劉建國一起在中國開發(fā)一款搜索引擎。幾經思索后,劉建國辭掉了北大教師的職務,成為百度的第一名員工,負責技術研發(fā)。在劉建國的推薦下,北大天網的其他主力開發(fā)人員周利民、雷鳴也加入了百度。

  同年,陳葆玨教授退休,李曉明接任了北大天網研發(fā)負責人的職位?!霸谔炀W搜索引擎發(fā)展的第一階段,陳葆玨老師給我們打了一個很好的底子。從2000年開始,我們成立了新課題組,進入了北大天網第二階段的發(fā)展。新課題組的主要成員有王建勇、閆宏飛、彭波、謝欣和陳華等人。”李曉明說。

  彼時,互聯(lián)網上的網頁數(shù)量已達千萬級,閆宏飛和彭波開發(fā)了一套技術,以實現(xiàn)系統(tǒng)的并行化。陳華從雷鳴手里接下了當時并不受重視的FTP搜索任務,他還真做了出來,2002年,北大天網FTP搜索成為國內最著名的FTP搜索。北大網絡實驗室還運用了Google的新技術提升了系統(tǒng)的能力,推出了天網Maze。

  之后,北大天網迎來了它的第三個發(fā)展階段:留存中國互聯(lián)網的記憶?;ヂ?lián)網上信息紛繁龐雜,在缺乏維護的情況下,大多數(shù)網頁只是“縣花一現(xiàn)”,隨著時間的流逝而湮滅。2002年,北大網絡實驗室開發(fā)建設了“中國Web信息博物館”,到2015年,博物館收藏了70多億網頁文本數(shù)據(jù),容量超200TB。2016年,實驗室將其捐贈給了中國計算機學會,向公眾開放。

  這一項目的意義最近越來越得到凸顯:2024年,一篇名為《中文互聯(lián)網正在加速崩塌》的文章在網上流傳,文章指出,中文互聯(lián)網上的許多歷史信息崩塌式消失,就像歷史中斷掉的鏈條一般。這篇文章讓許多人開始關注北大的Web信息博物館。這一項目的意義還不止于此——伴隨著近兩年生成式人工智能的發(fā)展,Web信息博物館里收集的近20年的數(shù)據(jù)成為了各大科研機構訓練大模型的寶貴語料,已經被30多家機構采用。當然,這是后話了。

  華南理工木棉搜索引擎

503

木棉搜索引擎主頁

  每年秋天,木棉花盛開時,華南理工大學的校園中好似有無數(shù)歡快的火苗在跳躍,滿樹粉黛亦如云如霞,而木棉搜索引擎這一美好的名字就由此而來。

  1996年,木棉搜索引擎的研發(fā)在華南理工大學信息網絡工程研究中心正式啟動。網絡實驗室的負責人是華南理工大學教授張凌,他同時也是CERNET專家委員會的副主任。那年,他和實驗室的董守斌教授一起帶著學生們研發(fā)木棉檢索。

  1998年12月,木棉正式向互聯(lián)網用戶提供服務,支持Web檢索、FTP檢索和信息采編。主要提供兩類信息檢索服務,一是面向學校、大型企業(yè)的企業(yè)級搜索引擎,如華南理工大學校內搜索、廣州科技網檢索系統(tǒng)等。二是面向教育網資源的全網專題檢索,這一系統(tǒng)面向中國教育和科研計算機網CERNET,整合了全國各類教育資源,為教育網用戶提供良好的信息檢索平臺。

  木棉檢索團隊在技術上做了很多探索。他們與清華大學聯(lián)合承擔國際聯(lián)網安全研究項目——“信息自動查詢與識別技術”,通過網絡信息抓取并實現(xiàn)敏感詞匯的過濾,這也是第一代帶關鍵詞過濾的爬蟲系統(tǒng)。

  他們還與Sun公司合作,建立了大陸第一個大型FTP開源文件下載中心(SunSite),并重點攻關FTP檢索,收集了百萬條FTP文件信息,支持對文件名、文件目錄和文件URL的模糊查詢和文件屬性的結構查詢,對大批量數(shù)據(jù)有較快的響應時間,是當時國內信息量較大和服務功能較完善的FTP檢索。

  進入二十一世紀后,互聯(lián)網技術得以快速發(fā)展。木棉搜索引擎也經歷了許多發(fā)展變化,其系統(tǒng)由集中式搜索改為分布式搜索,這是一個很大的調整。同時,盡可能選擇搜索領域的開源系統(tǒng)——如早期出現(xiàn)的Lucene——進行二次開發(fā)。

  2002年,北京大學主辦了第一屆全國搜索引擎和網上信息挖掘學術(SEWM)研討會。華南理工大學、清華大學緊隨后,主辦了第二屆和第三屆研討會。該會議當時是搜索引擎領域的旗艦會議,其主要特色是舉辦中文搜索引擎競賽測評。木棉搜索團隊多次在該會組織的測評中名列前茅。會議后改名為全國信息檢索學術會議(CCIR),舉辦至今年,剛好是第三十屆。

  2005年,董守斌和一起參與項目的袁華開設了“網絡信息檢索”本科課程。課程起初是作為網絡工程專業(yè)的特色課程,后發(fā)展為面向計算機學院的選修課,這也是國內首個講述信息檢索技術和搜索引擎原理的本科生課程。在多年研究與教學的基礎上,兩位老師撰寫了本科教材《網絡信息檢索》,獲評“十三五”高等教育本科國家級規(guī)劃教材。

  2009年,在發(fā)改委下一代互聯(lián)網項目的支持下,四所高?!A中科技大學、華南理工大學、北京大學、清華大學聯(lián)合開發(fā)了IPv6分布式搜索引擎,建設了下一代互聯(lián)網分布式搜索引擎平臺,促進了我國IPv6下一代互聯(lián)網應用的繁榮。

  互聯(lián)網人才培養(yǎng)基地

  2000年之后,國內掀起了互聯(lián)網商業(yè)化的浪潮,擁有商業(yè)資源的應用在資本的加持下一路前行,早期僅僅出于研究目的的搜索引擎逐漸退出了江湖。

  然而,不可否認的是,90年代末、00年代初,以網絡指南針為代表的三大高校的積極探索,為商業(yè)搜索引擎的飛速發(fā)展掃清了障礙——不僅積累了中文處理的優(yōu)勢,更在此過程中培養(yǎng)了一大批技術人才,他們成為日后中國搜索引擎領域的骨干。

  在清華,團隊的學生們后來在互聯(lián)網領域大放異彩:張俐,后來任職IBM研究院;解沖鋒,現(xiàn)為中國電信北京研究院IPv6首席專家;李粵,博士畢業(yè),現(xiàn)任華南理工大學副教授,繼續(xù)研究搜索引擎;許靜芳,現(xiàn)為微信搜索應用部副總經理,微信搜一搜業(yè)務負責人,在此之前,她是搜狗的高級副總裁。

  在北大,天網搜索引擎在整個發(fā)展中培養(yǎng)了諸多人們熟知的互聯(lián)網人才。搜狗的王小川用“黃埔軍校”來比喻,很可能是因為這里是新興互聯(lián)網技術公司的孵化器,也可能是因為從這里走出了許多成功的互聯(lián)網創(chuàng)業(yè)者。從天網搜索第一個發(fā)展階段的劉建國、雷鳴等人,到第二、三階段的陳華、謝欣等人,許多互聯(lián)網創(chuàng)業(yè)人從這里走出。謝欣現(xiàn)為字節(jié)跳動副總裁,陳華是酷訊網、唱吧的創(chuàng)始人,姚叢磊是百煉智能的聯(lián)合創(chuàng)始人,張志剛、陳靜是脈訊在線的聯(lián)合創(chuàng)始人,歐高炎創(chuàng)辦了博雅數(shù)智,陳日閃則在美國創(chuàng)辦了AutoBizLine,等等。“從這個實驗室出來的學生,創(chuàng)業(yè)密度特別大。”一家媒體說。

  華南理工大學的團隊也在數(shù)十年的研究與教學中培養(yǎng)了許多專業(yè)搜索技術人才,這些學生畢業(yè)之后活躍于騰訊、百度、搜狗、字節(jié)跳動、網易、中國電信、中國移動等公司的搜索相關部門,業(yè)已成為技術帶頭人及骨干成員。

  在這個意義上,三大搜索引擎已成功實現(xiàn)了他們的初衷——研究最關鍵的應用,積累搜索引擎技術,并在此基礎上培養(yǎng)了大批互聯(lián)網骨干人才,他們走出實驗室,成為了后來中國互聯(lián)網發(fā)展的重要力量。

  背景資料:“計算機信息網絡及其應用關鍵技術研究”項目

  1996年,由教育部主持,清華大學等14所高等院校和科研單位承擔的國家“九五”重點科技項目(攻關)計劃——“計算機信息網絡及其應用關鍵技術研究”經國家計委批復立項。1998年,該項目通過國家鑒定驗收,這也是我國第一個互聯(lián)網領域的國家重大科研項目通過驗收。項目涉及網絡互連、管理和安全方面的六大核心技術攻關。

  項目基于CERNET示范工程,圍繞網絡管理與運行技術、網絡及信息安全技術、網絡互連和路由技術、網絡設計和測試技術、網絡信息發(fā)現(xiàn)技術、典型網絡應用技術六大互聯(lián)網領域的關鍵技術和裝備進行攻關,在網絡管理系統(tǒng)、路由引擎、防火墻、搜索引擎等方面填補了國內空白。