作為谷歌技術演進的奠基性文獻,該論文具有重要的歷史紀念價值。然而,受限于技術迭代與Web規模的爆炸式增長,文中的部分實現細節與當代搜索引擎技術已存在顯著差異。盡管如此,其核心思想——如基于超文本結構的排序算法與海量數據處理架構——仍對現代搜索引擎研發具有重要的借鑒意義。需說明的是,因譯者水平有限,文中內容可能存在理解偏差,建議讀者對照英文原版進行嚴謹學術考證。
摘要
本文闡述了Google——一個充分利用超文本文件結構實現高效搜索的大規模搜索引擎原型系統。該系統能夠對網絡資源進行高效爬取與索引,相較于同期其他系統,其搜索結果的準確性與相關性顯著提升。原型系統的數據庫涵蓋2400萬頁面的全文內容及其鏈接關系,可通過http://google.stanford.edu/在線訪問。
設計大規模搜索引擎是一項極具挑戰性的任務。系統需索引數以億計的異構網頁,并日均響應千萬級查詢請求。盡管大型搜索引擎對互聯網生態至關重要,但學術界針對其技術架構的系統性研究卻相對匱乏。與此同時,技術的快速演進與Web內容的指數級增長,使得搜索引擎的構建標準已與三年前截然不同。本文首次對大規模網頁搜索引擎的底層架構進行深度公開剖析,重點探討了如何將傳統檢索技術擴展至前所未有的數據規模,并創新性地引入超文本中的附加信息(如鏈接結構與鏈接文本)以優化搜索質量。針對Web環境下用戶可自由發布任意鏈接內容帶來的噪聲問題,本文提出了一套實用的過濾與處理方案。