在百度搜索算法的持續迭代中,網站內容質量始終是核心評估維度,旨在通過技術手段規范內容生產生態,提升用戶搜索體驗。自2016年起,百度陸續推出多項專項算法,針對不同類型的內容質量問題進行精準打擊,逐步構建起覆蓋全領域、全流程的內容質量管理體系。
百度于2017年7月首次發布颶風算法,聚焦惡劣采集行為的治理,并于2018年9月升級至2.0版本。算法2.0明確將四類行為列為打擊重點:一是從外部站點或公眾號無序采集、搬運且未整合的內容,存在明顯采集痕跡,排版混亂且對用戶無增益價值;二是通過多篇文章拼接而成的邏輯斷裂內容,閱讀體驗差;三是站點自身內容生產力薄弱,長期依賴采集;四是發布與站點主題無關的采集內容,領域專注度低,如科技網站發布娛樂八卦。2019年8月上線的颶風算法3.0進一步將治理范圍延伸至跨領域采集與站群問題,覆蓋PC端、H5及智能小程序。跨領域采集指站點為獲取流量發布非所屬領域內容,導致領域專注度不足;站群問題則體現為批量構造低質、高相似度站點,通過模板復用損害搜索生態。
2018年6月,百度針對B2B行業推出細雨算法,重點治理標題作弊與正文違規受益行為。標題作弊包括非官網頁面濫用“官網”標識、關鍵詞堆砌、插入火星文字或特殊符號,以及標題中穿插聯系方式等;正文違規則表現為內容不完整且穿插變形聯系方式、配圖中嵌入大面積聯系信息,或商品信息為亂采集拼接內容。2019年11月,細雨算法2.0升級,除延續對惡劣采集的打擊外,新增對軟文信息、空白頁面、商品信息與功能不符等問題的治理,同時規范圖片內容質量(如圖片與文字不符、嵌入聯系方式)及頁面信息完整性,推動B2B內容從“合規”向“優質”邁進。
2016年11月推出的藍天算法,聚焦新聞類站點售賣軟文與目錄的違規行為。此類行為通過商業利益驅動內容生產,破壞新聞公信力,算法通過降低站點在搜索系統中的評價,遏制低質商業內容對搜索結果的干擾,還用戶以純凈的信息獲取環境。
2018年5月,百度上線極光算法,倡導落地頁時間因子的規范化。時間因子(包括發布時間、更新時間、最新回復時間)作為判斷內容時效性的核心依據,算法要求站點通過JSON-LD格式提交時間信息,并根據首頁、列表頁、詳情頁等不同頁面類型明確時間提交規范。例如,文章詳情頁需優先提供發布時間,問答頁面需同時提交問題發布時間、首答時間及最新回復時間。此舉旨在減少“過期內容”對用戶的誤導,提升搜索內容的時效性與可信度。