中國人有句話叫“天下文章一大抄”,但是在正規場合下“抄”是要付出代價的,比如考試、寫論文是不能抄的,一旦被發現后果相當嚴重。在互聯網出現之前,“抄”很不方便,一是“源”少,而是發布渠道少;而在互聯網出現之后,“抄”變得很簡單,鋪天蓋地的“源”源源不斷,發布渠道也數不勝數,博客論壇甚至是自建網站,而爬蟲還可以讓“抄”完全自動化不費勁。這就導致了互聯網上的“文章”重復性很高。這里的“文章”只新聞、博客等文字占據絕大部分內容的網頁。

enter image description here

我在猿人學網站上寫了一個《大規模異步新聞爬蟲》的Python爬蟲教程,里面涉及了如何抓取網頁、如何提取正文內容,卻沒有將如何去重。中文新聞網站的“轉載”(其實就是抄)現象非常嚴重,這種“轉載”幾乎是全文照抄,或改下標題,或是改下編輯姓名,或是文字個別字修改。所以,對新聞網頁的去重很有必要。

文章分三部分:去重算法原理、算法實現、以及使用方法

由于篇幅有限,感興趣的可以點擊原文查看