Web 2.0 峰會：Google 與 Wikipedia 談垃圾過濾

行業新聞

在好萊塢如果你被狗仔隊盯上上，說明你是成功的，在硅谷，如果你被垃圾信息盯上，也說明你是成功的。周三上午，在 Web 2.0 峰會（ Web 2.0 Summit），來自 Google, Reddit, Pramana 以及 Wikipedia 的代表暢談了如何抵制垃圾信息。

Google 的反垃圾信息團隊的主管 Matt Cutts 說，如果你提供鏈接相關的服務，就難免遇到垃圾信息。Cutts 談到了3種類型的垃圾信息，Spammer 們用來推廣站點的垃圾鏈接；向那些允許用戶提供反饋的網頁提交垃圾內容；從一些老的 CMS 系統中發現漏洞將垃圾信息注入受害者網站。

針對垃圾信息，Cutts 建議使用 Akismet 一類的信息過濾服務，部署 CAPTCHA，勤打補丁，甚至對注冊收費等手段進行應對。他建議人們跳出思維圈子，使用一些意料不到的方式對付垃圾信息。如果你讓垃圾信息發布者產生挫敗感，比向他們收費還有效。

Reddit 的創始人 Steve Huffman 談到了他們使用的一些方法，對垃圾信息發送者進行誤導。他表示，Reddit 是一種類似 Digg 但比 Digg 更好的服務，Digg 允許用戶提交他們喜歡的內容的鏈接，并對發布的內容進行投票，獲得投票數越多的內容被閱讀的幾率越大。

但 Reddit 有所不同，在 Reddit，有些投票不被計算。一旦 Reddit 探測出某人是在發送垃圾信息，他的帳戶會被抵制，但 Reddit 不會通知發垃圾信息的人，他的提交還正常進行，但他提交的內容不會發布。Huffman 表示，我們使用一些技巧讓垃圾信息發送者以為他們的伎倆得逞。

Jonathan Hochman 是 Wikipedia 的管理員，他談到了 Wikipedia 應對垃圾信息和蓄意破壞時使用的一些策略。他說，我們花費了很多時間讓 Wikipedia 保持干凈。Wikipedia 中 20% 到 30% 的編輯操作是蓄意破壞以及對蓄意破壞的修復。

Wikipedia 是一個允許任何人參與編纂的在線百科全書，但少為人知的是，這個站點依靠的是計算機自動編輯，Hochman 解釋道，一些自動程序參與了編輯工作。

比如 ClueBot，它參與了大約80萬篇文章的編輯，ClueBot 做了大量文章復原與修復工作，如果有人不斷地對某個頁面進行破壞，它會通知人進行干預。

Praman 的 CEO Sanjay Sehgal 則講述了他們的 HumanPresent 技術，該技術用來保護他們剛剛發布的，尚未命名的海量玩家游戲，他說，CAPTCHA 不起作用，因為很容易被破解。

Pramana 的技術會嘗試辨別真正的用戶與自動程序。一個游戲中有太多機器人玩家會讓游戲崩潰。這個技術不僅僅用于阻止 Spam，還幫助改善用戶體驗，提供流量數據。自從使用了 HumanPresent 技術，Pramana 發現 12% 到 15% 的流量來自機器人程序。

評論

...

7 x 12 小時服務熱線

0532 - 83669660