ReCAPTCHA:讓惱人的 CAPTCHA 技術造福人類

CAPTCHAs 是一種惱人的技術,據資料統計,全球用戶每天要完成1億次 CAPTCHA 測試。ReCAPTCHA 是 Carnegie Mellon 大學啟動的一個項目,目的是借助 CATPTCHA 技術將那些殘舊圖書數字化,據估計,該技術每天可以完成160本書。

該項目目前已經在40000家網站上部署了 ReCAPTCHA 技術,ReCAPTCHA 的基本原理是,對光學字符識別(OCR)軟件來說,它們的辨識能力是有限的,尤其是那些印刷不清晰的舊書或殘書,而人類可以憑借自己的閱讀經驗,輕松識別那些 OCR 無法識別的文字。對這樣的文字,人類的識別成功率可以達到99%,而OCR軟件只能達到80%。

recaptcha_ocr.png

ReCAPTCHA 結合了傳統 OCR 與一個類似 Amazon's Mechanical Turk 的系統。每個單詞都先經過兩個不同的 OCR 軟件辨識,如果兩個 OCR 識別結果不一致,該單詞會被標志為“未識別”,這些未被識別的文字會被送入 ReCAPTCHA 系統,被制作成 CAPTCHA 文字讓用戶識別。

譯者注:這里原文并沒講清楚用戶如何完成 CAPTCHA 識別,因為 CAPTCHA 要求系統本身必須知道準確答案,而現在的問題是系統自己也辨認不出。我猜想其機制應該是這樣的,首先,在一開始,用戶提供的任何辨認結果,不管是否正確都可以通過,但系統會記錄每個用戶的辨認結果,最后,等辨認結果累積到一定數量,系統會將多數人一致的辨認的結果作為 Control Word 以校驗以后的測試。原文中提到,一開始,系統提供一個已知的 Control Word (known control word),但這個 known control word 是如何來的,并沒有說明。首先這個 known control word 不可能是準確的,否則就不必 ReCAPTCHA 了,其次,既然 Control Word 并不準確,如何判定用戶是否通過測試,只有一個辦法,就是在一開始,讓用戶提交的任何辨認結果都通過。

recaptcha_book.png

總體來說,ReCAPTCHA 實現了 99.1% 的成功率,這幾乎是讓一個人打字,另一個人在旁邊辨認的成功率。ReCAPTCHA 技術目前基本上仍處于概念期,但開發者認為,該技術每天將能夠辨認大約160本書。

該項目的精彩之處在于,它利用了那些本來是被浪費掉的人類的腦力。其它類似的項目也基于相同的思想,比如,fold.it,將蛋白質折疊計算轉換成一個游戲,而 Google 的 Image Labeler 項目也是借助龐大的用戶群的腦力完成對互聯網中的圖片的辨認。

本文國際來源:http://www.readwriteweb.com/archives/recaptcha_stopping_spam.php
中文翻譯來源:COMSHARP CMS 官方網站

 





評論
...
發表評論


用戶


評論(不超過1000字)


 1 - 8 = ? 請將左邊的算術題的結果填寫到左邊的輸入框  


  發送給朋友| 打印友好
7 x 12 小時服務熱線
0532 - 83669660
微信: comsharp
QQ: 13885509
QQ: 592748664
Skype: comsharp