ReCAPTCHA：讓惱人的 CAPTCHA 技術造福人類

CAPTCHAs 是一種惱人的技術，據資料統計，全球用戶每天要完成1億次 CAPTCHA 測試。ReCAPTCHA 是 Carnegie Mellon 大學啟動的一個項目，目的是借助 CATPTCHA 技術將那些殘舊圖書數字化，據估計，該技術每天可以完成160本書。

該項目目前已經在40000家網站上部署了 ReCAPTCHA 技術，ReCAPTCHA 的基本原理是，對光學字符識別（OCR）軟件來說，它們的辨識能力是有限的，尤其是那些印刷不清晰的舊書或殘書，而人類可以憑借自己的閱讀經驗，輕松識別那些 OCR 無法識別的文字。對這樣的文字，人類的識別成功率可以達到99%，而OCR軟件只能達到80%。

ReCAPTCHA 結合了傳統 OCR 與一個類似 Amazon's Mechanical Turk 的系統。每個單詞都先經過兩個不同的 OCR 軟件辨識，如果兩個 OCR 識別結果不一致，該單詞會被標志為“未識別”，這些未被識別的文字會被送入 ReCAPTCHA 系統，被制作成 CAPTCHA 文字讓用戶識別。

譯者注：這里原文并沒講清楚用戶如何完成 CAPTCHA 識別，因為 CAPTCHA 要求系統本身必須知道準確答案，而現在的問題是系統自己也辨認不出。我猜想其機制應該是這樣的，首先，在一開始，用戶提供的任何辨認結果，不管是否正確都可以通過，但系統會記錄每個用戶的辨認結果，最后，等辨認結果累積到一定數量，系統會將多數人一致的辨認的結果作為 Control Word 以校驗以后的測試。原文中提到，一開始，系統提供一個已知的 Control Word （known control word），但這個 known control word 是如何來的，并沒有說明。首先這個 known control word 不可能是準確的，否則就不必 ReCAPTCHA 了，其次，既然 Control Word 并不準確，如何判定用戶是否通過測試，只有一個辦法，就是在一開始，讓用戶提交的任何辨認結果都通過。

總體來說，ReCAPTCHA 實現了 99.1% 的成功率，這幾乎是讓一個人打字，另一個人在旁邊辨認的成功率。ReCAPTCHA 技術目前基本上仍處于概念期，但開發者認為，該技術每天將能夠辨認大約160本書。

該項目的精彩之處在于，它利用了那些本來是被浪費掉的人類的腦力。其它類似的項目也基于相同的思想，比如，fold.it，將蛋白質折疊計算轉換成一個游戲，而 Google 的 Image Labeler 項目也是借助龐大的用戶群的腦力完成對互聯網中的圖片的辨認。

本文國際來源：http://www.readwriteweb.com/archives/recaptcha_stopping_spam.php
中文翻譯來源：COMSHARP CMS 官方網站