考證碼的故事：1億人的舉手之勞能帶來甚麼？

Published by webmaster at 2016-04-27

Tags

[db:标签]

按：本文由知社學術圈士奇首創編譯。

若何在王珞丹內裡找出白百合？若何在春哥叢中發明姚明？大概你曾被12306那些奇妙的考證碼所熬煎，大概你曾看著那些被熬煎的傢夥而心中竊喜。不管如何的弄怪和奇葩，它們存在的基本目標實在是掩護多半人的好處，保護一個一般的收集情況。論壇上留言，交際網站裡註冊賬號，大概間接在網上買一張火車票……考證碼到處可見，在必定水平上阻攔瞭歹意軟件的殘虐。那末，最後的考證碼又是甚麼模樣呢？

CAPTCHA

早在2000年，卡內基梅隆大學的Luis von Ahn創造瞭一種對象，以抵抗收集上的沒有良軟件法式。如果你要在線購置車票，那末你須要過目一組扭曲的字母，並輸入準確內容。如許，體系能夠將你剖斷為人類，而非機械法式。這就是所謂的CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart)。

但是，跟著歹意軟件的提高，考證碼也隨著晉升瞭難度，這令人們在辨識圖案這件事上要消費更多的精神。偶然，也會湧現些使人為難的情況。聽說Yahoo曾收到一條求救信息，訊問體系湧現瞭W A I T字樣，但是他等瞭20分鐘卻沒有任何反響。

假如說這是一場介於網站和歹意法式/用戶之間的合作，那末最大的受害者是通俗用戶。據Google統計，天天，地球人最少要填寫2億個考證碼。均勻來說，人們弄定一個考證碼須要10秒的時光。每每我們還會由於看沒有清晰而不能不換一個新的來輸入。依照這些數據盤算，人類天天在考證碼上就糟蹋瞭50多萬個小時。這其實是一件使人懊喪的事。

兩個考證碼

如許大數目級的時光糟蹋題目再一次引發瞭Luis von Ahn，他開端思慮，是不是有甚麼辦法能夠把這些碎片時光應用起來，哪怕僅僅是那長久的10秒。面臨如斯奧妙的假想，他竟然找到瞭謎底。

假如你曾填寫過相似上面情勢的考證碼，那末恭喜你，隻管你大概其實不知情，但現實上你在做著一件很故意義的工作——為舊書電子化。

辦理這一題目的傳統做法是間接掃描冊頁，然後由盤算機來識別圖片中的筆墨。這就是所謂的光學字符辨認 (OCR)。但是這一技巧並沒有我們認為的那樣幻想，對付一本50年前的舊書，盤算機可準確辨識的筆墨乃至達沒有到30%。我們所看到的那些扭曲怪詞恰是出自如許的舊書。固然，這些辭匯變得扭曲隻是為瞭抵禦那些歹意法式。

題目來瞭，若何斷定人們輸入的詞準確與否呢？上圖中湧現的雙詞情勢恰是Von Ahn給出的辦理辦法。對付從舊書中提掏出來的生疏詞語，盤算機其實不曉得謎底，以是也沒法斷定電腦前的真人輸入的是不是準確。然則體系能夠多給出一個詞，這個詞體系是曉得其準確筆墨內容的。輸入考證碼的用戶其實不曉得哪一個是哪一個的，隻是天真爛漫地把兩個詞都填上。假如電腦曉得準確謎底的誰人詞我們輸入對瞭，那末體系會剖斷用戶是真人，從而揣摸另外一個輸入的詞也是準確的。固然，如許一次斷定是不敷的。經由過程反復這一進程，假如另有 (好比) 10個真人都輸入瞭雷同的內容，那末體系才會以為這個未知詞語真正獲得瞭數字化。

這就是所謂的reCAPTCHA。在外洋，Ticketmaster，Facebook，Twitter等許多站點都曾應用過這類技巧。據統計，經由過程這類辦法天天能夠數字化的辭匯可達1億個。也就是說，每一年會有250萬本書被數字化，而這一豪舉隻不外是基於我們最簡略不外的填寫考證碼完成的。隻管reCAPTCHA較以往的考證碼難度更大，但數據註解，人們輸入的準確率高達92%。

但是這還並不是最瞭不得的數字。要曉得，許多巨大的工程都須要消耗偉大人力。很巧的是，建築埃及金字塔，建築巴拿馬運河，大概把一小我奉上月球，這些事都牽涉瞭約莫10萬人。這也沒有難懂得，在互聯網湧現從前，調劑和照料10萬人以上是很艱苦的事。現在，在將人類文明與常識數字化這一事情上，經由過程雙詞考證碼做出過進獻的小我跨越瞭7.5億，這已超越瞭天下生齒的非常之一。試想，10萬人能夠把一位宇航員奉上月球，那末1億人能做出甚麼？7.5億人又能完成甚麼？

多鄰國 (Duolingo)

Von Ahn並沒有停下腳步，順著這條思緒，他又將故事推向瞭新的高度。大概你據說過量鄰國 (Duolingo)，沒錯，恰是考證碼的創造者開辟瞭這個說話進修平臺。上億人在進修外語的同時，也在贊助翻譯材料。

我們曉得，互聯網中的內容大部門為英文，而其他說話隻管比例相對略低，但體量依舊偉大。Von Ahn想做的事是將互聯網中的大部門內容翻譯成各類支流說話。這件事今朝仍沒法依附電腦來完成，緣故原由同OCR一樣。固然，也有專業說話機構能夠供給此種辦事，但題目是用度極為高貴。我們拔取維基百科為例，其西班牙語版本內容僅為英語版內容的20%，假如把別的80%全體翻譯為西班牙語，那末這最少須要5000萬美圓。而Von Ahn則想讓上億人在沒有經意間聯袂完成這一豪舉。

要完成這一點，最少須要戰勝兩個艱苦。一是須要具有雙語才能的人；二是須要這些人有充足的念頭去做翻譯之類的事。哪一條看起來都很辣手，我們乃至沒有曉得天下上有無1億人具有雙語才能，更別說引誘他們去做翻譯事情。

但是有一件事恰好能夠一舉兩得，那就是說話教導。現在，天下上有跨越12億人在進修一門外語。單在美國，花上500美圓購置說話軟件的人就跨越500萬。Von Ahn卻反其道而行之，開辟瞭Duolingo這款免費說話進修體系。

其根本道理在於人們免費進修說話的同時，也在翻譯內容。不管低級照樣高等用戶，體系會分派相稱難度的語句讓你翻譯，經由過程比對其他用戶的翻譯成果，你賡續地進修瞭這些內容。也就是說，人們都是在邊做邊學。使人驚奇的是，這一理念在現實運用中極其有用。

風趣的是，幾個低級程度的用戶合起來的後果與一位專業翻譯職員的進獻相稱。人們在進修的同時，也在發明代價。還以維基百科西班牙版為例，假如將那80%英文內容全體譯為西班牙語，在具有10萬個活潑用戶的情形下隻需5周時光；假如有100萬個活潑用戶，將隻要80個小時。記著，這但是個代價5000萬美圓的項目。

固然，多鄰國老是要紅利的。Von Ahn曾親身在網上表現，其紅利形式有兩點：一是付費翻譯。CNN和Buzzfeed如許的機構會將待譯的英文內容交給將他們，多鄰國體系將這些內容發到正在進修英文的人手中，使其將消息翻譯成各自的母語。CNN天然會為這些隧道的文章買單；別的一點就是App的說話測試辦事。人人曉得，托福大概雅思慮試免費很高，而你也許隻須要一兩百塊錢便可以加入多鄰國供給的說話程度測試。這一點也很有合作力。

隻管如斯，我們沒有要忘卻，這一體系的最粗心義在於免費面向全人類。可以或許花500美圓買軟件的人大概隻占5%，天下上另有95%的人沒法蒙受這一累贅，卻一樣具有進修的盼望。在創業進程中，如許的貿易形式與驅動形式異常值得我們鑒戒。

>> 檢察更多類似文章

webmaster

Comments are closed.

客戶埋怨椅子 餐廳老板卻把菜單換瞭

若何經由過程一篇軟文得到絡繹不絕的免費流量？

考證碼的故事：1億人的舉手之勞能帶來甚麼？

webmaster

Related posts

京東無線端體系架構流量洪峰背後的技巧工匠

客戶埋怨椅子餐廳老板卻把菜單換瞭