披著羊皮的數(shù)據(jù)標注生意怎么做?| 增長官·研究院

/ 1 /

谷歌在國內(nèi)消費市場沉寂多時,今天卻毫無征兆地發(fā)布了首款微信小程序「猜畫小歌」,號稱為了讓每個人都有機會體驗人工智能技術(shù)驅(qū)動下的人機交互。

「猜畫小歌」玩法類似流行綜藝里的「你畫我猜」,或是六年前曾經(jīng)一度火爆、后被 Zynga 收購的 Draw Something——你在有限的時間內(nèi)根據(jù)提示完成繪畫速寫(毛衣、掃帚、鐘表等),谷歌 AI 則猜出你畫的物體,并記錄得分。

披著羊皮的數(shù)據(jù)標注生意怎么做?| 增長官·研究院
(上圖:谷歌推出的「猜畫小歌」)

連勝次數(shù)高的玩家將有機會進入下一關(guān)。你也可以邀請朋友家人來一起挑戰(zhàn)更長的連勝記錄。

「猜畫小歌」憑借 Google AI 的神經(jīng)網(wǎng)絡(luò)加持,所有素材網(wǎng)羅自超過 5000 萬個手繪素描的數(shù)據(jù)庫。通過對素材數(shù)據(jù)的機器學(xué)習(xí),計算機得以理解圖像的輸入,像人類一樣「看到」這個世界,并做出判斷。

谷歌這個題目還是太簡單了。我順手翻出當(dāng)年玩 Draw Something 時候的作品截圖。是時候向你們展示真正的技術(shù)了:

披著羊皮的數(shù)據(jù)標注生意怎么做?| 增長官·研究院
獨眼龍CYCLOPS,來自X戰(zhàn)警;
披著羊皮的數(shù)據(jù)標注生意怎么做?| 增長官·研究院
蜥蜴LIZARD,梗來自生活大爆炸

/ 2 /

我看到傳統(tǒng)廣告圈的朋友還在為谷歌曇花一現(xiàn)的現(xiàn)象級刷屏案例唱衰,覺得這不過是又一個「百雀羚」。真是替這個行業(yè)捏一把汗。

實際上,「猜畫小歌」的意義遠勝于做一款刷屏來怒刷存在感。掩藏在幕后的真實目的,在內(nèi)行看來昭然若揭——利用玩家的參與,收集結(jié)構(gòu)化的繪畫素材「數(shù)據(jù)標注」,「喂」給 AI 使之在學(xué)習(xí)過程中變得更加聰明,最終服務(wù)于谷歌的其他商業(yè)或公益目的。

比如下面就是一個典型應(yīng)用,來自 Google 自家的 Autodraw:

(谷歌推出的 Autodraw 將你的涂鴉轉(zhuǎn)換成具象圖片)

/ 3 /

這里解釋一下人工智能領(lǐng)域的「數(shù)據(jù)標注」。

在智能音箱、人臉開鎖等神奇酷炫的 AI 智能應(yīng)用背后,依靠的是大量人工每天重復(fù)地生產(chǎn)機器學(xué)習(xí)的「食物」——標注好的數(shù)據(jù)。

盡管谷歌自身已有海量數(shù)據(jù)積累,但為了提升現(xiàn)行主流的「有監(jiān)督學(xué)習(xí)」算法模型的準確度,數(shù)據(jù)永遠不限多。Google 技術(shù)大神 Jeff Dean 就就曾在一次公開課上展示如下海量數(shù)據(jù)訓(xùn)練結(jié)果:

披著羊皮的數(shù)據(jù)標注生意怎么做?| 增長官·研究院
(Jeff Dean 在 Y-Combinator 創(chuàng)業(yè)課程講座中的截圖)

如圖,橫軸代表數(shù)據(jù)規(guī)模,縱軸代表準確率。藍線是深度神經(jīng)網(wǎng)絡(luò)算法,綠線是傳統(tǒng)訓(xùn)練方法??梢钥闯?,藍線的準確率和數(shù)據(jù)規(guī)模及質(zhì)量持續(xù)成正比,并沒有出現(xiàn)趨于平滑的拐點,這說明深度學(xué)習(xí)對數(shù)據(jù)有源源不斷的需求。

在國內(nèi),數(shù)據(jù)標注的外包市場自 2011 年開啟,2015 年走向繁榮,2016 年下半年小規(guī)模收縮,到 2017 年又發(fā)生新一輪爆發(fā)。BAT、人工智能創(chuàng)業(yè)公司、政府、銀行金融機構(gòu)、學(xué)術(shù)團體都可能成為項目方。

接項目的外包方一端,分為「眾包」和「工廠」兩種模式,前者把任務(wù)分攤給網(wǎng)民,并支付一定的酬勞,如「百度眾包」、「京東眾智」、「龍貓數(shù)據(jù)」;后者經(jīng)營自己的團隊,對整個流程加以控制,如貴陽夢動科技經(jīng)營的 500 人規(guī)模的數(shù)據(jù)工廠。

披著羊皮的數(shù)據(jù)標注生意怎么做?| 增長官·研究院
(上圖:實拍貴陽數(shù)據(jù)工廠)

據(jù)科技智庫「甲子光年」披露,內(nèi)嵌于北京郵電大學(xué)宏福校區(qū)電子商務(wù)培訓(xùn)班的數(shù)據(jù)標注兼職項目,為兼職學(xué)員提供一個月 2000 元左右的工資,全職則可到 4000 到 5000 元。

/ 4 /

谷歌一貫擅長利用潛移默化的方式,直接或間接地從用戶手中花樣收集數(shù)據(jù)標注,通常還能包裝得讓你喜聞樂見或欲罷不能。

2004 年,谷歌宣布開啟全球圖書館館藏圖書的數(shù)字化計劃,掃描了哈佛大學(xué)、牛津大學(xué)、斯坦福大學(xué)、康奈爾大學(xué)、紐約公共圖書館等世界一流設(shè)施內(nèi)的書籍,光哈佛大學(xué)就有 1600 萬冊,將它們制作成電子版。

書頁內(nèi)的文字主要通過 OCR 光學(xué)字符掃描分析,轉(zhuǎn)換成為文本。識別過程并非完美,字跡模糊、污跡等都可能產(chǎn)生錯誤,所以需要配合人工修正。

谷歌怎么做呢?他們直接把難于識別的文字,做成了驗證碼(ReCAPTCHA),當(dāng)你在某些情況下需要登錄驗證谷歌帳號時,展示兩個單詞——一個單詞是谷歌已知信息,靠這個完成真正的驗證動作,另一個就是上述無法識別的圖書文本,谷歌讓你來肉眼識別,至少三個用戶給出同一個結(jié)果,就會被提交給谷歌服務(wù)器。恭喜你成為了偉大的數(shù)字圖書計劃的貢獻者一員。

披著羊皮的數(shù)據(jù)標注生意怎么做?| 增長官·研究院
(上圖:谷歌數(shù)字圖書計劃的驗證碼設(shè)計)

與之類似地,最近谷歌將這套發(fā)揚到了無人駕駛領(lǐng)域,做成了圖形驗證界面,讓用戶在驗證環(huán)節(jié),從一堆谷歌街景的實拍照片矩陣中,夠選出「人」、「車」或是「路牌」。

披著羊皮的數(shù)據(jù)標注生意怎么做?| 增長官·研究院
(上圖:谷歌的無人駕駛?cè)斯俗⒆R別碼)

/ 5 /

說到底還是那句老話:「如果你一直在享受免費的商品,那么你自己很可能就是商品本身」。

文:范冰@增長官(zengzhangguan)

首席增長官CGO薦讀:

更多精彩,關(guān)注:增長黑客(GrowthHK.cn)

增長黑客(Growth Hacker)是依靠技術(shù)和數(shù)據(jù)來達成各種營銷目標的新型團隊角色。從單線思維者時常忽略的角度和高度,梳理整合產(chǎn)品發(fā)展的因素,實現(xiàn)低成本甚至零成本帶來的有效增長…

本文經(jīng)授權(quán)發(fā)布,不代表增長黑客立場,如若轉(zhuǎn)載,請注明出處:http://m.gptmaths.com/quan/12784.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
上一篇 2018-07-18 23:29
下一篇 2018-07-19 00:09

增長黑客Growthhk.cn薦讀更多>>

發(fā)表回復(fù)

登錄后才能評論