我給AI當老師:辛苦又廉價,比教人還費勁
人工智能也沒那么神奇,多少人把幾百萬、幾千萬的句子掰開揉碎了教它才教明白,教人才沒這么費勁。
編者按:本文來自微信公眾號 經濟觀察報 (ID:eeo-com-cn),作者:鄭晨燁,創(chuàng)業(yè)邦經授權轉載。
每當丈夫上班、兒子返校,家住武漢的全職媽媽吳海燕便會坐到電腦前開始一天的工作,在一個被稱為“freespace魚眼語義分割”的項目中進行標注工作。
【資料圖】
之所以叫魚眼語義分割,是因為吳海燕標注的圖片全都來源于車載魚眼攝像頭所錄視頻。這些圖片的場景大多在停車場中,吳海燕需要做的是利用點陣工具,將立柱、柵欄、機動車、行人等物體的接地點標出并鏈接,形成一塊藍色的封閉多邊形區(qū)域,這塊區(qū)域就是freespace(可行駛區(qū)域)。
當吳海燕將一段視頻的300幀圖像全部標注好,這些數據集便可用于訓練智能汽車的自動駕駛算法,幫助AI(人工智能)理解在停車場哪些區(qū)域可以行駛、哪些區(qū)域可以泊車以及哪些區(qū)域不能觸碰。
“現在看到新聞里很火的ChatGPT都有種親切感,好像是自己手把手教出來的?!?月15日,吳海燕告訴經濟觀察報。
這樣一份可以被形容為AI“老師”的工作,在《國家職業(yè)分類大典(2022年版)》中被稱為數據標注員,即通過對圖片、語音、文本等數據進行標注和加工,為AI算法學習及優(yōu)化提供樣本。
像吳海燕這樣的兼職數據標注員,僅在其工作的平臺就有近兩萬人,他們的職業(yè)背景和社會身份各異,既有吳海燕這樣的家庭主婦,也有大城市的基層白領,以及部分殘障人士。
這些數據標注員正處在火熱AI賽道的最底層,用日復一日的枯燥勞動,為如今大放異彩的各類AI應用提供重要的數據養(yǎng)料,他們所在的行業(yè)也被統(tǒng)稱為“人工智能基礎數據服務”。
根據IDC發(fā)布的數據,近5年中國AI基礎數據服務市場規(guī)模年復合增長率達到47%,預期2025年將突破120億元,占到中國人工智能市場規(guī)??傤~約10%。
一、“數據標注員”2月15日,經濟觀察報記者在兼職平臺報名了一份數據標注員的兼職,當晚,項目負責人趙強杰電話詢問了記者的基本情況,隨后將記者拉至一個名為“試標”的微信群里。
“新進群的同學先看群公告,再看聊天記錄里的視頻,看完有想做(數據標注)的,私聊找我試標,只差三個人了?!?/p>
這是一份時長36分鐘的標注培訓視頻,示范了如何在一幀車載魚眼攝像頭錄制的視頻中,通過將立柱、機動車、行人等障礙物的接地點連接到一塊,從而精準標注出一塊藍色區(qū)域。
“標注人員需以封閉多邊形的形式標出視頻每一幀畫面中障礙物接地點freespace的邊界?!迸c教學視頻配套的另一份培訓文檔上有對該項目的概述。
“freespace簡單說就是可行駛區(qū)域,常見于泊車場景的數據標注,通過將柵欄、墻面等障礙物阻隔的近端區(qū)域,未被機動車占用的可泊車位等邊界的像素坐標信息標注后,用于幫助AI定義可行駛區(qū)域,可以實現自動泊車、一鍵呼叫等功能?!鄙虾R患抑悄苡布髽I(yè)的算法工程師馮易向經濟觀察報解釋。
趙強杰所說的試標,便是兼職數據標注員的面試,通過標注“實戰(zhàn)”來測試應聘者的工作能力,在大致看完了標注項目的教學視頻后,記者私聊了趙強杰,表達了想要試標的意愿,隨后得到一個測試賬號。
記者登錄一個名為數加加眾包的數據標注平臺,并在其中打開了趙強杰指定的測試項目。在觀看教學視頻之初,這份標注工作的難度并不高,只不過是按照既定規(guī)則將畫面中可行駛區(qū)域標注出來。
但在實際操作過程中,記者還是遇到了不少難題,例如畫面中遠處的立柱被遮擋,無法準確標出邊界與接地點,抑或是畫面遠處過于模糊,無法區(qū)分標注物體所屬類型。
用了將近10分鐘,記者勉強完成了第一幀圖像的標注,過程中,趙強杰多次催促了記者。
“你確定你看過視頻了嗎?看過視頻是不可能還標成這樣的,要像你這樣標,AI學完車就直接撞柱子上了?!痹谑盏搅嗽嚇俗⒌膱D像后,趙強杰向記者反饋。
他還告訴記者,通常一段魚眼視頻會有20幀圖像需要標注,熟練的數據標注員一天需要標200~300幀畫面,像記者這樣的標注速度無法勝任兼職工作。
圖說:上圖為記者完成的道路場景語義分割標注,下圖為符合AI訓練標準的道路場景語義分割標注。
在記者進行試標的同時,一位在深圳上班的白領董程也加入了趙強杰的群。
他稍早前在社交平臺上看到有關兼職數據標注員的介紹信息,隨后被“下班兼職、工資日結、日薪300、就像連連看”等關鍵詞吸引,在私聊發(fā)布信息的博主后,獲得了趙強杰的聯系方式并進群。
同記者一樣,董程也在隨后的試標中被趙強杰淘汰,記者對比了董程標注的截圖與趙強杰提供的正確標注截圖,發(fā)現除了個別點位的標注不同外,大致區(qū)域范圍其實并沒有太大差異。
“自動駕駛類的數據標注需求是很嚴的,不精細的數據甲方是不會驗收的,你看起來可能就差一點點,但是人人都差一點點,累積起來給到AI訓練那邊可能就會是天大的錯誤,如果出現無效訓練,輕則浪費一些成本,重則要出人命的?!泵鎸τ浾叩囊蓡?,趙強杰說。
深圳一家AI企業(yè)的產品經理何茂對記者表示,在算力、算法和數據構成AI應用的三大要素中,訓練的準備數據可以算得上是最重要環(huán)節(jié),谷歌大腦創(chuàng)始人吳恩達就曾指出:“AI研究80%的工作應該放在數據準備上,確保數據質量是最重要的工作;業(yè)界如果更多地強調以數據為中心而不是以模型為中心,那么機器學習的發(fā)展會更快。”
何茂告訴記者,當前主流的機器學習算法為有監(jiān)督學習,即讓機器通過標簽化的數據進行學習訓練,“就像人類一樣,小時候有人告訴你什么是汽車,什么是飛機,教你學會了鑒別,這就叫有監(jiān)督學習”。
而在有監(jiān)督學習中,通過對大量原始語音、視頻、文本及圖片數據進行加工處理,從而使機器能夠識別和學習這些信息的數據標注工作,便成了機器學習順利進行的關鍵環(huán)節(jié)?!皩涍^標注的數據集進行模型訓練,可以讓AI在未來再次接收到對應數據時,能夠進行簡單分類并輸出正確判斷,例如freespace數據標注,便能夠讓AI在泊車場景下快速判斷可行駛區(qū)域與可停泊車位,所以數據標注就像是AI的啟蒙老師,教給不同場景下的AI最基礎的鑒別和分類功能?!焙蚊忉?。
馮易指出,對于有監(jiān)督學習算法來說,訓練數據的需求空間還很大,所以基礎數據服務對模型算法發(fā)揮著關鍵支撐作用。
二、“訓練”ChatGPT根據應用場景的不同,數據標注也分很多類型,像趙強杰、吳海燕最近在做的魚眼freespace標注就屬于語義分割的一種。
“根據不同物體、區(qū)域的外形進行描邊標注,將對應邊界像素數據對應到具體類別和屬性,使機器能夠快速識別,相當于告訴機器什么樣的是車、什么樣的是路、什么樣的是樹等等,主要應用在自動駕駛、智慧安防等場景?!焙蚊嬖V記者。
而近期大火的ChatGPT屬于NLP(自然語言處理)模型的一種,這類模型的訓練同樣需要標注員進行對應的數據標注,趙強杰在去年底就曾接到過自然語義類型的標注任務,“那是一個十萬條的新聞情感分類標注項目,要根據每條新聞的內容進行正面、中性、負面三種類型的標注”。
據了解,情感標注是指針對原始文本、語音等自然語言內容進行情緒傾向的判定,幫助NLP模型人類語境與情感。
趙強杰舉例,“比如,機器收到了一句‘今天是周五’,這句話可能在傳達正面情緒,如果后面緊接著補一句‘我還要加班’,就變成了負面情緒的表達,理解用戶情緒能夠幫助AI更好地組織回答”。
在趙強杰展示的項目說明文檔中,記者看到了其團隊去年所接新聞情感標注項目的具體要求,客戶希望標注團隊根據新聞內容,判斷其對經濟的影響好壞,從而進行三種類型的分類。
例如,在該文檔中,有一則新聞內容是在去年北京市某場新冠疫情防控工作新聞發(fā)布會上,通報了多名違反疫情防控相關規(guī)定,及涉嫌妨害傳染病防治罪的相關責任人,該則新聞的標注處有一個數字0,即此新聞表達的為負面情緒。
“情感標注的項目任務比較常見,除了在智能客服、智能家居領域,還可以用在輿情監(jiān)測上,幫助企業(yè)快速鎖定負面輿情,進行公關處理?!壁w強杰說。
相較于略顯簡單的情感標注,吳海燕去年還曾參與過更為復雜的詞性及句法標注,這類經過標注后的數據,便被用于訓練類似于ChatGPT這類自然語言處理模型。
吳海燕回憶,該項目的原始數據主要為采集自各類社交平臺評論區(qū)的語句,標注員要將語句中的詞匯語法屬性以及句中的依存關系進行標注。
以“今天凌晨蘋果公司發(fā)布了iPhone14”一句為例,該句中一共有“今天、凌晨、蘋果、公司、發(fā)布、了、iPhone、14”八個需要標注的詞性以及依存句法,其中今天為時間詞,標注為t,該短語又屬于定中關系,需標注為ATT;凌晨同樣屬于時間詞,標注為t,但在句法上屬于狀中結構需標注為ADV。
“原始的文本數據直接給到機器當然是識別不了的,所以需要進行標注,給每一個詞語、句子進行定性,從而可以使用模型做分析和表達。”馮易向記者解釋。
他告訴記者,目前中文領域主流的詞性標注法,為北京大學計算語言所在2003年推出的語料庫加工規(guī)范,其中將中文詞性分為39類,包括“形容詞、時間詞、人名、地名、成語”等等,而中文作為典型的大字符集語言,僅僅標注詞性仍難以用于高效訓練模型,因此就需要進一步標注句法。
“常用的漢字可能都有七八千個,所有漢字加一塊有10萬個,還存在同音、同義、歧義等情況,這就需要將句法標注和詞性標注結合起來,依存句法標注簡單來說,就是分解一段句子,尋找其內部詞語之間的依存關系,從而實現對不同語句結構的高效概括,讓AI能夠通過分析句子結構提煉出相關信息,以便更準確、自然地給到用戶回復?!瘪T易表示。
何茂亦表示,諸如詞性及句法標注只不過邁出了NLP模型訓練的第一步,后續(xù)還要經過特征工程(將詞句向量化,便于計算機識別)、選擇模型、訓練模型、評估模型及測試上線,如果沒有高質量的優(yōu)秀訓練數據集作為基礎,后面的所有工作都無從談起。
“ChatGPT的誕生本質上還是屬于‘大力出奇跡’的事情,依靠大數據、高算力、大模型硬堆出來的人工智能,背后包含了數不清的標注員、訓練師的勞動成果?!焙蚊f。
如今,回憶起去年曾經參與的文本標注項目,再來看眼下到處都能刷到的有關ChatGPT的新聞,吳海燕覺得有些不以為然:“人工智能也沒那么神奇,多少人把幾百萬、幾千萬的句子掰開揉碎了教它才教明白,教人才沒這么費勁?!?/p>三、“企業(yè)工會”的眾包
“你是數加加公司的人嗎?是代表數加加招人嗎?”在記者加入的試標群中,有應聘者艾特了趙強杰提問。
“我們是數加加旗下的企業(yè)公會,就是以團隊形式領取任務的眾包組織,群里只有我一個對接人,其他人找你們都不要相信。”趙強杰回答。
眾包即一家企業(yè)或機構將工作任務拆分包裝為不同的項目,以自愿自由的形式通過互聯網外包給非特定群體。
國內最早讓大眾了解到眾包的,便是每日穿行在大街小巷的百萬外賣小哥,對企業(yè)來說,眾包降低了用工成本,提高了業(yè)務運行效率,對從業(yè)者來說,眾包形式靈活、多勞多得。
而對人工智能數據標注這樣的工作來說,以眾包模式運轉無疑是最優(yōu)解,因為數據標注這份工作實在是太過瑣碎、辛苦且廉價。
像趙強杰就已經記不清遇到過多少干了兩天就打退堂鼓的標注員,“大家都覺得這份工作簡單,好像坐在電腦前把東西框起來就能輕輕松松掙錢,實際哪有那么好的事”。
對AI訓練來說,數據標注的質量具有十分重要的意義,如果在標注過程中出現不準確乃至錯誤,很有可能會導致十分嚴重的后果。“比如魚眼語義分割,該標的柱子沒標出來,該圈的區(qū)域沒圈進去,AI學習完,把車撞柱子上,或者死活識別不了空車位泊不進去”。
他以一個2D拉框任務向記者說明標注工作所需的細致程度,其在標注平臺上打開了一張車輛在道路上行駛的照片,并指出記者的目標是將該照片中的物體分別打框標記。記者在圖片中唯一一輛皮卡車上畫了一個框,并提交了任務??吹接浾甙l(fā)來的標注成果后,趙強杰樂了:“你再仔細看看,這個圖里只有這一輛車嗎?”記者反復查看圖片,確認只有這一輛機動車后,再次向趙強杰提交了標注圖片。
當看到趙強杰發(fā)來的正確標注圖片后,記者才明白自己的錯誤有多“離譜”。
在正確的標注圖片上,除了記者框定的那“唯一”一輛機動車外,道路上的交通標線,路兩旁的行道樹,甚至在樹蔭遮蔽下只顯露了一小截的電線桿,以及畫面遠處幾乎濃縮為幾個像素點的三輪車都需要標注。“你畫框的方式也不對,畫的范圍太大了,框線應該要緊緊貼著目標物體,不要留出空隙?!壁w強杰又指出記者的一個錯誤。
他告訴記者,對標注員的工作質量,其公會的考核十分嚴格,例如最近正在進行的魚眼分割項目,如果一名標注員連續(xù)標錯了三幀畫面,會被直接取消當月結算資格。“你來我們這干肯定拿不到錢?!壁w強杰調侃。
但記者注意到,能夠精準標注、極少犯錯的熟練標注員,月收入其實也很低,遠沒有各類平臺上宣傳的“輕輕松松五六千”那么風光。
“現在標一個框基本就三到四分錢,甚至更低,我又是兼職,有的時候標得頭暈眼花,一個月下來還沒有一千塊錢?!眳呛Q嗾f。
趙強杰也表示,其公會旗下熟練標注員的時薪大多在10~15元左右。
他統(tǒng)計,能夠長期堅持在標注領域干下來的成員,大多為家庭主婦、制造業(yè)跨行、長期自由職業(yè)人士等,而像董程這類有穩(wěn)定工作的白領,就算試標通過,也不會穩(wěn)定在此兼職。
對于人工智能基礎數據服務領域的商業(yè)模式,2021年登陸科創(chuàng)板的國內人工智能基礎數據龍頭海天瑞聲(688787.SH)曾在其招股說明書中有過詳細披露——
此外,海天瑞聲答復上市問詢函時透露,2019年度,在其一體化數據處理平臺注冊賬號的終端勞務人員達到了6.93萬人,同期該公司的員工僅142人。
海天瑞聲在生產訓練數據的過程中,通過對接第三方數據服務供應商、人力資源外包服務公司的形式解決了大規(guī)模勞務人員需求,在這一過程中,甚至還可能出現層層外包的情況。
這在一定程度上解釋了為何像吳海燕、趙強杰一樣的產業(yè)底層數據標注從業(yè)者,在經歷了繁瑣、枯燥、重復且辛苦的工作后,依然得不到一份“像樣”的回報。
不過,雖然背靠眾包模式搭建起了一座低成本的人工智能數據工廠,但海天瑞聲上市以來的財務表現卻始終差強人意。
其2020年至2021年的營收分別為2.33億元及2.06億元,同比下滑了1.76%、11.53%,其2022年的營收有所回暖,前三季度同比增長27.82%,但扣非凈利潤仍舊延續(xù)跌勢,1.67億元的營收只有427萬元的凈利潤,同比暴跌77.76%。
“人工智能行業(yè)整體發(fā)展迅速,應用領域和場景日趨復雜,像打個框、標個點這樣簡單的標注工作也很快會被AI取代,以后的標注工作只會越來越專業(yè),越來越復雜,ChatGPT就是一個很典型的例子,人家已經實現了AI教育AI?!焙蚊赋?。
在他看來,隨著下游需求不斷變化,上游一眾人工智能基礎數據服務企業(yè)若還沉迷于提供勞動密集型服務,很快也將面臨淘汰。
在采訪即將結束時,記者調侃趙強杰就像是一位在AI時代的富士康里上班的線長,他的回答卻是:“標注員跟富士康里的民工比不了,人家包吃包住,簽勞動合同,有五險一金?!?/p>
本文(含圖片)為合作媒體授權創(chuàng)業(yè)邦轉載,不代表創(chuàng)業(yè)邦立場,轉載請聯系原作者。如有任何疑問,請聯系editor@cyzone.cn。
關鍵詞: 數據標注員
責任編輯:hnmd004
- 我給AI當老師:辛苦又廉價,比教人還費勁2023-02-20
- 環(huán)球視點!中消協點名新冠保險套路多!險企2023-02-20
- 全球今日報丨第三套上市標準被“激活” 創(chuàng)2023-02-20
- 每日報道:建設銀行濰坊分行:田間地頭上譜2023-02-20
- 2023數博會定于5月26日至28日在貴州省貴陽2023-02-20
- 郵儲銀行榆林市分行作為全市獨家金融機構在2023-02-20
- 世界速看:儲能板塊表現強勢,德業(yè)股份漲8%2023-02-20
- 【天天新視野】農業(yè)銀行“云專家”進駐網點2023-02-20
- 焦點資訊:首都機場廊坊城市航站樓開啟試運2023-02-20
- 世界簡訊:分子之心宣布完成超億元Pre-A輪融2023-02-20
- A股午評:上證50指數漲超1%,金融、基建等2023-02-20
- 撲朔迷離百億光伏項目 明牌珠寶再延期回復2023-02-20
- 世界速讀:皇氏集團董秘回復:公司規(guī)劃到202023-02-20
- 如何做個人小額投資理財?小額投資理財有哪2023-02-20
- 金士頓8gu盤多少錢?金士頓32g2.0u盤價格多2023-02-20
- 哪種筆記本散熱器好?十大公認最好的散熱器2023-02-20
- 江蘇鹽城電網預計2023年投產110千伏及以上2023-02-20
- 【天天速看料】中國房地產業(yè)協會與中國環(huán)境2023-02-20
- 當前快訊:AIGC板塊震蕩走強,新華網漲停2023-02-20
- 天天即時看!全面注冊制正式實施 資本市場2023-02-20
- 股票私募高位減倉,百億私募倉位下降2023-02-20
- 即時看!江蘇揚州:二手房取消限售,首套房2023-02-20
- 愛奇藝:黃金VIP會員恢復720P和1080P清晰度2023-02-20
- 信息:李俊峰:光伏產業(yè)的天花板,究竟還有2023-02-20
- 環(huán)球今亮點!穩(wěn)增長 優(yōu)結構 補短板 ——2023-02-20
- 熱點評!4GW組件+18GW電池,中環(huán)控股集團光2023-02-20
- 投資10億元!華民股份擬投建年產10GW異質結2023-02-20
- 【世界快播報】工行宿遷分行“適老”服務護2023-02-20
- 黑檀木手鏈的功效與作用 檀木手鏈什么價格2023-02-20
- 張默的親生母親是誰?張默個人資料簡介2023-02-20