發(fā)布時間:2021-7-7 分類: 行業(yè)資訊
圖片為簡單標注方式的一種 但需要處理的數(shù)據(jù)訂單往往以「萬」為單位。最新的需求是6萬張圖片,7天內(nèi)完成。理論上這個訂單需要214個人共同工作7天,秦嬌手頭只有不到100個人,其中一部分還要完成其它項目。幾次秦嬌都對著電話那頭擺出不耐煩的神情,「你跟他說,要我去死好不好」。 與擁有1,500萬張標注圖片的數(shù)據(jù)集ImageNet相比,只有6萬張圖片的項目顯得十分渺小。不過大部分人可能很難想象,是來自167個國家的48,940名工作者,花費了2年時間,清理、分類、標記了近十億張通過互聯(lián)網(wǎng)搜集到的圖片,才得到這個有1,500萬張圖片的數(shù)據(jù)集。其所耗費的時間與人力,遠非一般項目可比。 數(shù)據(jù)龐大又開源,ImageNet很快成為成為研究圖像識別的首選。不論AndrewNg(吳恩達)還是JeffDean,涉足這一領(lǐng)域研究者都使用過ImageNet。但ImageNet有自己的弱點,標注框太大、標注方式少和不時出現(xiàn)的錯誤,使它難以被用來訓練實際應用的算法模型。 人工智能公司們必須想盡辦法,積累符合自身應用方向,標注得更細致、更準確的數(shù)據(jù)。在初創(chuàng)公司招聘工程師的需求中,「有收集標注數(shù)據(jù)的能力」有時也會被寫進其中。某種程度上,高質(zhì)量的標注數(shù)據(jù)決定了一家人工智能公司競爭力。 盡管互聯(lián)網(wǎng)的確催生了浩如煙海的內(nèi)容,但標注這件需要耐心和專注的「小事」,暫且還要靠人的幫忙。 二 在專業(yè)的數(shù)據(jù)標注公司出現(xiàn)前,眾包平臺往往是大部分公司的選擇。 人們認為靈活性更高的眾包方式能適應不穩(wěn)定的數(shù)據(jù)需求,價格成本也更低。某知名數(shù)據(jù)眾包平臺據(jù)稱擁有超過5,000名數(shù)據(jù)標注專員,單日可處理超過200萬條數(shù)據(jù),能「穩(wěn)定提供數(shù)據(jù)標注服務(wù)」。
數(shù)據(jù)標注是所有數(shù)據(jù)眾包平臺的核心業(yè)務(wù),除此之外還有數(shù)據(jù)清洗、數(shù)據(jù)采集等等 不過從單日單人數(shù)據(jù)比(400條數(shù)據(jù)/人)可以推測出,其標注質(zhì)量也許并非所說的那么可靠。由于參與眾包標注的工作者數(shù)量很多,專業(yè)背景和工作能力參差不齊,「收集到的標注內(nèi)容中存在噪聲甚至錯誤,不能直接作為正確的標注使用」早已是不爭的事實。如何解決眾包平臺的質(zhì)量缺陷,已經(jīng)成為近年來博碩士論文的議題之一。 通過數(shù)據(jù)交易平臺購買已標注好的數(shù)據(jù)包也是一種選擇。但問題似乎又繞回為什么人工智能公司要自己標注數(shù)據(jù):不同的應用方向需要的數(shù)據(jù)內(nèi)容不同,甚至標注方式也不同。 秦嬌目前所在的這家公司,瞄準的就是這片市場““人工智能公司需要的數(shù)據(jù)既要根據(jù)需求定制,又要保證標注質(zhì)量,同時數(shù)量還十分龐大。大部分人工智能公司自身和眾包平臺都無法同時滿足這三種要求,因而誕生了專業(yè)的數(shù)據(jù)標注公司。 這家「數(shù)據(jù)加工」公司的一二層,全部是負責標注數(shù)據(jù)的員工。為滿足不同訂單需求,員工們被劃分成不同小組: 有的小組負責勾畫圖片中人體的關(guān)節(jié)點,將復雜的瑜伽姿勢抽象成點和線,可以用來訓練識別人體體態(tài)的模型; 有的小組要為路況圖片中的車輛、摩托車、自行車和行人打上邊框,并標注行進方向和是否有遮擋,這類圖片多用來訓練智能安防攝像頭的識別能力; 有的小組需要分毫不差的描繪建筑物的邊緣,將靜止畫面中鱗次櫛比的大樓一一分割,標注成不同的色塊,這類數(shù)據(jù)多用在自動駕駛中車輛對環(huán)境的認知; 有的正將雷達掃描出的障礙物3D線條一一還原成實物,長方體是建筑、綠色的是樹木,這些內(nèi)容會被用來訓練雷達數(shù)據(jù)和真實世界的關(guān)聯(lián)性。
標注作業(yè)有時并不簡單,比如這種關(guān)聯(lián)性標注 除圖片外,這里還有負責視頻標注的員工。她們需要從每段視頻中抽出10幀,標注相近兩幀中物體的方向和坐標的變化。這些數(shù)據(jù)也許會被用來訓練機器對物體連貫性的感知,也許用來訓練機器預判物體的位置變化。 與大部分制造業(yè)類似,這里的各個小組都有自己的管理者。管理者之上是項目經(jīng)理,然后才是秦嬌這樣為數(shù)不多的高層管理者。員工「生產(chǎn)」的內(nèi)容會經(jīng)過質(zhì)檢人員的核驗,全部合格后才會最終交付項目方。嚴格的流程和管理制度,保證了穩(wěn)定的標注效率和質(zhì)量。 「很多人認為大數(shù)據(jù)就是呼叫中心,我們發(fā)展的大數(shù)據(jù)和其他人不一樣,整個貴州只有我們做數(shù)據(jù)精加工?!箤τ诠灸壳霸谧龅臉I(yè)務(wù),秦嬌顯得非常驕傲。 的確,這些結(jié)構(gòu)化后數(shù)據(jù),將成為這場人工智能大潮中的公司們的立足之本。不僅幫助它們提升模型的準確度、提升產(chǎn)品的可靠性,甚至影響它們的發(fā)展軌跡和融資進程。 三 「數(shù)據(jù)加工」公司所在地距「大數(shù)據(jù)之城」貴陽五十多公里,是一座只接受科技公司入駐的「數(shù)字小鎮(zhèn)」。剛剛落成入駐率不高,加上位置偏遠、人跡罕至,園區(qū)顯得十分安靜。
小鎮(zhèn)多是這樣的彩色尖頂小樓,綠化豐富,十分安靜 有趣的是盡管位處山林之中,小鎮(zhèn)的隔壁有一間規(guī)模不小的高職學校,學校的學生構(gòu)成了這家公司目前主要的員工來源。除上課外,學生們每天有大約6個小時可以工作,「易于管理、盡職盡責」是秦嬌給這些學生的評價。 高職學校初建的目的是教育扶貧,因此學生們大多來自貧困山區(qū),學校會提供不少補助和獎學金。在數(shù)據(jù)加工公司兼職賺來的錢不僅足夠生活,有些學生還會拿出一部分補貼家用。偶爾這份工作還能成為職業(yè)跳板,「我們的學生踏實又努力,有的去北京實習,因為熟悉標注工作、又認真,反饋回來說比同樣實習的北京大學生強得多」。 學校走廊的墻上也貼著不少相似的學生案例。在描述學生們?nèi)雽W前情況的文字中,不可避免的包含著「貧窮」、「雙亡」、「殘疾」等詞匯。其中一張照片中父親、母親和學生坐在寨樓的木板地上,身后昏暗的空間里沒有任何擺設(shè);另一張照片中的學生摟著患病的哥哥;還有一張照片,面無表情的學生正坐在床一樣的地方,背景是用黑白報紙糊著的墻。后來,她們都憑努力改變了自己和家庭的命運。 對這份工作能帶給學生的機會與回報,「數(shù)據(jù)加工」公司的COO李政同樣十分篤定。但比起秦嬌對于數(shù)據(jù)標注行業(yè)的信心滿滿,他則顯得有些憂心忡忡。畢業(yè)于北京航空航天大學的他清晰的意識到,現(xiàn)階段的數(shù)據(jù)標注還是勞動密集型產(chǎn)業(yè),和南方工廠沒什么不同。學生們都只是流水線上來料加工的一環(huán),處在價值鏈的底端。只有向前一步,找到更深入行業(yè)的業(yè)務(wù)模式,才能從已經(jīng)開始熱絡(luò)的數(shù)據(jù)加工行業(yè)中脫穎而出。 摸索了近一年,李政拓展了包括采集數(shù)據(jù)在內(nèi)的不少業(yè)務(wù)。所謂采集數(shù)據(jù),是指自主拍攝符合項目方要求的人像圖片,如一個人正面、45度、60度以及佩戴各類裝飾物的照片。這些圖片可以用來訓練計算機對于同一張人臉在不同狀態(tài)下識別的準確性和關(guān)聯(lián)性,是目前大部分專注人臉的計算機視覺公司都有的需求。 有時,表情也在規(guī)定在數(shù)據(jù)采集的要求中 在自己搭建的攝影棚中,「數(shù)據(jù)加工」公司已經(jīng)完成了好幾份訂單。主角當然還是學生們,她們排隊依次進入影棚,按照要求擺好姿勢拍下幾張照片后,再分別戴上口罩、墨鏡、帽子繼續(xù)拍攝。一套照片往往包含10幾張,一天能拍攝100多套。比起安防公司自己搜集或拍攝照片,這套標準流程和足夠的樣本數(shù)(學校至少有上千個學生)的確有不小競爭力。 除此之外,她們還可以承接小語種的語料收集工作。地處西南、臨近東南亞,當?shù)氐娜穗H關(guān)系鏈和頻繁的商務(wù)交往能提供不少便利。 「只做來料加工肯定不行,」李政非常堅定,「我們最近正在培訓一些技術(shù)人員,懂技術(shù)才能和項目方更好的溝通需求,把需求更好的描述出來,我們才能更好的滿足?!?四 「標注真的是個辛苦活?!固崞稹笖?shù)據(jù)標注」四個字,華院數(shù)據(jù)的首席科學家尹相志不禁咧了咧嘴。 幾個月前,華院數(shù)據(jù)剛剛舉辦過一次大數(shù)據(jù)應用比賽,包含識別復雜圖像中的動物、通過行車紀錄儀的圖像還原駕車操作場景等多個環(huán)節(jié)。在「通過賣場貨架圖片自動計算產(chǎn)品的貨架占有率」這項測試中,她們拍攝了1600多張真實的貨架圖片作為原始數(shù)據(jù)。 比賽的目的,是通過不到兩千張的「小數(shù)據(jù)樣本」,實現(xiàn)往往需要大量樣本才能實現(xiàn)的圖像識別。為了讓比賽的難度不那么「變態(tài)」,她們還為選手們提供了「精細化標注」后的貨架圖片““所謂精細化標注,就是貨架上每一包緊挨著的零食、泡面,都要延邊緣仔細劃分。 圖中左側(cè)為從真實貨架照片中挖取出的同類商品碎片;右側(cè)為對貨架上不同商品的標注,每種灰度對應一種商品 「深度學習最大的問題還是樣本數(shù),這里考的其實是怎樣通過小樣本進行學習。」通過這項挑戰(zhàn)的訣竅之一,是將原本1000多張圖片根據(jù)提供的邊緣裁切保留純粹的產(chǎn)品圖像,透過數(shù)據(jù)增強技術(shù)放大到數(shù)十萬張,再根據(jù)這些增強后的圖片建模就可以減少誤差。精細化標注不僅能幫助解決樣本稀少的問題,對于過往需要幾十萬圖片才能訓練模型的模式也帶來了啟發(fā)。 不過精細化標注并不是什么容易事,這一千多張圖片的標注耗費了12個人大半個月時間,負責標注工作的組員「幾近崩潰」。如果有人能承擔復雜標注這項令人「崩潰」的工作,并善于滿足復雜的標注要求,人工數(shù)據(jù)標注能成為一項長遠發(fā)展的產(chǎn)業(yè)嗎? 「近期需求還是很大,」尹相志想了想,「但這個行業(yè)可能只有5年時間,大家都在想各種辦法,比如開源,比如小樣本學習本身。」 除了小樣本學習,人們也在思考是否能合成數(shù)據(jù)。圖像識別領(lǐng)域的研究者們正在嘗試通過圖形學方法,制造出逼真的、和真正訓練圖像非常相似的圖片。理論上這種方法能夠產(chǎn)生大量直接帶有標注的數(shù)據(jù),但能不能「真實」,還需要圖形學上的進步。 ImageNet的締造者李飛飛同樣意識到精細化標注的力量,正在進行一份名為「VisualGenome」的工作。VisualGenome有更多、更窄的框,更詳細的名詞標注,以及位置關(guān)系和動作關(guān)系。目前VisualGenome中有10.8萬張圖片。 對于數(shù)據(jù)標注這件不大不小的麻煩事,每個從業(yè)者都有自己的看法。有人諱莫如深,將話題轉(zhuǎn)換成互聯(lián)網(wǎng)是最龐大的數(shù)據(jù)集;但事實上所有人都知道采集到的數(shù)據(jù)無法直接使用。有人坦誠不少數(shù)據(jù)需要學生兼職或靠自己的員工標注,對質(zhì)量的不滿促使有些公司干脆成立了數(shù)據(jù)標注部門;還有人透露,如果用對了關(guān)鍵詞,在淘寶也能找到不少外包商。 不過每個人或多或少都樂觀相信,5年后就不再需要這么多人力,無監(jiān)督學習、小樣本或者自動生成數(shù)據(jù)會發(fā)揮更大作用。 可那些傾注人們心血標記而成、精巧如藝術(shù)品的標注圖片,5年后的計算機,真的不再需要它們了嗎? 五 在知乎「大公司里面有人專門負責標注數(shù)據(jù)嗎?」問題下,共有21個回答。來自大公司的回答者們表示曾「發(fā)動全部門人對幾萬張圖進行人肉打標」,或是將工作「安排在人力成本比較低的分公司」。小公司們則將數(shù)據(jù)「交給隔壁全是女性的部門標」,或是「省錢就自己人標了」。除此之外,交給外包公司是頻率最高的選項。 從招聘網(wǎng)站發(fā)布的職位需求也可略窺一二。在智聯(lián)招聘中鍵入「數(shù)據(jù)標注」,可以找到60個直接相關(guān)職位。在拉勾網(wǎng)則能找到近400個““管理外包團隊等相關(guān)職位也被算入其中。以兼職為主題的豆瓣小組和百度貼吧,也從滿屏的寫軟文、寫小說、寫評論,開始夾雜數(shù)據(jù)標注的兼職招募。 看起來,在人工智能行業(yè)火熱、大量創(chuàng)業(yè)公司涌現(xiàn)的當下,數(shù)據(jù)標注是一門不錯的好生意。 2009年,張彤禾曾在《打工女孩》中描述過一群背井離鄉(xiāng),來到東莞獨自打拼的女孩。她們剛剛十八九歲,甚至尚未成年,便離開學校在工廠里不分晝夜的工作。流水線上的女工,既不了解自己正在生產(chǎn)什么,也不知道自己的工作「秋西」(QC)就是「質(zhì)量檢測」。不論工作還是生存環(huán)境都相當惡劣,晚上去小吃街就算改善生活,往往也缺乏精神娛樂。 但與印象中打工者的刻板形象不同,她們既不短視,也不壓抑。她們不在乎15個人共用一個房間,50個人共用一個洗手間。占據(jù)她們頭腦的是,多久才能存夠買房子的錢?該如何晉升或者干脆跳到更有前景的崗位?所剩無幾的周末,是該學習計算機、英語還是別的什么? 與馬克思那份工人與生產(chǎn)物分離后,失去了滿足和快樂的「資本主義的悲哀」不同,「分離」改變的不一定是她們的社會地位,而是她們的思想?;ㄙM時間制造的東西并不能代表制造者本身,賺來的錢花在了哪兒、讓她們學會了什么技能、如何改變了她們,才更加重要。 「我們手上的iPod、腳上的Nike、肩上的Coach,無形中改變了數(shù)百萬人的工作、婚姻、生活和思想。」 也許數(shù)據(jù)標注同樣如此。在探討這個行業(yè)存在的合理性與是否能長久發(fā)展之前,能帶給從業(yè)者的改變就已足夠振奮人心。 但我們?nèi)圆荒芡涍@些人的付出。盡管她們面目不清,從未被人提起。 題圖為亞馬遜眾包平臺AMT平臺工作者KristyMilland,目前該平臺有大約50萬名數(shù)據(jù)標注的工作者。 文中秦嬌、李政均為化名
« 摩拜在手,說走就走 | 海象理財:輕松九招理好財 »
周一周五 8:30 - 18:00
Copyright © 2020 聊城開發(fā)區(qū)百川網(wǎng)絡(luò)服務(wù)有限公司 All Rights Reserved
百度統(tǒng)計客服QQ