国产免费看插插插视频_办公室撅着调教羞辱_国产精品一级毛片不收费_亚洲另类专区无码

眾推推 - 最專業(yè)的微信任務(wù)系統(tǒng)源碼!

資訊熱點(diǎn)
人工智能很智能 但是真的需要不少“人工”

發(fā)布時(shí)間:2021-7-7 分類: 行業(yè)資訊

在大部分人看來,人工智能是個(gè)有些「科幻」的詞匯,代表小說電影中和人類長相相似、或溫柔或冷酷的機(jī)器人。 稍微熟悉一點(diǎn),這份印象又變成冷冰冰的GPU陣列、復(fù)雜多層的神經(jīng)網(wǎng)絡(luò)和一大串佶屈聱牙的專有名詞。能接觸它們的除了工程師,就是科學(xué)家。 也許這份印象需要再度刷新一次““人工智能,真的需要不少「人工」。 一 秦嬌今年剛滿30歲,幾個(gè)月前剛剛從呼叫中心跳槽到一家「數(shù)據(jù)加工」公司。雖然跨了行業(yè),她并不覺得兩份工作有什么不同,都是按照甲方的要求和己方的工作節(jié)奏,把人手安排到一個(gè)又一個(gè)項(xiàng)目中去。 公司剛成立不到一年,眼下業(yè)務(wù)大多是標(biāo)注數(shù)據(jù),即根據(jù)項(xiàng)目方要求,人工為圖片、視頻和語音內(nèi)容打標(biāo)簽、做標(biāo)記。標(biāo)注好的數(shù)據(jù)會被人工智能公司用來訓(xùn)練算法模型,然后應(yīng)用到圖像識別、語音識別等不同領(lǐng)域。 通常來說,數(shù)據(jù)標(biāo)注得越準(zhǔn)確、數(shù)量越多,模型的效果就越好。自然,產(chǎn)品的效果就會更好。 一旦要求質(zhì)量,每個(gè)人的產(chǎn)出量就不會太多。熟練者平均一天可以標(biāo)注40張圖片,前提是只需要為圖片中的物體打框、標(biāo)注類別和前后關(guān)系。如果涉及到刻畫建筑物邊緣等復(fù)雜細(xì)節(jié),一天標(biāo)注10張已是極限。

圖片為簡單標(biāo)注方式的一種 但需要處理的數(shù)據(jù)訂單往往以「萬」為單位。最新的需求是6萬張圖片,7天內(nèi)完成。理論上這個(gè)訂單需要214個(gè)人共同工作7天,秦嬌手頭只有不到100個(gè)人,其中一部分還要完成其它項(xiàng)目。幾次秦嬌都對著電話那頭擺出不耐煩的神情,「你跟他說,要我去死好不好」。 與擁有1,500萬張標(biāo)注圖片的數(shù)據(jù)集ImageNet相比,只有6萬張圖片的項(xiàng)目顯得十分渺小。不過大部分人可能很難想象,是來自167個(gè)國家的48,940名工作者,花費(fèi)了2年時(shí)間,清理、分類、標(biāo)記了近十億張通過互聯(lián)網(wǎng)搜集到的圖片,才得到這個(gè)有1,500萬張圖片的數(shù)據(jù)集。其所耗費(fèi)的時(shí)間與人力,遠(yuǎn)非一般項(xiàng)目可比。 數(shù)據(jù)龐大又開源,ImageNet很快成為成為研究圖像識別的首選。不論AndrewNg(吳恩達(dá))還是JeffDean,涉足這一領(lǐng)域研究者都使用過ImageNet。但I(xiàn)mageNet有自己的弱點(diǎn),標(biāo)注框太大、標(biāo)注方式少和不時(shí)出現(xiàn)的錯(cuò)誤,使它難以被用來訓(xùn)練實(shí)際應(yīng)用的算法模型。 人工智能公司們必須想盡辦法,積累符合自身應(yīng)用方向,標(biāo)注得更細(xì)致、更準(zhǔn)確的數(shù)據(jù)。在初創(chuàng)公司招聘工程師的需求中,「有收集標(biāo)注數(shù)據(jù)的能力」有時(shí)也會被寫進(jìn)其中。某種程度上,高質(zhì)量的標(biāo)注數(shù)據(jù)決定了一家人工智能公司競爭力。 盡管互聯(lián)網(wǎng)的確催生了浩如煙海的內(nèi)容,但標(biāo)注這件需要耐心和專注的「小事」,暫且還要靠人的幫忙。 二 在專業(yè)的數(shù)據(jù)標(biāo)注公司出現(xiàn)前,眾包平臺往往是大部分公司的選擇。 人們認(rèn)為靈活性更高的眾包方式能適應(yīng)不穩(wěn)定的數(shù)據(jù)需求,價(jià)格成本也更低。某知名數(shù)據(jù)眾包平臺據(jù)稱擁有超過5,000名數(shù)據(jù)標(biāo)注專員,單日可處理超過200萬條數(shù)據(jù),能「穩(wěn)定提供數(shù)據(jù)標(biāo)注服務(wù)」。

數(shù)據(jù)標(biāo)注是所有數(shù)據(jù)眾包平臺的核心業(yè)務(wù),除此之外還有數(shù)據(jù)清洗、數(shù)據(jù)采集等等 不過從單日單人數(shù)據(jù)比(400條數(shù)據(jù)/人)可以推測出,其標(biāo)注質(zhì)量也許并非所說的那么可靠。由于參與眾包標(biāo)注的工作者數(shù)量很多,專業(yè)背景和工作能力參差不齊,「收集到的標(biāo)注內(nèi)容中存在噪聲甚至錯(cuò)誤,不能直接作為正確的標(biāo)注使用」早已是不爭的事實(shí)。如何解決眾包平臺的質(zhì)量缺陷,已經(jīng)成為近年來博碩士論文的議題之一。 通過數(shù)據(jù)交易平臺購買已標(biāo)注好的數(shù)據(jù)包也是一種選擇。但問題似乎又繞回為什么人工智能公司要自己標(biāo)注數(shù)據(jù):不同的應(yīng)用方向需要的數(shù)據(jù)內(nèi)容不同,甚至標(biāo)注方式也不同。 秦嬌目前所在的這家公司,瞄準(zhǔn)的就是這片市場““人工智能公司需要的數(shù)據(jù)既要根據(jù)需求定制,又要保證標(biāo)注質(zhì)量,同時(shí)數(shù)量還十分龐大。大部分人工智能公司自身和眾包平臺都無法同時(shí)滿足這三種要求,因而誕生了專業(yè)的數(shù)據(jù)標(biāo)注公司。 這家「數(shù)據(jù)加工」公司的一二層,全部是負(fù)責(zé)標(biāo)注數(shù)據(jù)的員工。為滿足不同訂單需求,員工們被劃分成不同小組: 有的小組負(fù)責(zé)勾畫圖片中人體的關(guān)節(jié)點(diǎn),將復(fù)雜的瑜伽姿勢抽象成點(diǎn)和線,可以用來訓(xùn)練識別人體體態(tài)的模型; 有的小組要為路況圖片中的車輛、摩托車、自行車和行人打上邊框,并標(biāo)注行進(jìn)方向和是否有遮擋,這類圖片多用來訓(xùn)練智能安防攝像頭的識別能力; 有的小組需要分毫不差的描繪建筑物的邊緣,將靜止畫面中鱗次櫛比的大樓一一分割,標(biāo)注成不同的色塊,這類數(shù)據(jù)多用在自動駕駛中車輛對環(huán)境的認(rèn)知; 有的正將雷達(dá)掃描出的障礙物3D線條一一還原成實(shí)物,長方體是建筑、綠色的是樹木,這些內(nèi)容會被用來訓(xùn)練雷達(dá)數(shù)據(jù)和真實(shí)世界的關(guān)聯(lián)性。

標(biāo)注作業(yè)有時(shí)并不簡單,比如這種關(guān)聯(lián)性標(biāo)注 除圖片外,這里還有負(fù)責(zé)視頻標(biāo)注的員工。她們需要從每段視頻中抽出10幀,標(biāo)注相近兩幀中物體的方向和坐標(biāo)的變化。這些數(shù)據(jù)也許會被用來訓(xùn)練機(jī)器對物體連貫性的感知,也許用來訓(xùn)練機(jī)器預(yù)判物體的位置變化。 與大部分制造業(yè)類似,這里的各個(gè)小組都有自己的管理者。管理者之上是項(xiàng)目經(jīng)理,然后才是秦嬌這樣為數(shù)不多的高層管理者。員工「生產(chǎn)」的內(nèi)容會經(jīng)過質(zhì)檢人員的核驗(yàn),全部合格后才會最終交付項(xiàng)目方。嚴(yán)格的流程和管理制度,保證了穩(wěn)定的標(biāo)注效率和質(zhì)量。 「很多人認(rèn)為大數(shù)據(jù)就是呼叫中心,我們發(fā)展的大數(shù)據(jù)和其他人不一樣,整個(gè)貴州只有我們做數(shù)據(jù)精加工?!箤τ诠灸壳霸谧龅臉I(yè)務(wù),秦嬌顯得非常驕傲。 的確,這些結(jié)構(gòu)化后數(shù)據(jù),將成為這場人工智能大潮中的公司們的立足之本。不僅幫助它們提升模型的準(zhǔn)確度、提升產(chǎn)品的可靠性,甚至影響它們的發(fā)展軌跡和融資進(jìn)程。 三 「數(shù)據(jù)加工」公司所在地距「大數(shù)據(jù)之城」貴陽五十多公里,是一座只接受科技公司入駐的「數(shù)字小鎮(zhèn)」。剛剛落成入駐率不高,加上位置偏遠(yuǎn)、人跡罕至,園區(qū)顯得十分安靜。

小鎮(zhèn)多是這樣的彩色尖頂小樓,綠化豐富,十分安靜 有趣的是盡管位處山林之中,小鎮(zhèn)的隔壁有一間規(guī)模不小的高職學(xué)校,學(xué)校的學(xué)生構(gòu)成了這家公司目前主要的員工來源。除上課外,學(xué)生們每天有大約6個(gè)小時(shí)可以工作,「易于管理、盡職盡責(zé)」是秦嬌給這些學(xué)生的評價(jià)。 高職學(xué)校初建的目的是教育扶貧,因此學(xué)生們大多來自貧困山區(qū),學(xué)校會提供不少補(bǔ)助和獎(jiǎng)學(xué)金。在數(shù)據(jù)加工公司兼職賺來的錢不僅足夠生活,有些學(xué)生還會拿出一部分補(bǔ)貼家用。偶爾這份工作還能成為職業(yè)跳板,「我們的學(xué)生踏實(shí)又努力,有的去北京實(shí)習(xí),因?yàn)槭煜?biāo)注工作、又認(rèn)真,反饋回來說比同樣實(shí)習(xí)的北京大學(xué)生強(qiáng)得多」。 學(xué)校走廊的墻上也貼著不少相似的學(xué)生案例。在描述學(xué)生們?nèi)雽W(xué)前情況的文字中,不可避免的包含著「貧窮」、「雙亡」、「殘疾」等詞匯。其中一張照片中父親、母親和學(xué)生坐在寨樓的木板地上,身后昏暗的空間里沒有任何擺設(shè);另一張照片中的學(xué)生摟著患病的哥哥;還有一張照片,面無表情的學(xué)生正坐在床一樣的地方,背景是用黑白報(bào)紙糊著的墻。后來,她們都憑努力改變了自己和家庭的命運(yùn)。 對這份工作能帶給學(xué)生的機(jī)會與回報(bào),「數(shù)據(jù)加工」公司的COO李政同樣十分篤定。但比起秦嬌對于數(shù)據(jù)標(biāo)注行業(yè)的信心滿滿,他則顯得有些憂心忡忡。畢業(yè)于北京航空航天大學(xué)的他清晰的意識到,現(xiàn)階段的數(shù)據(jù)標(biāo)注還是勞動密集型產(chǎn)業(yè),和南方工廠沒什么不同。學(xué)生們都只是流水線上來料加工的一環(huán),處在價(jià)值鏈的底端。只有向前一步,找到更深入行業(yè)的業(yè)務(wù)模式,才能從已經(jīng)開始熱絡(luò)的數(shù)據(jù)加工行業(yè)中脫穎而出。 摸索了近一年,李政拓展了包括采集數(shù)據(jù)在內(nèi)的不少業(yè)務(wù)。所謂采集數(shù)據(jù),是指自主拍攝符合項(xiàng)目方要求的人像圖片,如一個(gè)人正面、45度、60度以及佩戴各類裝飾物的照片。這些圖片可以用來訓(xùn)練計(jì)算機(jī)對于同一張人臉在不同狀態(tài)下識別的準(zhǔn)確性和關(guān)聯(lián)性,是目前大部分專注人臉的計(jì)算機(jī)視覺公司都有的需求。 有時(shí),表情也在規(guī)定在數(shù)據(jù)采集的要求中 在自己搭建的攝影棚中,「數(shù)據(jù)加工」公司已經(jīng)完成了好幾份訂單。主角當(dāng)然還是學(xué)生們,她們排隊(duì)依次進(jìn)入影棚,按照要求擺好姿勢拍下幾張照片后,再分別戴上口罩、墨鏡、帽子繼續(xù)拍攝。一套照片往往包含10幾張,一天能拍攝100多套。比起安防公司自己搜集或拍攝照片,這套標(biāo)準(zhǔn)流程和足夠的樣本數(shù)(學(xué)校至少有上千個(gè)學(xué)生)的確有不小競爭力。 除此之外,她們還可以承接小語種的語料收集工作。地處西南、臨近東南亞,當(dāng)?shù)氐娜穗H關(guān)系鏈和頻繁的商務(wù)交往能提供不少便利。 「只做來料加工肯定不行,」李政非常堅(jiān)定,「我們最近正在培訓(xùn)一些技術(shù)人員,懂技術(shù)才能和項(xiàng)目方更好的溝通需求,把需求更好的描述出來,我們才能更好的滿足?!?四 「標(biāo)注真的是個(gè)辛苦活?!固崞稹笖?shù)據(jù)標(biāo)注」四個(gè)字,華院數(shù)據(jù)的首席科學(xué)家尹相志不禁咧了咧嘴。 幾個(gè)月前,華院數(shù)據(jù)剛剛舉辦過一次大數(shù)據(jù)應(yīng)用比賽,包含識別復(fù)雜圖像中的動物、通過行車紀(jì)錄儀的圖像還原駕車操作場景等多個(gè)環(huán)節(jié)。在「通過賣場貨架圖片自動計(jì)算產(chǎn)品的貨架占有率」這項(xiàng)測試中,她們拍攝了1600多張真實(shí)的貨架圖片作為原始數(shù)據(jù)。 比賽的目的,是通過不到兩千張的「小數(shù)據(jù)樣本」,實(shí)現(xiàn)往往需要大量樣本才能實(shí)現(xiàn)的圖像識別。為了讓比賽的難度不那么「變態(tài)」,她們還為選手們提供了「精細(xì)化標(biāo)注」后的貨架圖片““所謂精細(xì)化標(biāo)注,就是貨架上每一包緊挨著的零食、泡面,都要延邊緣仔細(xì)劃分。 圖中左側(cè)為從真實(shí)貨架照片中挖取出的同類商品碎片;右側(cè)為對貨架上不同商品的標(biāo)注,每種灰度對應(yīng)一種商品 「深度學(xué)習(xí)最大的問題還是樣本數(shù),這里考的其實(shí)是怎樣通過小樣本進(jìn)行學(xué)習(xí)?!雇ㄟ^這項(xiàng)挑戰(zhàn)的訣竅之一,是將原本1000多張圖片根據(jù)提供的邊緣裁切保留純粹的產(chǎn)品圖像,透過數(shù)據(jù)增強(qiáng)技術(shù)放大到數(shù)十萬張,再根據(jù)這些增強(qiáng)后的圖片建模就可以減少誤差。精細(xì)化標(biāo)注不僅能幫助解決樣本稀少的問題,對于過往需要幾十萬圖片才能訓(xùn)練模型的模式也帶來了啟發(fā)。 不過精細(xì)化標(biāo)注并不是什么容易事,這一千多張圖片的標(biāo)注耗費(fèi)了12個(gè)人大半個(gè)月時(shí)間,負(fù)責(zé)標(biāo)注工作的組員「幾近崩潰」。如果有人能承擔(dān)復(fù)雜標(biāo)注這項(xiàng)令人「崩潰」的工作,并善于滿足復(fù)雜的標(biāo)注要求,人工數(shù)據(jù)標(biāo)注能成為一項(xiàng)長遠(yuǎn)發(fā)展的產(chǎn)業(yè)嗎? 「近期需求還是很大,」尹相志想了想,「但這個(gè)行業(yè)可能只有5年時(shí)間,大家都在想各種辦法,比如開源,比如小樣本學(xué)習(xí)本身。」 除了小樣本學(xué)習(xí),人們也在思考是否能合成數(shù)據(jù)。圖像識別領(lǐng)域的研究者們正在嘗試通過圖形學(xué)方法,制造出逼真的、和真正訓(xùn)練圖像非常相似的圖片。理論上這種方法能夠產(chǎn)生大量直接帶有標(biāo)注的數(shù)據(jù),但能不能「真實(shí)」,還需要圖形學(xué)上的進(jìn)步。 ImageNet的締造者李飛飛同樣意識到精細(xì)化標(biāo)注的力量,正在進(jìn)行一份名為「VisualGenome」的工作。VisualGenome有更多、更窄的框,更詳細(xì)的名詞標(biāo)注,以及位置關(guān)系和動作關(guān)系。目前VisualGenome中有10.8萬張圖片。 對于數(shù)據(jù)標(biāo)注這件不大不小的麻煩事,每個(gè)從業(yè)者都有自己的看法。有人諱莫如深,將話題轉(zhuǎn)換成互聯(lián)網(wǎng)是最龐大的數(shù)據(jù)集;但事實(shí)上所有人都知道采集到的數(shù)據(jù)無法直接使用。有人坦誠不少數(shù)據(jù)需要學(xué)生兼職或靠自己的員工標(biāo)注,對質(zhì)量的不滿促使有些公司干脆成立了數(shù)據(jù)標(biāo)注部門;還有人透露,如果用對了關(guān)鍵詞,在淘寶也能找到不少外包商。 不過每個(gè)人或多或少都樂觀相信,5年后就不再需要這么多人力,無監(jiān)督學(xué)習(xí)、小樣本或者自動生成數(shù)據(jù)會發(fā)揮更大作用。 可那些傾注人們心血標(biāo)記而成、精巧如藝術(shù)品的標(biāo)注圖片,5年后的計(jì)算機(jī),真的不再需要它們了嗎? 五 在知乎「大公司里面有人專門負(fù)責(zé)標(biāo)注數(shù)據(jù)嗎?」問題下,共有21個(gè)回答。來自大公司的回答者們表示曾「發(fā)動全部門人對幾萬張圖進(jìn)行人肉打標(biāo)」,或是將工作「安排在人力成本比較低的分公司」。小公司們則將數(shù)據(jù)「交給隔壁全是女性的部門標(biāo)」,或是「省錢就自己人標(biāo)了」。除此之外,交給外包公司是頻率最高的選項(xiàng)。 從招聘網(wǎng)站發(fā)布的職位需求也可略窺一二。在智聯(lián)招聘中鍵入「數(shù)據(jù)標(biāo)注」,可以找到60個(gè)直接相關(guān)職位。在拉勾網(wǎng)則能找到近400個(gè)““管理外包團(tuán)隊(duì)等相關(guān)職位也被算入其中。以兼職為主題的豆瓣小組和百度貼吧,也從滿屏的寫軟文、寫小說、寫評論,開始夾雜數(shù)據(jù)標(biāo)注的兼職招募。 看起來,在人工智能行業(yè)火熱、大量創(chuàng)業(yè)公司涌現(xiàn)的當(dāng)下,數(shù)據(jù)標(biāo)注是一門不錯(cuò)的好生意。 2009年,張彤禾曾在《打工女孩》中描述過一群背井離鄉(xiāng),來到東莞獨(dú)自打拼的女孩。她們剛剛十八九歲,甚至尚未成年,便離開學(xué)校在工廠里不分晝夜的工作。流水線上的女工,既不了解自己正在生產(chǎn)什么,也不知道自己的工作「秋西」(QC)就是「質(zhì)量檢測」。不論工作還是生存環(huán)境都相當(dāng)惡劣,晚上去小吃街就算改善生活,往往也缺乏精神娛樂。 但與印象中打工者的刻板形象不同,她們既不短視,也不壓抑。她們不在乎15個(gè)人共用一個(gè)房間,50個(gè)人共用一個(gè)洗手間。占據(jù)她們頭腦的是,多久才能存夠買房子的錢?該如何晉升或者干脆跳到更有前景的崗位?所剩無幾的周末,是該學(xué)習(xí)計(jì)算機(jī)、英語還是別的什么? 與馬克思那份工人與生產(chǎn)物分離后,失去了滿足和快樂的「資本主義的悲哀」不同,「分離」改變的不一定是她們的社會地位,而是她們的思想?;ㄙM(fèi)時(shí)間制造的東西并不能代表制造者本身,賺來的錢花在了哪兒、讓她們學(xué)會了什么技能、如何改變了她們,才更加重要。 「我們手上的iPod、腳上的Nike、肩上的Coach,無形中改變了數(shù)百萬人的工作、婚姻、生活和思想。」 也許數(shù)據(jù)標(biāo)注同樣如此。在探討這個(gè)行業(yè)存在的合理性與是否能長久發(fā)展之前,能帶給從業(yè)者的改變就已足夠振奮人心。 但我們?nèi)圆荒芡涍@些人的付出。盡管她們面目不清,從未被人提起。 題圖為亞馬遜眾包平臺AMT平臺工作者KristyMilland,目前該平臺有大約50萬名數(shù)據(jù)標(biāo)注的工作者。 文中秦嬌、李政均為化名

« 摩拜在手,說走就走 | 海象理財(cái):輕松九招理好財(cái) »

丰顺县| 汨罗市| 中江县| 三门县| 西畴县| 长丰县| 明水县| 米易县| 石台县| 太仓市| 郯城县| 右玉县| 石楼县| 河池市| 庐江县| 邯郸县| 苗栗市| 青冈县| 兰州市| 封开县| 贞丰县| 苏尼特右旗| 清丰县| 麻栗坡县| 友谊县| 元阳县| 海门市| 涟水县| 伊吾县| 云林县| 汉阴县| 满城县| 定兴县| 涟源市| 宝应县| 邢台市| 虞城县| 南昌市| 老河口市| 佛教| 彭阳县|