隨著亞馬遜智能音箱Echo的銷量接近千萬,Alexa無疑成為迄今為止世界上最成功的消費級人工智能產(chǎn)品。這也是人工智能領(lǐng)域的電子商務(wù)公司亞馬遜的跨境奇跡,極大地刺激了國內(nèi)各科技公司進(jìn)入語音交互領(lǐng)域。根據(jù)阿里、百度、騰訊、華為、小米、聯(lián)想、海爾、柯達(dá)迅飛等業(yè)內(nèi)人士提供的數(shù)據(jù),國內(nèi)已有200多家公司正在開發(fā)類似Echo的智能音箱。但我們真的考慮過亞馬遜的Alexa嗎?或者我們真的知道評估回聲嗎?盡管亞馬遜多年來一直在這一領(lǐng)域投資,但亞馬遜對公關(guān)的宣傳和審計一直很嚴(yán)格。事實上,亞馬遜在中國對技術(shù)細(xì)節(jié)的思考鮮為人知。在最近的Emtech數(shù)字人工智能峰會上,麻省理工學(xué)院技術(shù)部的主編Jason Pontin與亞馬遜Alexa的主管Toni Reid進(jìn)行了交談,并透露了Toni Reid對消費者語音交互系統(tǒng)的一些想法。托尼里德從無到有地經(jīng)歷了亞歷克薩出現(xiàn)的整個過程。在這次談話中,托尼里德還解釋了為什么亞歷克薩不使用屏幕和很多回合的談話。托尼里德認(rèn)為,聲音是最簡單、最自然的互動方式,也是人類最基本的溝通方式。所以當(dāng)亞馬遜為Alexa設(shè)計Echo時,它沒有添加屏幕。這種方法實際上增加了困難:用戶只能通過純語音使用設(shè)備,而無需屏幕反饋作為補(bǔ)充。當(dāng)然,亞馬遜也在嘗試在Fire TV和Kindle平板電腦等設(shè)備上部署Alexa,但這涉及到Alexa的巨大變化。ToniReid堅持說,Alexa實際上只有一次機(jī)會在用戶發(fā)出語音指令時部署相應(yīng)的操作,而不是與用戶進(jìn)行多輪對話。一般來說,只有兩個對話。如果第三次對話沒有闡明用戶的需求,那將是一個完全的失敗。這種重復(fù)的對話對用戶來說是一種糟糕的體驗。這兩點值得國內(nèi)用戶思考。從這兩點出發(fā),我們可以開始思考更多的問題。我們希望國內(nèi)產(chǎn)品能超過Echo,至少相當(dāng)于Echo的銷售和影響力。為什么亞馬遜脫穎而出?這是一個奇怪的問題,的確亞馬遜更像一個企業(yè)而不是一個高科技公司。事實上,在亞馬遜談?wù)揈cho的銷售之前,亞馬遜并沒有被業(yè)界和媒體注意到,也沒有被歸類為人工智能公司。因為與中國的谷歌、微軟、蘋果、Facebook甚至百度、阿里、騰訊等公司相比,亞馬遜不能真正生產(chǎn)出一個像樣的PPT,這通常是由其他公司的人工智能研究機(jī)構(gòu)提供的。此外,126實驗室是一家重型產(chǎn)品公司,是通過收購建立的產(chǎn)品大雜燴。更尷尬的是,Echo最初是一家產(chǎn)品公司。項目優(yōu)先級也是最后一個。為什么會出現(xiàn)這種情況?這是偶然的,也是不可避免的。從科學(xué)實驗的角度來看,偶然性真的很大。成功的實驗往往是偶然的閃現(xiàn),但這種閃現(xiàn)也是亞馬遜長期投資的必然結(jié)果。首先,亞馬遜的優(yōu)勢在于它沒有太多的技術(shù)負(fù)擔(dān)。亞馬遜顯然對建立研究機(jī)構(gòu)不感興趣。正是因為沒有太多的歷史約束,產(chǎn)品和技術(shù)才能夠更緊密地集成,而不是由工程師約束產(chǎn)品思維。尤其重要的是亞馬遜Echo的市場癥結(jié),這使得谷歌、微軟和蘋果長期積累的近場語音交互優(yōu)勢幾乎毫無意義。顯然,Alexa更了解用戶對遠(yuǎn)程語音交互的需求。其次,亞馬遜對技術(shù)細(xì)節(jié)的耐心實際上超過了像谷歌和微軟這樣的人工智能巨頭。在這里,我們需要把蘋果帶出去,因為蘋果制造產(chǎn)品的想法和亞馬遜的一致。亞馬遜和蘋果顯然對技術(shù)公關(guān)和論文興趣不大,但對產(chǎn)品和專利非常感興趣。從公司的角度來看,公關(guān)和論文確實消耗了公司的巨大精力,這可能是提高初創(chuàng)企業(yè)知名度的重要途徑,但對于成熟的公司來說,知識產(chǎn)權(quán)、產(chǎn)品和營銷能力顯然更為重要,這也決定了公司對技術(shù)的耐心。因為太多的公關(guān)和論文會使研究人員忽視對技術(shù)細(xì)節(jié)的控制。當(dāng)公司技術(shù)人員談?wù)摷夹g(shù)趨勢和架構(gòu)時,公司處于危險之中。技術(shù)落地后,誰來控制無數(shù)的細(xì)節(jié)?如果沒有持續(xù)的細(xì)節(jié)潤色,哪位用戶會付錢?經(jīng)驗總是第一位的。最后,技術(shù)人員往往陷入科學(xué)幻想,總是喜歡提前做很多事情。這在技術(shù)領(lǐng)域是必要的,但也非常重要,不允許工程師甚至科學(xué)家對產(chǎn)品定義進(jìn)行過多的干擾。它始終是滿足市場當(dāng)前需求的產(chǎn)品,以獲得用戶,而不是您的技術(shù)有多先進(jìn)。顯然,亞馬遜更輕。靈活的產(chǎn)品思維是Echo定義的一個關(guān)鍵因素,因此用戶更容易理解。2。語音交互技術(shù)是否成熟?在這個問題之前,我們可以回憶起我們周圍有多少人在平時可以和聲音互動?事實上,這是非常罕見的。除了汽車導(dǎo)航,也許大多數(shù)時候它只是偶爾的表演,也會對著手機(jī)大喊大叫。這表明語音交互根本不成熟。這是不對的,因為幾乎所有的人工智能公司都聲稱語音識別接近或超越人類。不要相信,更不用說遠(yuǎn)場語音識別了,即使近場語音識別也做不到。這些所謂的指標(biāo)都是紙面指標(biāo),只有在一組特定的測試下測量的結(jié)果,可以理解為你想要什么樣的指標(biāo)幾乎可以被優(yōu)化。那又怎么樣?有什么意義?因為我們?nèi)祟悘膩聿皇菍嶒炇依鲜?,我們不需要在實驗環(huán)境中應(yīng)用技術(shù)。語音交互包括語音識別和語義理解。從語音識別的角度來看,有許多問題需要解決。真實場景中的語音識別是語音交互著陸中首先要解決的問題。這需要考慮揚聲器和機(jī)器之間的距離,以便機(jī)器可以在房間的任何位置識別揚聲器的語音命令。這涉及到噪音、混響、回聲和其他干擾聲音的處理,這些都不能單獨通過所謂的深度學(xué)習(xí)來解決。顯然,所有人工智能相關(guān)技術(shù)的登陸都會遇到場景問題,這是物理學(xué)的一個范疇,而物理學(xué)的進(jìn)步并不像經(jīng)常召開的人工智能會議所宣稱的那樣突飛猛進(jìn)。但是對于計算機(jī)科學(xué)來說,在不解決物理問題的情況下談?wù)撊斯ぶ悄芨淖內(nèi)祟愡€為時過早。開玩笑吧,沒有電源的電腦還能工作嗎?3語音助理是否需要屏幕的問題?ToniReid提到為了讓用戶適應(yīng)語音交互的方式,Alexa故意移除了屏幕。但這并不意味著屏幕并不重要。雖然語音是最簡單和最自然的交互方式,但我們80%的信息仍然依賴于視覺采集。即使聲音相互作用,我們也依賴許多身體表情來確認(rèn)我們是否收到了有效的反饋?;芈曇彩侨绱?。
«
Facebook、Dropbox、HubSpot都是如何計算獲客成本的?
|
麥峰專注于行業(yè)內(nèi)的軟件服務(wù),將“服務(wù)”轉(zhuǎn)化為核心競爭力
»