作者:王劍白
1962年,美國西雅圖舉辦了第二十一屆“萬國博覽會”,也就是我們現(xiàn)在稱呼的“世博會”,這一屆主題為“太空中的人類”,全方位展示了人類借助宇宙飛船進(jìn)行環(huán)球飛行的航天壯舉,也標(biāo)志著航天時代的來臨。
會場的標(biāo)志性建筑“太空針”,是一個立在細(xì)細(xì)長長金屬上面的飛碟,引發(fā)出某個膾炙人口的笑話:那是地球毀滅之日,美國總統(tǒng)逃往宇宙的飛船。此外,會場最受歡迎的展館是波音公司的“太空館”,可以讓觀眾體驗(yàn)10分鐘虛擬遨游銀河系的旅程,不少孩子參觀之后萌生了“太空夢”。
但同時,“明日生活”是本次世博會的隱性主題,大量預(yù)言和幻想在展出:未來的廚房里只需要按下各種按鈕,就可以為家人準(zhǔn)備晚餐;將來的電話上有個按鈕,按下就可以看到對方的臉;以后不需要種植大豆,就可以在工廠里合成各種豆制品……
在各種概念展示中,我們熟悉的IT巨頭IBM拿出了一個代號叫“鞋盒”的機(jī)器,它能理解人類口述數(shù)字0-9以及簡單的運(yùn)算口令,成為當(dāng)時世界上最先進(jìn)的語音識別機(jī)器,在今天看來如此基礎(chǔ)的功能,已經(jīng)是那個時代的“機(jī)械降神”了。
這個“鞋盒”,可以說是語音交互的起點(diǎn),但從“鞋盒”到“智能音箱”,中間走過了漫漫長路。
先有軟件,再有硬件
智能語音交互,一直以來都是人工智能業(yè)界重點(diǎn)攻關(guān)方向,讓機(jī)器明白你在說什么,是人類夢寐以求的事。此外,在機(jī)械、按鍵、觸屏之后,語音被視為人機(jī)交互下一階段的主流,因?yàn)槿说摹罢f話”是最自然、最快速、最低成本的交流方式(再往后可能是腦電波),發(fā)展智能語音,可以讓人類更加輕松便捷地進(jìn)行生活生產(chǎn)。
從AI對話的流程來看,主要分為四個技術(shù)模塊:自動語音識別(ASR)、自然語言理解(NLU)、自然語言生成(NLG)、文字轉(zhuǎn)語音(TTS),合并為AI人機(jī)對話系統(tǒng)框架,形成一個完整的對話流??梢钥吹?,這流程上的每一個環(huán)節(jié),都是人工智能高難度領(lǐng)域,因此,在IBM的“鞋盒”之后三十多年的1990,才出現(xiàn)了第一款語音識別產(chǎn)品Dragon Systems,售價6000美元,明顯沒法實(shí)現(xiàn)消費(fèi)層面的普及,概念意義遠(yuǎn)大于實(shí)際意義。
2010年后,隨著算力增長與技術(shù)突破,語音助手進(jìn)入密集爆發(fā)期,其中最為人熟知的是蘋果的Siri、谷歌的Google Now、微軟的Cortana等,與此同時,芯片等算力硬件性能提升、體型縮小,及家庭wifi的進(jìn)一步普及,讓功能強(qiáng)大的語音助手能夠棲身于更適合家庭場景的設(shè)備,“智能音箱”應(yīng)運(yùn)而生。
2014年7月9日,亞馬遜發(fā)布語音助手Alexa和智能音箱the Amazon Echo,一開始,這種產(chǎn)品并不被人所看好,因?yàn)閷?shí)用度確實(shí)不高,只能用來聽音樂、問天氣、查詢亞馬遜產(chǎn)品價格等,但隨著智能家居進(jìn)一步普及,越來越多的設(shè)備開始與Echo連接,智能音箱逐漸成為家庭的控制中樞。2017年,Alexa在美國的功能已經(jīng)超過10000種,大大豐富了Echo的適用范圍,也完成了用戶教育。
巨頭很快意識到這是一片面向消費(fèi)者的藍(lán)海,而且“占據(jù)入口”比“單品消費(fèi)”的意義更大,因此谷歌、微軟、三星都推出了自己的智能音箱設(shè)備,可以看到,雖然智能音箱是人工智能技術(shù)集成的產(chǎn)物,但一開始并不以AI作為售賣點(diǎn),更多是作為一個便捷的信息獲取設(shè)備,這時候的對話系統(tǒng)依然是一板一眼的。
就是在這樣的背景下,2017年5月4日,百度推出了自己旗下的首款消費(fèi)級人工智能設(shè)備“渡鴉”,但根據(jù)百度官方口徑,真正意義上的全自研產(chǎn)品,是在這一年后發(fā)布的“小度在家”。
小度的前世今生
按照“先有軟件,再有硬件”的邏輯,小度的前世是百度旗下AI語音助手“度秘”。2013年,李彥宏和王海峰認(rèn)為搜索的下一個入口是語音,但是語音需要一個更加具象的應(yīng)用,一開始,百度希望把自身的語音技術(shù)集成為一個智能秘書,這就是2015年“度秘”問世的由來。
今天,我們的語音對話已經(jīng)非常普及,但在當(dāng)時,AI開發(fā)者依然面臨著非常實(shí)際的問題:怎么從“一問一答”變成真正理解問題,要根據(jù)上下文理解用戶意圖,主動提供一些幫助。如果只能對話,這個系統(tǒng)的實(shí)用價值就會大大降低,而想要解決一些生活中的實(shí)際問題,就需要做到“真正理解”,非常考驗(yàn)我們上一期中提到的自然語言理解(NLU)技術(shù)。
2015年百度世界大會,“度秘”首次亮相,2017年美國拉斯維加斯CES上,“度秘”有了個新的名字——DuerOS(小度助手),可以搭載到合作伙伴的硬件上,語音、語義等大量算法和模型后續(xù)也得到了進(jìn)一步開放,幫助硬件廠商打造自己的語音控制中樞,百度下的這一手棋為它匯聚了大量生態(tài)合作伙伴。
到這個時間點(diǎn)為止,百度打磨語音技術(shù)的思路很明確——通過開放技術(shù),進(jìn)入大量形態(tài)各異的硬件中,實(shí)際上就等于占據(jù)了這些硬件的語音入口,只要廠家沒有自研語音的打算,就一定要用到DuerOS系統(tǒng),這是商業(yè)的角度;而語音技術(shù)在實(shí)驗(yàn)室外得到了更多的實(shí)踐,每一次使用都會帶來更貼近現(xiàn)實(shí)生活的反饋,比如不同的人喚出語音的習(xí)慣不同,發(fā)出語音指令會有音量、音調(diào)、方向、詞語的差異,這些都會成為DuerOS自我學(xué)習(xí)成長的“養(yǎng)分”,這是技術(shù)的角度。
大廠提供平臺系統(tǒng),對外輸出垂直能力或解決方案,這一模式在2017年前后開始流行起來,降低了許多第三方廠商擁抱人工智能的門檻。不過,百度并沒有就此停止軟件與硬件的“靈肉結(jié)合”,自研硬件的想法開始出現(xiàn)。
自研硬件,靈肉合體
在第三方硬件上積累經(jīng)驗(yàn)、“打怪升級”之后,DuerOS優(yōu)化到2.0版本,已經(jīng)可以做到“打開手機(jī)百度,播放今天的新聞,下一條,聲音大一點(diǎn),返回……”這種連續(xù)對話,交流體驗(yàn)已經(jīng)非常流暢,實(shí)現(xiàn)了高達(dá)97%的語音喚醒準(zhǔn)確率,將誤報次數(shù)被控制在24小時一次以內(nèi),具備進(jìn)一步大規(guī)模應(yīng)用的條件。
2018年,百度正式成立智能生活事業(yè)群組(Smart Living Group)SLG,開始著手打造自己的智能音箱,這里需要注意的是,互聯(lián)網(wǎng)思維與硬件思維差異很大,互聯(lián)網(wǎng)大廠經(jīng)常被人吐槽沒有硬件基因,鬧出過不少笑話,所以百度找了一個專業(yè)的人來主持這件事,他就是景鯤。
景鯤曾任微軟公司首席研發(fā)總監(jiān),也是微軟小冰的創(chuàng)造者之一,對智能語音這一塊可以說駕輕就熟,他于2014年加入百度,2018年升任百度智能生活事業(yè)群組總經(jīng)理。相比語音技術(shù)突破,景鯤更注重打造“符合中國人使用習(xí)慣”的產(chǎn)品,他認(rèn)為如果要做智能音箱,就不能忽視老人和小孩群體,這點(diǎn)與歐美產(chǎn)品思路差別很大,因?yàn)闅W美智能音箱主要面向青年至中年白領(lǐng)群體。
比如產(chǎn)品設(shè)計(jì)要基于中國用戶習(xí)慣、口音特點(diǎn)、交互訴求;使用頻率與習(xí)慣的培養(yǎng)需要被關(guān)聯(lián)上強(qiáng)有力的內(nèi)容與功能;要符合家庭場景使用習(xí)慣,不能每次都喊喚醒詞……
2018年3月26日,帶屏智能音箱小度在家誕生。這款產(chǎn)品既可以用語音控制,也可以通過觸屏控制,而且搭載了視頻觀看、視頻對話等需要屏幕的功能。通過小度在家,其實(shí)我們能看到某些消費(fèi)級人工智能產(chǎn)品的設(shè)計(jì)思路:
一是更加豐富的交互方式。如果一款產(chǎn)品僅面向Z世代人群,他的交互方式會變得極簡化,只保留Z世代最常用的那一種,比如語音或者觸屏,但是面向更廣域人群的消費(fèi)級產(chǎn)品,還需要向更多群體進(jìn)行兼容,所以小度在家系列從一開始就主打帶屏智能音箱的設(shè)計(jì),語音+觸控的交叉使用,可以最大程度囊括不同年齡段的用戶。
二是更自然的交互習(xí)慣。前面已經(jīng)提到,語音交互是人類社會下一階段的普及點(diǎn),但用戶教育一定要順應(yīng)人類直覺,而非反直覺,一開始,使用智能音箱每次都要加上喚醒詞,但我們回到家每次都要喊一聲“小度小度,把電視打開”,“小度小度,把燈關(guān)掉”無異于一種羞恥play,在2018年小度助手3.0的更新中,已經(jīng)可以不用每次都喊喚醒詞,更像人類一樣連續(xù)對話,而且能根據(jù)歷史對話紀(jì)錄不斷優(yōu)化反饋。
三是要有實(shí)用性。智能音箱剛出來的時候?qū)嵱眯圆桓?,是因?yàn)榧夹g(shù)限制,不能準(zhǔn)確理解用戶意圖,所以只能用于單純對話和一些簡單功能的接入,而且也涉及到更多第三方功能接入門檻的問題。所以在小度不斷地升級迭代中,第一方功能和第三方功能越來越豐富,尤其面向老人和兒童,大大延展了智能音箱的實(shí)用性。而且隨著我國智能家居滲透率進(jìn)一步提升,智能音箱的家庭控制中樞作用越來越突出。
小度是“基礎(chǔ)技術(shù)決定上層產(chǎn)品”的具現(xiàn)化
截至目前,小度智能音箱已經(jīng)經(jīng)過多次升級迭代,并且面向不同的人群開辟了眾多產(chǎn)品線,而它的“靈魂”DuerOS系統(tǒng)也已經(jīng)升級到7.0版本,并且向更多品類滲透——無線耳機(jī)、平板、翻譯筆、電視、健身鏡……不過,小度在第一方硬件的主力載體,仍然是帶屏智能音箱小度在家系列,并且向老人關(guān)懷和兒童教育兩大方向持續(xù)特化。
這些都建立于百度在語音交互、語言理解的技術(shù)突破之上。這里舉兩個可以大幅優(yōu)化用戶體驗(yàn)的技術(shù):
一個叫“全雙工免喚醒”,這是改變一問一答生硬模式的關(guān)鍵,讓人可以和智能音箱連續(xù)對話、多輪對話,而不用喚醒,這樣人機(jī)交互就更接近人和人之間的互動,很考驗(yàn)機(jī)器的理解能力,因?yàn)閱拘言~的誕生,是為了在理解能力略顯不足的階段,提醒機(jī)器“我要開始對你下指令”了,如果不加喚醒詞,機(jī)器不知道你在叫他;但是“全雙工免喚醒”技術(shù)可以讓機(jī)器理解人類哪些話是對自己說的,哪些話和自己無關(guān),機(jī)器知道該什么時候開啟自己的“注意力”。
另一個叫“多模態(tài)交互”,意思是在一段交流過程中,機(jī)器可以識別文字、語音、視覺、動作、環(huán)境等多種方式的交叉混用,還能形成正確的交互邏輯。比如你問小度“周杰倫今年最火的是哪首歌”,小度回答說是“是《莫吉托》,要我為你播放嗎?”,你向它比一個“OK”的手勢,它就開始播放了,這背后是先用圖形識別出人類的肢體動作,再將動作化為語言進(jìn)行理解。這種也很接近人和人之間的自然交流。
從這兩條可以發(fā)現(xiàn),百度在實(shí)驗(yàn)室關(guān)起門來做的AI底層技術(shù)研發(fā),很快就能找到應(yīng)用渠道,并且轉(zhuǎn)化為產(chǎn)品功能,這是產(chǎn)業(yè)側(cè)下場做基礎(chǔ)型研究的最大優(yōu)勢,我們常常說“產(chǎn)學(xué)研不分家”,意義就在于此。
此外,這種現(xiàn)象還帶來了另一種優(yōu)勢:在上一個人工智能周期,技術(shù)突破到實(shí)際應(yīng)用時間較長,這一方面受限于芯片等物理基礎(chǔ)設(shè)施的不完善,另一方面受限于科學(xué)家的產(chǎn)業(yè)思維沒有得到普及,因此一門技術(shù)很難快速實(shí)現(xiàn)商業(yè)化,發(fā)揮自身價值,這為2019-2020年人工智能行業(yè)整體遇冷埋下了伏筆。企業(yè)以消費(fèi)級產(chǎn)品牽引AI技術(shù)的升級迭代,可以避免一些熱錢和概念堆疊出來的“空中樓閣”,這對人工智能技術(shù)實(shí)用化意義重大。
此外,人工智能消費(fèi)級產(chǎn)品帶來的另一個益處是,消費(fèi)者群體就是一個天然的數(shù)據(jù)庫,我們知道深度學(xué)習(xí)需要數(shù)據(jù)去“喂”,以實(shí)現(xiàn)系統(tǒng)的優(yōu)化,去年3月小度智能助手月語音交互總次數(shù)就達(dá)到66億次,這加快了小度升級迭代的速度,和在實(shí)驗(yàn)室閉門造車不可同日而語。這也側(cè)面證明了,深度學(xué)習(xí)確實(shí)是促進(jìn)人工智能發(fā)展的“利器”。
如今,小度背靠百度人工智能技術(shù)優(yōu)勢,以及在宣傳營銷、現(xiàn)金補(bǔ)貼方面的資源傾斜,成功變身為網(wǎng)紅產(chǎn)品。但行業(yè)瓶頸期也隨之而來:隨著智能音箱功能性開發(fā)見底,以及疫情影響供應(yīng)鏈運(yùn)轉(zhuǎn),2020年國內(nèi)智能音箱銷量下降了8.6%。對此,2021年小度推出了很多新品類,延伸到其他的垂直場景,這也是AI底層技術(shù)具備靈活性和泛用性的優(yōu)勢所在。
接下來,我們聊一聊百度AI“三駕馬車”的另一頭:自動駕駛,同樣是自研——開放——合作——自造的道路,某種程度上,這個領(lǐng)域與人工智能行業(yè)整體趨勢更加緊密,Apollo的的曲折路線,反映了人工智能商業(yè)化之路的艱辛。(GZH:閱后即AI)
END
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請發(fā)送郵件至 sumchina520@foxmail.com 舉報,一經(jīng)查實(shí),本站將立刻刪除。