互聯網創業最流行的一句話就是:站在風口上,豬也能飛起來。
所以尋找風口,是大大小小的公司都不輕易放棄的事情。最近火熱的智能音箱便是“人工智能”風口下的產物。
有趣的是,雖有美國亞馬遜的echo出貨量超過700萬臺的案例在前,但智能音箱這頭“豬”在中國的起飛卻磕磕碰碰,格外笨重。
現在,隨著中國的智能音箱的產品越來越多,叮咚音箱、小雅AI音箱、天貓精靈X1、小米AI音箱等——風口,好像起風了?
對此,筆者有以下一些思考,讓我們一步一步來分析。
智能音箱的核心是語音技術,而語音技術涉及到大數據分析、深度神經網絡等,本身屬于人工智能技術的一種。所以說智能音箱是人工智能技術的產物并不為過。
但是,這也給了很多消費者誤解,認為智能音箱就是人工智能。嚴謹地說,這個差別還是很大的。
如果大家有體驗過任意一款智能音箱,可以發現它在語言的邏輯理解上存在著根本的缺陷。這是因為整個語音交互背后的自然語言理解,依然是傳統的關鍵詞人工匹配為主。
所以,智能音箱目前只是語音合成、語音識別等人工智能技術綜合應用的產品,但本身不是人工智能。
對于為什么智能音箱在歐美大賣,在中國卻一直火不起來的原因分析有很多。
但作者提供這么一個角度——智能音箱的市場容量,本身是音箱市場容量的一個延伸。并且這個音箱市場,還得排除掉和電視匹配的家用客廳音箱。
為什么說智能音箱市場容量脫離不了音箱本身?
用戶買智能音箱,可以大體分為2類。
對于第二類用戶,數量其實是非常有限的。從用戶畫像上看,第二類用戶對互聯網關注度也高。可是目前智能音箱比較糟糕的用戶體驗和不完整的生態,還不能觸碰到他們的G點。
所以智能音箱的絕大部分銷量,離不開本身對購買音箱有需求的消費者。
這從國外的echo用戶交互數據上也可看出,播放音樂依然是占比最大的用戶行為,像問天氣、閑聊反倒是低頻次的行為,用戶基本嘗嘗鮮,沒了新鮮感,這類行為頻率就降到很低了。
(echo用戶使用習慣)
有趣的是,大部分中國人還是更喜歡佩戴耳機聽音樂。它的原因包括了中國人內斂的性格、較小的房屋居住面積等。所以中國的智能音箱市場容量,是沒辦法和歐美相比的。
如果以電影《her》里的人工智能技術,語音助手可以是所有東西的“入口”。
但顯然,今天我們要討論的,是目前技術水平前提下,智能音箱究竟是什么的“入口”?
以目前發布的音箱分析,喜馬拉雅FM的小雅AI音箱核心是音頻內容、小米AI音箱的布局是物聯網硬件生態、天貓精靈X1甚至在嘗試把它用于購物平臺入口。
大體可以發現,比較明顯的入口是智能家居、音頻內容,搜索、購物、服務、甚至社交等。
但作者認為,目前的值得關注的入口只有2個:智能家居和音頻內容。在“百箱大戰”中真正起到核心競爭力的,也只有這2個。
理由很簡單,由于目前語音助手不像個“伴侶”,回答過于機械化,用戶對它的溝通是不存在“耐心”這一說的。
所有產生的語音交互,必須簡短、清楚。
而搜索、購物、服務、社交等功能,它們共同存在的問題是:
這2個問題對用戶體驗是毀滅性的打擊,沒人可以讓智能音箱的交互回答時間超過20秒鐘。用戶必然會通過手機、電腦替代。
所以短時間內,凡是出現這2個體驗黑洞的入口,都不會有什么起色。
智能家居入口就避免了這2個問題,以目前的語音技術,可以對控制類交互做到非常好的體驗效果,并且智能家居的交互反饋,是非常及時有效的。
音頻內容入口方面,語音搜索具備不可或缺的優勢,用戶得到的音頻,本身是結果,不是過程。所以也就避免了這2個問題。(這和前面所說的搜索入口有所不同,因為播放的音頻是獨立的,不屬于語音交互范疇)
此時,可能有人會質疑,語音助手在詢問時間、天氣等服務上的表現很不錯,并不存在這兩個問題。
這里做個解釋:
詢問時間、天氣這些是基礎服務,是沒有入口屬性的,作者這里指的“服務”是具備入口屬性的服務平臺,比如:滴滴打車。
這個問題其實是上一個問題帶來的。
由于語音助手本身接受信息和反饋信息的能力是受限的。在目前的語音技術下,一旦智能音箱的布局超出了智能家居、音頻內容2個入口,是必然要加屏幕的,否則用戶體驗上不去。
那為什么不加個屏幕呢?其實還是回到智能音箱本身,它有2個特點
這兩個特點很有意思,因為只要把其中一個改成相反的,都可以成為加上屏幕很好的條件。但這2個特點在一起后,屏幕的效率就小得多了。
智能音箱最重要的功能特性是遠場拾音,這能解放雙手,讓用戶更加自由。但智能音箱加上屏幕之后,用戶對它的操作距離一下又回到了手機的操作距離,那么用戶為什么不直接用手機呢?
所以,作者是不贊同在智能音箱上加屏幕的。
那怎么解決目前受限的用戶體驗呢?或者我們可以換個方向,屏幕需要加,但屏幕的載體不再是音箱本身——這或許有更多的想象力。
echo的出現,讓大家發現,音箱似乎是人工智能時代被選中的天之子,甚至不少人做出這樣的結論:音箱是人工智能時代最合適的載體。
當然,說人工智能太泛。我們往小點說:音箱是語音助手最好的載體嗎?
語音助手的交互方式是對人來說最自然的語音,這也決定了聲音在交互過程起到的比重前所未有的提升。
由于音箱和播放聲音有著極其緊密的關系,自然成為所有設備中的首選,從目前的狀態來看,這種選擇也是正確的。
但實際上,以音箱作為載體,最大的問題在于它和“生命”無關。
我一直堅信,語音助手最好的載體是要有“活著”的感覺,這種感覺甚至可以用“跳動的線條”來展示。
比如,一顆會凋謝、會綻開的機械花都會比音箱更適合作為語音助手的載體。
目前作者認為這方面做得最好的是“若琪”的外星人。
(若琪·外星人)
所以選擇音箱作為載體,是因為技術所限,是人類目前缺乏其他選擇下的一個妥協。