湖北瑞德车联科技股份有限公司

智能語音在最近得到了國外(wài)互聯網巨頭得到了相當程度的重視。除了蘋果推出的Siri，谷歌發布的Google Now，以及微軟推出的Cortana（小(xiǎo)娜）以外(wài)，亞馬遜近段時間大(dà)力推廣Echo智能音箱，4月份，Facebook也宣布推出聊天機器人Messenger Platform，希望建立一(yī)個對話(huà)式的系統，實現訂餐、下(xià)單、獲取資(zī)訊等各種各樣的服務。接着，谷歌在今年5月的I/O大(dà)會上就發布了Google Home智能音箱。那麽，巨頭們爲何如此心切的布局智能語音和聊天類智能硬件呢？在巨頭之外(wài)，中(zhōng)國的諸多創業公司也開(kāi)始聲勢漸起。

智能語音和聊天機器人都有哪些進步？

目前聊天機器人的火(huǒ)爆，從技術角度看，微軟小(xiǎo)娜項目負責人闫勃認爲主要有兩點，一(yī)是得益于語音識别的提高，二是創業企業對垂直領域的語義理解技術的增強。這是做智能語音的企業從訓練上拿到了更多語量，從實際的硬件産品使用上有了更多的用戶數據。

從語音識别角度看，一(yī)些企業已經不僅僅限于識别文字，已經出現了識别語調甚至定制人的聲音。據國内創業企業思必馳CMO龍夢竹介紹，思必馳已經能夠做到隻需通過很短時間的訓練數據，比如20分(fēn)鍾或半小(xiǎo)時，就能做出定制人的聲音。當然，因爲訓練素材的問題，所以它的還原度沒有那麽高，不會像剛才的童音和名人聲音那麽真實，但至少能聽(tīng)出這個人的屬性，讓未來的聲音可以定制化。

而在語義理解上，出門問問NLP工(gōng)程師李理稱，出門問問在語義分(fēn)析做了很多事情，一(yī)是問答系統，包括回答垂直領域的問答。比如對60多家服務提供查詢，比如查天氣、查周圍餐館、講笑話(huà)、切換歌曲和導航。另一(yī)個是通用領域的問答，比如“劉德華的老婆是誰？”“北(běi)京有多少人口？”等等。目前，出門問問已經針對不同場景和服務做了多輪對話(huà)業務，比如訂餐、訂咖啡、打車(chē)、手機充值，包括訂票(piào)、送貨、上門服務等。

從産業的角度看，雲知(zhī)聲CTO梁家恩認爲，聊天機器人的火(huǒ)爆是因爲人工(gōng)智能已經進入産業化階段。在産業化的過程中(zhōng)，感知(zhī)、認知(zhī)和通用智能是三個不斷深化發展的過程。目前市場正處于從感知(zhī)到認知(zhī)的變化過程。感知(zhī)過程主要是從信号到符合辨識的問題，以前機器智能隻能接受确定性符号，對于圖像、語音這種變化性比較大(dà)的符号是沒辦法解決的。現在随着深度學習的推動個，不管是語音還是圖像都取得了大(dà)的突破性進展，包括深度學習也在自動駕駛方面起到了非常好的結果。

智能語音是不是下(xià)一(yī)個互聯網入口？

PC時代，浏覽器成爲了互聯網的一(yī)道入口；到了移動互聯網時代，以App Store爲代表各類應用商(shāng)店(diàn)成爲了入口。而到了IOT（物(wù)聯網）的時代，人工(gōng)智能助手可能會成爲入口。ROOBO CTO雷宇認爲，從入口上可以看到用戶界面的交互方式，最早看到的是Web，然後是App，到了新時代可能是自然語言。

海知(zhī)智能CEO謝殿俠也認爲，從鍵盤、鼠标到觸摸屏、再到語音交互或者說自然語言交互，這實際上是三個時代的變革。實際上，作爲業内很少露面的公司，海知(zhī)智能的業務主要還是向開(kāi)發者提供語義API接口，幫助開(kāi)發産品。謝殿俠預計，到2020年人人事事物(wù)物(wù)都有自己的bot，就像皇帝有”三宮六院七十二妃“一(yī)樣，達到需求的爆發。

關于智能語音與互聯網相結合的未來的發展路徑，雷宇稱，現在所謂聊天機器人和Bot的基本框架，簡單來講它首先有一(yī)個載體(tǐ)。對于軟件機器人，肯定是有超級App，Facebook在上面的野心是非常大(dà)的。包括騰訊的微信，從某種意義上，微信公衆号也可以認爲是機器人，隻不過這個機器人和聊天系統比較隔離(lí)。之後一(yī)定會有智能助手出現，這是它的體(tǐ)現形式。然後後面是有很好的Bot Framework，微軟在這方面做得不錯。最後還有一(yī)個服務方，因爲一(yī)個企業不可能解決所有服務，因爲用戶最終還是要它。

聊天機器人目前的發展瓶頸到底是什麽？

然而，雖然以智能語音爲基礎的聊天機器人在近期獲得了很大(dà)的發展，市場上也推出了一(yī)大(dà)批聊天類機器人。但是，這些機器人和智能語音技術仍然面臨語義理解不準确、用戶黏性不強等問題。謝殿俠在沙龍上一(yī)針見血的指出，語言是思維的一(yī)種表述，語言本身有多樣性，也有多義性，你怎麽能夠用現在二進制的計算機來理解多樣性和多義性的語言呢？

雲知(zhī)聲CTO梁家恩認爲，聊天機器人面臨的困難是不斷的進行學習，而在機器學習方面面臨的最大(dà)困難就是缺乏一(yī)個穩定性泛化能力。通俗的說，就是我(wǒ)們在實驗室用得很好，在現實的複雜(zá)環境中(zhōng)卻很難用起來。雖然目前的聊天機器人和特定的服務結合後獲得了一(yī)些發展，但是如何解決随着數據積累越學越聰明，現在整個業界還沒有特别好的機制和辦法做這個工(gōng)作。

龍夢竹認爲，聊天機器人的最大(dà)瓶頸是缺乏人機交互，它的外(wài)觀做得再漂亮，也不過是一(yī)個玩具。龍夢竹還稱，我(wǒ)們在機器人裏遇到的最大(dà)障礙就是遠場交互的問題。現場很多廠商(shāng)隻能做到5米内的聲源定位。

至于如何解決聊天機器人面臨的困境，謝殿俠認爲，智能語音這塊要突破，第一(yī)還需要巨大(dà)的數據、好的算法，甚至可能牽涉到現在計算機的結構，另外(wài)知(zhī)識圖譜也是很大(dà)的挑戰。闫勃認爲，關于人工(gōng)智能發展有幾個絕對因素，一(yī)是核心産品，二是生(shēng)态性，隻有産品落地，才能反哺整個技術在産品層面的再發展。

哪些語音交互場景最具增長潛力？

智能語音技術和聊天機器人得到了較大(dà)程度的提升，但又(yòu)面臨一(yī)些問題。面向未來，創業企業該如何發展？哪些語音交互場景會成爲最具潛力的市場？

關于智能語音交互的未來場景，沙龍嘉賓都表示，智能語音的技術應用應該集中(zhōng)在垂直領域上，例如小(xiǎo)孩和老人。闫勃提醒到，智能語音的市場突破一(yī)定要有特定的人群、特定場景來體(tǐ)現。在具體(tǐ)場景上，雷宇認爲，有潛力的使用場景是客服以及功能、助理類的場景。感情機器人和閑聊還有很長的路要走。龍夢竹則認爲，智能語音目前被看好的交互場景應該是車(chē)載。這是因爲家庭的場景太複雜(zá)，還需要數年的進步，但車(chē)載對于語音控制和對話(huà)是剛需。

謝殿俠稱，目前智能語音技術應用的關鍵有三點，一(yī)是找到用戶的痛點，落地到具體(tǐ)的産品。二是讓機器人能懂得每句話(huà)的意思，理解準确。三是發展用戶量。謝殿俠認爲，從具體(tǐ)的能夠突破的用戶場景上，家庭裏的智能音箱類産品會起來。第二塊是出行領域，比如車(chē)載控制和對話(huà)會逐漸火(huǒ)熱。第三塊是辦公領域，将會有各種各樣專業的知(zhī)識工(gōng)作者會在或大(dà)或小(xiǎo)的程度被簡化或者被替代。

從産業鏈的角度看，不同于其他幾家通過豐富的服務把信息查詢到信息服務打成閉環的模式，出門問問的思路是做一(yī)個領域必須要從硬件、軟件、操作系統各個環節都能深度定制，他們認爲隻有這樣才能帶給用戶最好的體(tǐ)驗。

放(fàng)眼更遠的未來，闫勃認爲，人工(gōng)智能下(xià)一(yī)階段的發展，在電(diàn)影作品、文學作品裏，第一(yī)部最突出意義上的感情交流就是《HER》這部電(diàn)影，主人公和人工(gōng)智能（虛拟人）之間産生(shēng)了情感交流。闫勃稱，微軟也會大(dà)力提倡“情感交流”的概念，這樣才能讓智能語音真正走近一(yī)個爆發點。

智能語音做下(xià)一(yī)個交互入口 哪些場景才是未來？

智能語音做下(xià)一(yī)個交互入口哪些場景才是未來？