智能語(yǔ)音登陸戰(zhàn):移動(dòng)互聯(lián)入口候選者

相關(guān)專(zhuān)題: 人工智能

  21世紀(jì)經(jīng)濟(jì)報(bào)道 趙曉悅 北京報(bào)道

  移動(dòng)客戶(hù)端“今天最后一班從北京開(kāi)往上海的高鐵什么時(shí)候發(fā)車(chē)?”再次遭遇航班取消的A先生,萬(wàn)般無(wú)奈之下掏出手機(jī),對(duì)著朋友推薦的一款名叫“出門(mén)問(wèn)問(wèn)”的微信公眾賬號(hào)發(fā)出了以上求助指令,僅僅數(shù)秒鐘,“出門(mén)問(wèn)問(wèn)”給予了備選答案。

  這只是移動(dòng)互聯(lián)掀開(kāi)的語(yǔ)言浪潮里瑣碎的日常情景之一。

  每天,數(shù)以?xún)|計(jì)的語(yǔ)音信息,通過(guò)語(yǔ)音識(shí)別技術(shù)被機(jī)器轉(zhuǎn)化為文字;它們中的一部分,又以機(jī)器學(xué)習(xí)的方式,被解析出具體的意義,在人機(jī)交互中,為用戶(hù)的語(yǔ)音搜索提供答案。

  據(jù)統(tǒng)計(jì),Google25%的移動(dòng)搜索結(jié)果來(lái)自語(yǔ)音,這一比例在百度亦突破10%;在Siri前后涌現(xiàn)的一批第三方語(yǔ)音助手,正在迅速占領(lǐng)國(guó)內(nèi)智能終端,為用戶(hù)提供各式信息查詢(xún)服務(wù)和類(lèi)Siri的簡(jiǎn)單娛樂(lè)功能;而在智能電視、導(dǎo)航、語(yǔ)言學(xué)習(xí)等領(lǐng)域,遠(yuǎn)離大眾視線的語(yǔ)音公司正在提供最基礎(chǔ)的技術(shù)支持。

  然而,在長(zhǎng)達(dá)半個(gè)世紀(jì)關(guān)于人工智能的構(gòu)想中,智能語(yǔ)音的到來(lái)卻著實(shí)顯得有些姍姍來(lái)遲。

  最關(guān)鍵的助推力來(lái)自云的成型!斑^(guò)去,龐大的計(jì)算量構(gòu)成了識(shí)別準(zhǔn)確率提高的門(mén)檻,也限制了識(shí)別的應(yīng)用場(chǎng)景(往往只能是專(zhuān)用領(lǐng)域),而現(xiàn)在的云端計(jì)算、移動(dòng)互聯(lián)網(wǎng)等終端的便捷接入,使語(yǔ)音識(shí)別越來(lái)越成為一種普遍服務(wù)能力”,關(guān)注人臉識(shí)別、語(yǔ)音分析等人工智能技術(shù)的聯(lián)想之星執(zhí)行董事劉維向記者表示。

  在中國(guó)工業(yè)和信息化部披露的未來(lái)三到五年規(guī)劃中,智能語(yǔ)音技術(shù)和產(chǎn)業(yè)推進(jìn)作為工作重點(diǎn),“智能語(yǔ)音真正成為移動(dòng)互聯(lián)網(wǎng)入口”被官方正式提出。

  不過(guò),對(duì)于行業(yè)內(nèi)的創(chuàng)業(yè)者們而言,如何將創(chuàng)新技術(shù)帶向市場(chǎng),則是一場(chǎng)曠日持久的戰(zhàn)役。從最早登上資本市場(chǎng)的科大訊飛,到后起的分布于語(yǔ)音識(shí)別和語(yǔ)義分析環(huán)節(jié)上的大小公司,難免在2B和2C的商業(yè)模式之間抉擇掙扎。是做橫向的技術(shù)服務(wù)商,還是做縱深的產(chǎn)品提供者?入口當(dāng)前,語(yǔ)音鏈條上的各家企業(yè)該如何破解產(chǎn)業(yè)化難題?

  識(shí)別之困

  走在北京海淀某高校的校園里,你可能會(huì)被人冷不丁地叫住,邀請(qǐng)你用自己的鄉(xiāng)音,照著本子,對(duì)著他手里的移動(dòng)設(shè)備,念一段日常生活的對(duì)白。

  同樣的一幕,換不同的文本,重復(fù)成百上千次。這看似“笨重”的工作,卻是智能語(yǔ)音流水線的開(kāi)端。

  在語(yǔ)音技術(shù)公司云知聲正式成立前半年,在招兵買(mǎi)馬的同時(shí),基礎(chǔ)語(yǔ)音數(shù)據(jù)的積累已經(jīng)借由外包公司悄然開(kāi)展。而這些線下采集的珍貴的海量數(shù)據(jù),能夠?yàn)闄C(jī)器提供更多模擬學(xué)習(xí)的樣本。

  云知聲聯(lián)合創(chuàng)始人、CEO梁家恩將語(yǔ)音識(shí)別的過(guò)程描述為:“通過(guò)麥克風(fēng)捕捉用戶(hù)發(fā)出的聲音,將聲波信號(hào)轉(zhuǎn)換成機(jī)器可以處理的‘發(fā)音特征’,再結(jié)合發(fā)音詞典和匯集各類(lèi)詞匯排列組合的語(yǔ)言模型,比對(duì)搜索出最接近聲音波形的句子”。簡(jiǎn)要地說(shuō),機(jī)器不必理解句子的意思,就能將語(yǔ)音自動(dòng)轉(zhuǎn)化為準(zhǔn)確的文字。

  這是語(yǔ)音技術(shù)需要攻破的第一關(guān)隘。在國(guó)內(nèi),從事語(yǔ)音識(shí)別技術(shù)的創(chuàng)業(yè)者大致分為兩個(gè)“門(mén)派”,一派來(lái)自清華,另一派來(lái)自中科院。梁家恩所在的中科院自動(dòng)化所從上世紀(jì)80年代起致力于語(yǔ)音領(lǐng)域的研究,與清華幾乎同時(shí)起步。而據(jù)一位業(yè)內(nèi)人士撰文估計(jì),全國(guó)從事語(yǔ)音技術(shù)的專(zhuān)業(yè)人才不超過(guò)一百人。

  梁家恩在大學(xué)階段即見(jiàn)證了“同門(mén)”——科大訊飛的崛起。而在移動(dòng)互聯(lián)網(wǎng)爆發(fā)之前,科大訊飛和捷通華聲聚焦于語(yǔ)音合成領(lǐng)域,這項(xiàng)在二戰(zhàn)后廣為使用的技術(shù),讓機(jī)器可以念出文本,但隨后,科大訊飛又聚焦于語(yǔ)音識(shí)別。

  不懼科大訊飛和其他眾多語(yǔ)音搜索類(lèi)勁敵,云知聲憑借一套被稱(chēng)作深度神經(jīng)網(wǎng)絡(luò)的核心技術(shù),迅速站穩(wěn)腳跟。這項(xiàng)技術(shù)增強(qiáng)了在口音和噪音環(huán)境下的識(shí)別效果,可以單獨(dú)將識(shí)別錯(cuò)誤率下降30%以上。而思必馳也使用深度神經(jīng)網(wǎng)絡(luò)技術(shù)實(shí)現(xiàn)了語(yǔ)音識(shí)別性能的提升,百度亦在今年年初專(zhuān)門(mén)成立了深度神經(jīng)學(xué)院對(duì)此進(jìn)行研發(fā)。

  在梁家恩看來(lái),語(yǔ)音識(shí)別的好處在于統(tǒng)計(jì)框架的完整性,“算法和框架在學(xué)術(shù)界都是公開(kāi)的,并沒(méi)有太大差異”,但在這個(gè)情況下,要進(jìn)一步做好只能憑硬功夫,“一樣的系統(tǒng)架構(gòu),實(shí)驗(yàn)室環(huán)境下朗讀做到90%識(shí)別率容易,但在海量用戶(hù)和實(shí)用環(huán)境下做到90%的難度還是相當(dāng)?shù)母摺保杭叶鞲嬖V記者。

  理解之惑

  “如果只有語(yǔ)音識(shí)別,我們最多實(shí)現(xiàn)了聊天,”梁家恩說(shuō),“加上語(yǔ)義理解才能跟真正的業(yè)務(wù)掛鉤!

  在語(yǔ)音產(chǎn)業(yè)的下游,語(yǔ)義分析可以所是語(yǔ)音識(shí)別的接力。簡(jiǎn)要地說(shuō),語(yǔ)義分析是對(duì)輸入的句子進(jìn)行分析,理解句子的邏輯關(guān)系,并根據(jù)邏輯關(guān)系構(gòu)造用戶(hù)需要的反饋結(jié)果。語(yǔ)義分析應(yīng)用的經(jīng)典形式是問(wèn)答或?qū)υ挕枰壤斫庥脩?hù)的輸入,然后生成答案,或者生成需要用戶(hù)補(bǔ)充的問(wèn)題。

  “旅游垂直搜索去哪兒是由用戶(hù)填表格,自然語(yǔ)義分析是替用戶(hù)直接把表格填了”,出門(mén)問(wèn)問(wèn)創(chuàng)始人李志飛打了個(gè)比方。語(yǔ)義分析將文字轉(zhuǎn)化成標(biāo)準(zhǔn)化的表格,利用開(kāi)放API的數(shù)據(jù)支持,對(duì)接垂直的搜索。

  李志飛畢業(yè)于約翰霍普金斯大學(xué)語(yǔ)言語(yǔ)音處理實(shí)驗(yàn)室(CLSP),在獲得紅杉資本和真格基金投資、確定回國(guó)創(chuàng)業(yè)之前,他在谷歌研究院開(kāi)發(fā)谷歌翻譯產(chǎn)品,其博士研究方向正是人工智能分支之一的機(jī)器翻譯領(lǐng)域。

  李志飛指出,聲音的被理解和被識(shí)別所面臨的技術(shù)問(wèn)題是迥然相異的。對(duì)語(yǔ)音識(shí)別來(lái)說(shuō),最大的問(wèn)題是噪音,不同場(chǎng)景中的環(huán)繞聲和不同人群使用的方言,聲音信號(hào)千變?nèi)f化。而語(yǔ)義分析的難點(diǎn)在于,同樣意思的句子,有著各種不同的用詞和語(yǔ)序,“比如南方航空公司和南航,上海和魔都”。

  師從國(guó)內(nèi)語(yǔ)義分析專(zhuān)家、北京交通大學(xué)賀仲雄先生的蟲(chóng)洞CEO俞志晨告訴記者,語(yǔ)義分析的技術(shù)路線分為兩種:一是靠規(guī)則庫(kù)做匹配,把語(yǔ)言規(guī)則化以后進(jìn)行配對(duì);另一種是依靠機(jī)器學(xué)習(xí)的方式,通過(guò)智能網(wǎng)絡(luò),訓(xùn)練算法!岸粋(gè)成熟的語(yǔ)音產(chǎn)品一定會(huì)使用后者”,他表示,不過(guò),在早期階段往往采用兩者結(jié)合的方式。

  但同處語(yǔ)義分析環(huán)節(jié),兩位創(chuàng)業(yè)者卻選擇以不同的方式抵達(dá)用戶(hù)。

  早期定位于實(shí)用性功能搜索查詢(xún)的蟲(chóng)洞,在Siri出現(xiàn)后受到啟發(fā),以對(duì)話的交互方式串聯(lián)了原有的一系列功能。俞志晨認(rèn)為,查詢(xún)信息是一場(chǎng)連貫的過(guò)程,需要不斷反饋和交互,才能得到準(zhǔn)確的信息,而用戶(hù)也希望在說(shuō)完后得到有人情味的回答。

  而李志飛讓出門(mén)問(wèn)問(wèn)回避了Siri式的對(duì)話“調(diào)戲”場(chǎng)景,用戶(hù)一次語(yǔ)音換一個(gè)答案。他的理由是,人們?cè)趯?duì)話中會(huì)反問(wèn)很多問(wèn)題,甚至把機(jī)器當(dāng)作自然人與之聊天!皩(duì)話管理是下一階段,F(xiàn)在先弄清楚一句話本身是什么意思——這是基本功”,李志飛說(shuō)。

  劉維表示,從技術(shù)上講,為了讓機(jī)器理解人的語(yǔ)言,確實(shí)需要從語(yǔ)音到文本、文本到理解兩個(gè)部分,但如果這兩個(gè)環(huán)節(jié)割裂開(kāi)來(lái)處理,很難真的理解自然語(yǔ)言。

  對(duì)風(fēng)險(xiǎn)投資者來(lái)說(shuō),語(yǔ)音市場(chǎng)的爆發(fā)有賴(lài)于兩個(gè)環(huán)節(jié)基本技術(shù)的共同成熟。劉維認(rèn)為,只有這樣,才能從更高的層面,也就是人機(jī)對(duì)話系統(tǒng)的層面,整合兩個(gè)技術(shù)、更加人工智能的去通過(guò)多輪次對(duì)話,反復(fù)和用戶(hù)交流,真正去理解用戶(hù)的自然語(yǔ)言,而不是簡(jiǎn)單的“語(yǔ)音聽(tīng)寫(xiě)”和“文本搜索”。

  模式之爭(zhēng)

  對(duì)于一個(gè)技術(shù)密集的語(yǔ)音行業(yè)來(lái)說(shuō),需要攻克的不只是技術(shù)難題,而更具挑戰(zhàn)性的當(dāng)屬市場(chǎng)的開(kāi)拓。

  在Siri讓更廣闊的人群了解語(yǔ)音的面容之前,一些先行者已經(jīng)開(kāi)始從行業(yè)應(yīng)用率先尋找語(yǔ)音市場(chǎng)的“登陸點(diǎn)”。

  教育領(lǐng)域或許是第一個(gè)兵家必爭(zhēng)之地。

  在自動(dòng)化所的五年時(shí)間里,從事語(yǔ)音識(shí)別核心技術(shù)研發(fā)的梁家恩,就和同事們共同開(kāi)發(fā)了一套英語(yǔ)口語(yǔ)評(píng)估系統(tǒng)。

  而在歐亞大陸的另一端,高始興和幾位劍橋大學(xué)的師生聯(lián)合創(chuàng)辦的思必馳公司,也將海外漢語(yǔ)口語(yǔ)教育作為首塊戰(zhàn)場(chǎng)。整套語(yǔ)音識(shí)別、合成和評(píng)測(cè)技術(shù),配上高漲的語(yǔ)言學(xué)習(xí)熱情和時(shí)興的資質(zhì)考試,聽(tīng)上去頗有默契、順理成章的商業(yè)模式。

  但思必馳的實(shí)踐并不順利,高始興發(fā)現(xiàn),在一個(gè)初生的市場(chǎng),關(guān)鍵并不在于“技術(shù)有多好”,“實(shí)際上,用戶(hù)對(duì)技術(shù)的理解還隔著好幾層”。

  2008年,分散而捉摸不定的漢語(yǔ)口語(yǔ)市場(chǎng)讓思必馳折戟回國(guó),重新選擇以英語(yǔ)口語(yǔ)評(píng)測(cè)為切口,開(kāi)始二次創(chuàng)業(yè),以第二代智能語(yǔ)音分析和人機(jī)對(duì)話技術(shù)為基礎(chǔ),思必馳在國(guó)內(nèi)首次實(shí)現(xiàn)了針對(duì)對(duì)話交流能力的評(píng)測(cè),并成為國(guó)際上第一個(gè)為英語(yǔ)考試口試提供完整機(jī)器評(píng)測(cè)的語(yǔ)音公司。

  當(dāng)思必馳為新東方等英語(yǔ)教育公司開(kāi)發(fā)出人機(jī)對(duì)話的口語(yǔ)學(xué)習(xí)系統(tǒng)時(shí),梁家恩的評(píng)估系統(tǒng)卻賣(mài)給了語(yǔ)音行業(yè)的龍頭企業(yè)科大訊飛。而在今年6月25日,科大訊飛以自有資金4.8億元收購(gòu)廣東啟明科技,收購(gòu)溢價(jià)達(dá)580%,后者又是一家口語(yǔ)考試測(cè)試系統(tǒng)提供商。

  顯然,競(jìng)爭(zhēng)日趨激烈的教育行業(yè)已無(wú)法承擔(dān)全部的登陸重任。思必馳正悄然將基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別和語(yǔ)音合成等技術(shù)應(yīng)用在車(chē)載系統(tǒng)等智能設(shè)備領(lǐng)域!败(chē)載天然以語(yǔ)音交互為主”,俞志晨亦預(yù)測(cè),車(chē)載導(dǎo)航和穿戴式設(shè)備將是語(yǔ)音行業(yè)中早期的市場(chǎng)爆發(fā)點(diǎn),蟲(chóng)洞選擇與深圳樂(lè)投等相關(guān)公司合作開(kāi)發(fā)語(yǔ)音。

  而上述一切儲(chǔ)備,似乎都為語(yǔ)音在移動(dòng)互聯(lián)端的登陸做出預(yù)演。人們可以數(shù)出應(yīng)用市場(chǎng)、瀏覽器、APP和手機(jī)桌面四個(gè)已經(jīng)成型的移動(dòng)互聯(lián)入口,語(yǔ)音則是呼聲日漸高漲的入口候選者。

  對(duì)于完全誕生在移動(dòng)互聯(lián)時(shí)代的出門(mén)問(wèn)問(wèn)而言,先行者們的路徑,顯然并不用過(guò)多參考。從今年4月起,為微信用戶(hù)提供生活服務(wù)查詢(xún)的出門(mén)問(wèn)問(wèn)公眾號(hào),以每月數(shù)倍的增長(zhǎng),迅速累計(jì)起超過(guò)10萬(wàn)的用戶(hù),成為微信官方推薦的十大應(yīng)用之一,遠(yuǎn)超其早一月上線的Android移動(dòng)端。


微信掃描分享本文到朋友圈
掃碼關(guān)注5G通信官方公眾號(hào),免費(fèi)領(lǐng)取以下5G精品資料

本周熱點(diǎn)本月熱點(diǎn)

 

  最熱通信招聘

業(yè)界最新資訊


  最新招聘信息