巨靈鳥

    電話   4000156919
    當前位置:首頁 > 網(wǎng)絡(luò)和服務(wù)器管理_ERP百科

    語音識別技術(shù)簡史(三)

    來源:巨靈鳥軟件  作者:進銷存軟件  發(fā)布:2017/5/11  瀏覽次數(shù):5204

    語音識別的產(chǎn)業(yè)歷程
    語音識別這半個多世紀的產(chǎn)業(yè)歷程中,其中共有三個關(guān)鍵節(jié)點,兩個和技術(shù)有關(guān),一個和應(yīng)用有關(guān)。第一個關(guān)鍵節(jié)點是 1988 年的一篇博士論文,開發(fā)了第一個基于隱馬爾科夫模型(HMM)的語音識別系統(tǒng)—— Sphinx,當時實現(xiàn)這一系統(tǒng)的正是現(xiàn)在的著名投資人李開復。

    從 1986 年到 2010 年,雖然混合高斯模型效果得到持續(xù)改善,而被應(yīng)用到語音識別中,并且確實提升了語音識別的效果,但實際上語音識別已經(jīng)遭遇了技術(shù)天花板,識別的準確率很難超過 90%。很多人可能還記得,在 1998 年前后 IBM、微軟都曾經(jīng)推出和語音識別相關(guān)的軟件,但最終并未取得成功。

    第二個關(guān)鍵節(jié)點是 2009 年深度學習被系統(tǒng)應(yīng)用到語音識別領(lǐng)域中。這導致識別的精度再次大幅提升,最終突破 90%,并且在標準環(huán)境下逼近 98%。有意思的是,盡管技術(shù)取得了突破,也涌現(xiàn)出了一些與此相關(guān)的產(chǎn)品,比如 Siri、Google Assistant 等,但與其引起的關(guān)注度相比,這些產(chǎn)品實際取得的成績則要遜色得多。Siri 剛一面世的時候,時任 Google CEO 的施密特就高呼,這會對 Google 的搜索業(yè)務(wù)產(chǎn)生根本性威脅,但事實上直到 Amazon Echo 的面世,這種根本性威脅才真的有了具體的載體。

    第三個關(guān)鍵點正是 Amazon Echo 的出現(xiàn),純粹從語音識別和自然語言理解的技術(shù)乃至功能的視角看這款產(chǎn)品,相對于 Siri 等并未有什么本質(zhì)性改變,核心變化只是把近場語音交互變成了遠場語音交互。Echo 正式面世于2015年6月,到 2017 年銷量已經(jīng)超過千萬,同時在 Echo 上扮演類似 Siri 角色的 Alexa 漸成生態(tài),其后臺的第三方技能已經(jīng)突破 10000 項。借助落地時從近場到遠場的突破,亞馬遜一舉從這個賽道的落后者變?yōu)樾袠I(yè)領(lǐng)導者。

    但自從遠場語音技術(shù)規(guī)模落地以后,語音識別領(lǐng)域的產(chǎn)業(yè)競爭已經(jīng)開始從研發(fā)轉(zhuǎn)為應(yīng)用。研發(fā)比的是標準環(huán)境下純粹的算法誰更有優(yōu)勢,而應(yīng)用比較的是在真實場景下誰的技術(shù)更能產(chǎn)生優(yōu)異的用戶體驗,而一旦比拼真實場景下的體驗,語音識別便失去獨立存在的價值,更多作為產(chǎn)品體驗的一個環(huán)節(jié)而存在。

    所以到 2019 年,語音識別似乎進入了一個相對平靜期,全球產(chǎn)業(yè)界的主要參與者們,包括亞馬遜、谷歌、微軟、蘋果、百度、科大訊飛、阿里、騰訊、云知聲、思必馳、聲智等公司,在一路狂奔過后紛紛開始反思自己的定位和下一步的打法。

    語音賽道里的標志產(chǎn)品——智能音箱,以一種大躍進的姿態(tài)出現(xiàn)在大眾面前。2016 年以前,智能音箱玩家們對這款產(chǎn)品的認識還都停留在:亞馬遜出了一款叫 Echo 的產(chǎn)品,功能和 Siri 類似。先行者科大訊飛叮咚音箱的出師不利,更是加重了其它人的觀望心態(tài)。真正讓眾多玩家從觀望轉(zhuǎn)為積極參與的轉(zhuǎn)折點是逐步曝光的 Echo 銷量,2016 年底,Echo 近千萬的美國銷量讓整個世界震驚。這是智能設(shè)備從未達到過的高點,在 Echo 以前除了 Apple Watch 與手環(huán),像恒溫器、攝像頭這樣的產(chǎn)品突破百萬銷量已是驚人表現(xiàn)。這種銷量以及智能音箱的 AI 屬性促使 2016 年下半年,國內(nèi)各大巨頭幾乎是同時轉(zhuǎn)變態(tài)度,積極打造自己的智能音箱。

    未來,回看整個發(fā)展歷程,2019 年是一個明確的分界點。在此之前,全行業(yè)是突飛猛進,但 2019 年之后則開始進入對細節(jié)領(lǐng)域滲透和打磨的階段,人們關(guān)注的焦點也不再是單純的技術(shù)指標,而是回歸到體驗,回歸到一種“新的交互方式到底能給我們帶來什么價值”這樣更為一般的、純粹的商業(yè)視角。技術(shù)到產(chǎn)品再到是否需要與具體的形象進行交互結(jié)合,比如人物形象;流程自動化是否要與語音結(jié)合;酒店場景應(yīng)該如何使用這種技術(shù)來提升體驗,諸如此類最終都會一一呈現(xiàn)在從業(yè)者面前。而此時行業(yè)的主角也會從原來的產(chǎn)品方過渡到平臺提供方,AIoT 縱深過大,沒有任何一個公司可以全線打造所有的產(chǎn)品。

    語音識別的產(chǎn)業(yè)趨勢
    當語音產(chǎn)業(yè)需求四處開花的同時,行業(yè)的發(fā)展速度反過來會受限于平臺服務(wù)商的供給能力。跳出具體案例來看,行業(yè)下一步發(fā)展的本質(zhì)邏輯是:在具體每個點的投入產(chǎn)出是否達到一個普遍接受的界限。

    離這個界限越近,行業(yè)就越會接近滾雪球式發(fā)展的臨界點,否則整體增速就會相對平緩。不管是家居、酒店、金融、教育或者其他場景,如果解決問題都是非常高投入并且長周期的事情,那對此承擔成本的一方就會猶豫,這相當于試錯成本過高。如果投入后,沒有可感知的新體驗或者銷量促進,那對此承擔成本的一方也會猶豫,顯然這會影響值不值得上的判斷。而這兩個事情,歸根結(jié)底都必須由平臺方解決,產(chǎn)品方或者解決方案方對此無能為力,這是由智能語音交互的基礎(chǔ)技術(shù)特征所決定。

    從核心技術(shù)來看,整個語音交互鏈條有五項單點技術(shù):喚醒、麥克風陣列、語音識別、自然語言處理、語音合成,其它技術(shù)點比如聲紋識別、哭聲檢測等數(shù)十項技術(shù)通用性略弱,但分別出現(xiàn)在不同的場景下,并會在特定場景下成為關(guān)鍵。看起來關(guān)聯(lián)的技術(shù)已經(jīng)相對龐雜,但切換到商業(yè)視角我們就會發(fā)現(xiàn),找到這些技術(shù)距離打造一款體驗上佳的產(chǎn)品仍然有絕大距離。

    所有語音交互產(chǎn)品都是端到端打通的產(chǎn)品,如果每家廠商都從這些基礎(chǔ)技術(shù)來打造產(chǎn)品,那就每家都要建立自己云服務(wù)穩(wěn)定,確保響應(yīng)速度,適配自己所選擇的硬件平臺,逐項整合具體的內(nèi)容(比如音樂、有聲讀物)。這從產(chǎn)品方或者解決方案商的視角來看是不可接受的。這時候就會催生相應(yīng)的平臺服務(wù)商,它要同時解決技術(shù)、內(nèi)容接入和工程細節(jié)等問題,最終達成試錯成本低、體驗卻足夠好的目標。

    平臺服務(wù)并不需要閉門造車,平臺服務(wù)的前提是要有能屏蔽產(chǎn)品差異的操作系統(tǒng),這是 AI+IOT 的特征,也是有所參照的,亞馬遜過去近 10 年里是同步著手做兩件事:一個是持續(xù)推出面向終端用戶的產(chǎn)品,比如 Echo,Echo Show等;一個是把所有產(chǎn)品所內(nèi)置的系統(tǒng) Alexa 進行平臺化,面向設(shè)備端和技能端同步開放SDK和調(diào)試發(fā)布平臺。雖然 Google Assistant 號稱單點技術(shù)更為領(lǐng)先,但從各方面的結(jié)果來看 Alexa 是當之無愧的最為領(lǐng)先的系統(tǒng)平臺,可惜的是 Alexa 并不支持中文以及相應(yīng)的后臺服務(wù)。

    國內(nèi)則缺乏亞馬遜這種統(tǒng)治力的系統(tǒng)平臺提供商,當前的平臺提供商分為兩個陣營:一類是以百度、阿里、訊飛、小米、騰訊為代表的傳統(tǒng)互聯(lián)網(wǎng)或者上市公司;一類是以聲智等為代表的新興人工智能公司。新興的人工智能公司相比傳統(tǒng)公司產(chǎn)品和服務(wù)上的歷史包袱更輕,因此在平臺服務(wù)上反倒是可以主推一些更為面向未來、有特色的基礎(chǔ)服務(wù),比如兼容性方面新興公司做的會更加徹底,這種兼容性對于一套產(chǎn)品同時覆蓋國內(nèi)國外市場是相當有利的。

    類比過去的 Android,語音交互的平臺提供商們其實面臨更大的挑戰(zhàn),發(fā)展過程可能會更加的曲折。過去經(jīng)常被提到的操作系統(tǒng)的概念在智能語音交互背景下事實上正被賦予新的內(nèi)涵,它日益被分成兩個不同但必須緊密結(jié)合的部分。

    過去的 Linux 以及各種變種承擔的是功能型操作系統(tǒng)的角色,而以 Alexa 為代表的新型系統(tǒng)則承擔的則是智能型系統(tǒng)的角色。前者完成完整的硬件和資源的抽象和管理,后者則讓這些硬件以及資源得到具體的應(yīng)用,兩者相結(jié)合才能輸出最終用戶可感知的體驗。功能型操作系統(tǒng)和智能型操作系統(tǒng)注定是一種一對多的關(guān)系,不同的 AIoT 硬件產(chǎn)品在傳感器(深度攝像頭、雷達等)、顯示器上(有屏、無屏、小屏、大屏等)具有巨大差異,這會導致功能型系統(tǒng)的持續(xù)分化(可以和 Linux 的分化相對應(yīng))。這反過來也就意味著一套智能型系統(tǒng),必須同時解決與功能型系統(tǒng)的適配以及對不同后端內(nèi)容以及場景進行支撐的雙重責任。

    這兩邊在操作上,屬性具有巨大差異。解決前者需要參與到傳統(tǒng)的產(chǎn)品生產(chǎn)制造鏈條中去,而解決后者則更像應(yīng)用商店的開發(fā)者。這里面蘊含著巨大的挑戰(zhàn)和機遇。在過去功能型操作系統(tǒng)的打造過程中,國內(nèi)的程序員們更多的是使用者的角色,但智能型操作系統(tǒng)雖然也可以參照其他,但這次必須自己來從頭打造完整的系統(tǒng)。(國外巨頭不管在中文相關(guān)的技術(shù)上還是內(nèi)容整合上事實上都非常薄弱,不存在侵略國內(nèi)市場的可能性)

    隨著平臺服務(wù)商兩邊的問題解決的越來越好,基礎(chǔ)的計算模式則會逐漸發(fā)生改變,人們的數(shù)據(jù)消費模式會與今天不同。個人的計算設(shè)備(當前主要是手機、筆記本、Pad)會根據(jù)不同場景進一步分化。比如在車上、家里、酒店、工作場景、路上、業(yè)務(wù)辦理等會根據(jù)地點和業(yè)務(wù)進行分化。但分化的同時背后的服務(wù)則是統(tǒng)一的,每個人可以自由的根據(jù)場景做設(shè)備的遷移,背后的服務(wù)雖然會針對不同的場景進行優(yōu)化,但在個人偏好這樣的點上則是統(tǒng)一的。

    人與數(shù)字世界的接口,在現(xiàn)在越來越統(tǒng)一于具體的產(chǎn)品形態(tài)(比如手機),但隨著智能型系統(tǒng)的出現(xiàn),這種統(tǒng)一則會越來越統(tǒng)一于系統(tǒng)本身。作為結(jié)果這會帶來數(shù)據(jù)化程度的持續(xù)加深,我們越來越接近一個百分百數(shù)據(jù)化的世界。

    總結(jié)
    從技術(shù)進展和產(chǎn)業(yè)發(fā)展來看,語音識別雖然還不能解決無限制場景、無限制人群的通用識別問題,但是已經(jīng)能夠在各個真實場景中普遍應(yīng)用并且得到規(guī)模驗證。更進一步的是,技術(shù)和產(chǎn)業(yè)之間形成了比較好的正向迭代效應(yīng),落地場景越多,得到的真實數(shù)據(jù)越多,挖掘的用戶需求也更準確,這幫助了語音識別技術(shù)快速進步,也基本滿足了產(chǎn)業(yè)需求,解決了很多實際問題,這也是語音識別相對其他 AI 技術(shù)最為明顯的優(yōu)勢。

    不過,我們也要看到,語音識別的內(nèi)涵必須不斷擴展,狹義語音識別必須走向廣義語音識別,致力于讓機器聽懂人類語言,這才能將語音識別研究帶到更高維度。我們相信,多技術(shù)、多學科、多傳感的融合化將是未來人工智能發(fā)展的主流趨勢。在這種趨勢下,我們還有很多未來的問題需要探討,比如鍵盤、鼠標、觸摸屏和語音交互的關(guān)系怎么變化?搜索、電商、社交是否再次重構(gòu)?硬件是否逆襲變得比軟件更加重要?產(chǎn)業(yè)鏈中的傳感、芯片、操作系統(tǒng)、產(chǎn)品和內(nèi)容廠商之間的關(guān)系又該如何變化?

    本文得到眾多語音識別領(lǐng)域?qū)<业闹笇В⒁昧艘恍﹨⒖假Y料的配圖,在此表示感謝,本文中的不足之處還請批評指正。

    來源:巨靈鳥 歡迎分享本文

    • 點擊這里給我發(fā)消息
    • 點擊這里給我發(fā)消息
    主站蜘蛛池模板: 日本精品夜色视频一区二区| 91久久精一区二区三区大全| 日韩一区二区三区射精| 日产亚洲一区二区三区| 亚洲视频在线一区二区三区| 精品福利一区二区三区免费视频| 国产美女一区二区三区| 日本免费一区二区三区最新| 丝袜美腿高跟呻吟高潮一区| 国产一区二区在线观看app| 精品乱人伦一区二区三区| 奇米精品视频一区二区三区| 精品动漫一区二区无遮挡| 国产伦理一区二区三区| 久久精品无码一区二区三区 | 国产乱码精品一区二区三区四川人 | 国产在线精品一区二区在线观看 | 日韩三级一区二区| 一区二区三区在线免费观看视频| 国产一区二区精品| 国产精品亚洲一区二区三区在线观看 | 超清无码一区二区三区| 无码少妇一区二区| 日韩免费一区二区三区| 中文字幕精品亚洲无线码一区应用 | 国产色综合一区二区三区| 欧美激情国产精品视频一区二区| 精品视频在线观看你懂的一区| 精品无码一区二区三区电影 | 无码AV天堂一区二区三区| 日本精品视频一区二区| 精品一区二区三区中文字幕| 精品久久久久久无码中文字幕一区| 精品一区二区三区高清免费观看 | 人妻久久久一区二区三区| 国产在线第一区二区三区| 麻豆一区二区在我观看| 国产精品一区二区久久精品无码 | 成人无码AV一区二区| 亚洲日韩一区二区一无码| 中文字幕无码一区二区免费|