當前位置: 首頁 » 行業(yè)資訊 » 機器人»機器人語言“天賦”嶄露頭角；

機器人語言“天賦”嶄露頭角；

[點擊復制]

發(fā)布日期：2016-10-09 瀏覽次數(shù)：341

核心提示：智能機器人如何與人溝通？簡單的指令輸入早已不能滿足這個快節(jié)奏的社會，如果能夠語音操作該有多好。但是現(xiàn)在大部分智能機器人

智能機器人如何與人溝通？簡單的指令輸入早已不能滿足這個快節(jié)奏的社會，如果能夠語音操作該有多好。但是現(xiàn)在大部分智能機器人對于語言的識別與回應并不盡如人意，有些只能識別普通話，有些則只能進行一對一回應，如果是多人聊天模式，或者是在嘈雜的背景下，智能機器人就會“暈頭轉(zhuǎn)向”，不知所云。

想要解決這個問題并不簡單，不過近日，在美國舊金山舉行的第四屆國際多通道語音分離和識別大賽，中國參賽團隊通過完成六麥克風、雙麥克風和單麥克風場景下的語音分離和英文識別任務，最終奪冠。而這個技術(shù)解決的最重要問題，就包括在噪音環(huán)境下的語音識別。此次比賽的獲獎團隊來自科大訊飛，目前，他們已經(jīng)把這項技術(shù)應用在了名為AIUI的人機交互解決方案上。

與機器人對話

語音識別技術(shù)，小到手機指令大到智能家居控制都有所體現(xiàn)，這讓生活變得更加便捷。但這并非語音識別的終極目標。如果在噪音環(huán)境下，多個人給同一個智能機器人下了命令，那么后者應該聽誰的，又應該如何應對呢？國際多通道語音分離和識別大賽比的就是如何解決這一類問題。

若想弄明白多通道語音，先明白語音識別的概念。首先，語音識別是指從語音到文本的轉(zhuǎn)換，也就是讓機器能夠聽懂人說的話。這其中包括兩層意思，一層是指把用戶所說的話逐詞逐句轉(zhuǎn)換成文本；二是指正確理解語音中所包含的要求，作出正確的應答。這其中語音語言學、信號處理、模式識別、概率論和信息論、發(fā)聲機理和聽覺機理、人工智能的交叉學科，是中文信息處理領域的一項前沿技術(shù)，解決的主要問題就是如何將文字信息轉(zhuǎn)化為可聽的聲音信息。

智能機器人對于人的語音的處理，與人類自身理解完全不同，它們先將連續(xù)的句子分解為詞、音素等單位，在理解語義的規(guī)則基礎上讀取其中的含義。如果說話的主體語音模糊或者口音較重時，智能機器人若沒有設置過相關(guān)的規(guī)則，則無法識別。甚至一個人在認真說話與隨意說話時的語調(diào)在智能機器人聽起來都有區(qū)別。再加上采集聲音時周圍環(huán)境的噪聲等，都會對機器人產(chǎn)生干擾，進而導致語音識別的誤差率增加。而多通道語音識別是指，通過多個麥克風采集聲源，再用麥克風陣列技術(shù)進行降噪之后，語音識別將會更加精確。

科大訊飛AIUI研發(fā)總監(jiān)趙艷軍在接受《中國科學報》記者采訪時介紹說，AIUI同時擁有的回聲消除、置信度判決、連續(xù)語音解密等技術(shù)，人可以在任何時候?qū)C器進行打斷發(fā)出需求，AIUI在遠場識別方面支持3~5米的識別距離，識別率達到90%。“AIUI還支持方言識別，全雙工交互，以及自動糾錯的功能。同時，用戶在和機器交流的時候發(fā)出的非相關(guān)語音，機器可以有效拒識。”趙艷軍說。

AIUI是目前世界上正在開發(fā)的人機交互解決方案之一。作為未來智能機器人的主流配置之一，商業(yè)化的語音交互平臺也是不少IT巨頭的研發(fā)重點。比如微軟的Speech API，是微軟推出的包含語音識別（SR）和語音合成（SS）引擎的應用編程接口（API），依托Windows平臺，可以之和朗讀英文、中文、日文等。另外一個巨頭是IBM，它是較早開始語音識別方面的研究的機構(gòu)之一，在1984年時，IBM發(fā)布的語音識別系統(tǒng)在5000個詞匯量級上達到了95%的識別率。

自然流暢的交互體驗

在之前公布的一段視頻中，幾個人給一個搭載了AIUI的機器人半成品下達不同的命令，先是搜索歌曲，再來問天氣，然后讓訂機票，之后還有人要求機器人搜索一首歌手與歌名完全不符的歌曲。雖然只是半成品，但是視頻中的機器人不緊不慢地“接招”，還“毫不客氣”地指出歌名與歌手信息有誤，并善意地提醒是否要重新搜索。

“準確的反應歸結(jié)于硬件與軟件的不斷更新。”趙艷軍回應道。首先要克服的是交互環(huán)境的復雜性，比如用戶交互時各類的噪聲、多樣的口音、以及其他不可預知的干擾因素。其次，就是AIUI識別平臺中既長又復雜的研發(fā)鏈路，從前端的麥克風陣列技術(shù)到后端的語音喚醒、語義理解等服務，需要各組的人員協(xié)調(diào)、配合、溝通、合作，“這對整個項目團隊的要求是很高的。”

硬件方面，AIUI 也從之前的4+1麥克風陣列到最新的6+0麥克風陣列，讓其聲源定位、回聲消除、噪聲抑制等能力不斷增強，可以從容應對各種復雜的環(huán)境。“后續(xù)我們將持續(xù)優(yōu)化和完善AIUI，進一步提升效果。如提高遠場識別的識別率，增加方言識別的自適性，提高語義理解的能力等，使得AIUI的體驗越來越完美。”趙艷軍說。

智能生活更進一步

語音交互技術(shù)的進步并不是孤立呈現(xiàn)的，它在智能機器人與人類溝通功能的提升中所做的貢獻功不可沒。這一貢獻體現(xiàn)在智能設備適用人群范圍擴大以及領域拓寬。比如，隨著智能設備和網(wǎng)絡的普及，越來越多的老齡人群、低齡人群、身體殘障人群使用智能設備。對于這些人群，觸控的交互方式并不方便，語音交互則突破了年齡障礙。甚至，有人曾經(jīng)預測，語音交互可能會成為繼搜索引擎、瀏覽器、智能手機OS之后，第四代的入口。

同時，依托云技術(shù)以及大數(shù)據(jù)的發(fā)展，智能語音技術(shù)的迭代和優(yōu)化速度也在加快。智能機器人、智能車載、智能家電等領域的多款產(chǎn)品都可以依托這一技術(shù)。

下一篇：模特走T臺壓力有多大？讓這套穿戴設備告訴你;
上一篇：小型自動駕駛汽車與人型機器人聯(lián)動；

[ 行業(yè)資訊搜索 ] [ 加入收藏 ] [ 告訴好友 ] [ 打印本文 ] [ 關(guān)閉窗口 ]

同類行業(yè)資訊

共0條 [查看全部] 相關(guān)評論

展會更多+

2026第17屆中國國	2025第25屆中國國
2026上海國際清潔	第26屆上海國際清

視頻更多+

中舟智能固守科技	玉灃科技：精研滑
新松機器人自動化	羅克韋爾自動化（

亞洲自動化與機器人網(wǎng) - 版權(quán)所有

• 四川：加快推進人型機器人、四足機器人、智能無	• 消息稱三星 AI 家庭伴侶機器人 Ballie 推遲上市
• 人形機器人從實驗室“手搓”走向量產(chǎn)，供應鏈廠	• 山東印發(fā)機器人產(chǎn)業(yè)高質(zhì)量發(fā)展行動計劃
• 廣東打造千億級機器人產(chǎn)業(yè)集群	• 斯坦德機器人港股IPO：去年減虧，無錫國資新晉
• 黃仁勛預言：繼AI之后，機器人將成為英偉達最強	• 中金：人形機器人逐步放量以及硬件成本的下降有
• 向“智”！中國機器人“跑”起來	• 哈工程牽頭研制出新型四足機器人助力核能安全

久热这里只有精-久热这里只精品99国产6_99-久热这里有精品-久热这里都是精品-久热这里-久热影视

我的供應

我的求購

商鋪管理

工業(yè)機器人及行業(yè)應用

智能機器人

工業(yè)自動化

智能裝備

機器人語言“天賦”嶄露頭角；