語(yǔ)音識(shí)別率再提升!訊飛輸入法引領(lǐng)交互方式,以AI賦能保鄉(xiāng)音
? ? ? ? ? ? ? ? ? ?本文由 電器雜志 發(fā)表,轉(zhuǎn)載請(qǐng)注明來(lái)源!
2018年6月12日,訊飛輸入法在京舉辦了主題為“愛輸入?更懂你”的媒體見面會(huì),并正式啟動(dòng)“AI方言發(fā)音人招募”公益行動(dòng)。在這場(chǎng)以“交互方式和AI賦能保護(hù)瀕危方言”為核心的發(fā)布會(huì)開始之前,記者跟隨訊飛輸入法相關(guān)負(fù)責(zé)人在參觀科大訊飛在中關(guān)村軟件園互聯(lián)網(wǎng)創(chuàng)新中心的展示廳時(shí)發(fā)現(xiàn),科大訊飛在語(yǔ)音識(shí)別和人工智能等核心技術(shù)上持續(xù)投入大量研發(fā)精力,以自身AI技術(shù)持續(xù)賦能車載、家居、物流、醫(yī)療、教育等行業(yè),成績(jī)斐然。
在科大訊飛智能語(yǔ)音技術(shù)持續(xù)領(lǐng)先,人工智能技術(shù)取得突破進(jìn)展的當(dāng)下,其研究成果正快速落地。AI賦能訊飛輸入法,不僅為大眾帶來(lái)更豐富功能、更出色體驗(yàn);另一方面,AI持續(xù)賦能方言保護(hù),也為世界留下多彩鄉(xiāng)音。

語(yǔ)音識(shí)別一小步,人機(jī)交互一大步
近十幾年來(lái),人機(jī)交互的方式發(fā)生了翻天覆地的變化,作為人機(jī)交流的媒介,也是人與人溝通的重要工具。輸入法歷經(jīng)五筆、手寫、拼音再到語(yǔ)音輸入。語(yǔ)音作為最自然、最便捷的輸入方式,深刻改變用戶的輸入習(xí)慣,繁榮著互聯(lián)網(wǎng)應(yīng)用。據(jù)了解,訊飛輸入法誕生之初,便確定以語(yǔ)音為核心。近一年來(lái),訊飛輸入法在輸入效率和智能化方面取得了長(zhǎng)足的進(jìn)步,不僅做到一分鐘識(shí)別400字,還支持多語(yǔ)種實(shí)時(shí)語(yǔ)音翻譯、超長(zhǎng)語(yǔ)音輸入、耳語(yǔ)輸入、離線語(yǔ)音輸入等功能。并在感知智能、認(rèn)知智能以及兩種智能深度結(jié)合等領(lǐng)域均取得達(dá)到國(guó)際領(lǐng)先的研究成果,而這些AI黑科技正應(yīng)用到訊飛輸入法上,率先在行業(yè)內(nèi)做到通用語(yǔ)音識(shí)別率98%。這1%的提升,可謂語(yǔ)音識(shí)別一小步,人機(jī)交互一大步。 不要小看這1%的提升,語(yǔ)音輸入更精準(zhǔn)的方法離不開數(shù)據(jù)和算法。據(jù)了解, 訊飛輸入法從人腦神經(jīng)科學(xué)入手對(duì)人類記憶進(jìn)行仿生,實(shí)現(xiàn)大量無(wú)監(jiān)督的數(shù)據(jù)去輔助有人工標(biāo)注的數(shù)據(jù)。受圖像領(lǐng)域CNN應(yīng)用的啟發(fā),科大訊飛獨(dú)家研發(fā)了深度全序列卷積神經(jīng)網(wǎng)絡(luò)(Deep Fully Convolutional Neural Network,DFCNN)語(yǔ)音識(shí)別框架,使用大量的卷積層直接將語(yǔ)譜圖作為輸入,相比傳統(tǒng)語(yǔ)音特征作為輸入,有效降低信息損失,非常出色地表達(dá)語(yǔ)音的長(zhǎng)時(shí)相關(guān)性。同時(shí),借鑒了圖像識(shí)別中效果最好的網(wǎng)絡(luò)配置,每個(gè)卷積層使用3×3的小卷積核訓(xùn)練更深的CNN模型,輸出單元直接與最終的識(shí)別結(jié)果(比如音節(jié)或漢字),從而使識(shí)別準(zhǔn)確率顯著提升。

雖然98%的語(yǔ)音識(shí)別率已經(jīng)接近100%,但當(dāng)前的技術(shù)對(duì)剩下的2%束手無(wú)策。因此,訊飛輸入法以自然語(yǔ)言交互方式??語(yǔ)音修改來(lái)解決不確定的部分。也就是說(shuō),使用語(yǔ)音輸入的過(guò)程中通過(guò)自然語(yǔ)言說(shuō)出指令來(lái)修改、添增、刪除文字等操作。由于中文擁有復(fù)雜的多樣性,同音不同義的詞非常豐富,這對(duì)機(jī)器而言存在理解難度。所以,訊飛輸入法新增語(yǔ)音修改結(jié)果多同音詞候選,在機(jī)器不能準(zhǔn)確理解語(yǔ)義時(shí),通過(guò)人工選擇更加高效。不僅如此,基于Cache Base Fast Adapation技術(shù),訊飛輸入法獨(dú)創(chuàng)的“智適應(yīng)”支持一次修改自動(dòng)記憶修正結(jié)果,再次輸入相同內(nèi)容精準(zhǔn)識(shí)別。
在面對(duì)口音和方言識(shí)別的難題上,訊飛輸入法提出方言語(yǔ)音輸入方案來(lái)解決。依托科大訊飛對(duì)AI技術(shù)及語(yǔ)言深度研究的積累,采用Multi-lingual多語(yǔ)言建模,通過(guò)多方言數(shù)據(jù)共享方式訓(xùn)練;輔以Global Phone全球音素集,從聲學(xué)層面的相似性統(tǒng)一各方言的音素定義,對(duì)方言“語(yǔ)圖譜”模型做進(jìn)一步精進(jìn),從而有針對(duì)性地提升方言語(yǔ)種的識(shí)別能力。

融合多種新技術(shù),開啟智能輸入時(shí)代
為踐行“人與人無(wú)障礙交流”的目標(biāo),訊飛輸入法嘗試將語(yǔ)音識(shí)別、語(yǔ)音合成以及機(jī)器翻譯等新技術(shù)融合在一起,新增面對(duì)面翻譯,支持中文與英日韓俄多語(yǔ)種即時(shí)翻譯。不僅如此還充分考慮使用場(chǎng)景,將面對(duì)面的交互方式引入語(yǔ)音翻譯應(yīng)用中。例如,在對(duì)話雙方各講母語(yǔ)時(shí),另一方就會(huì)同步看到翻譯結(jié)果;特別是語(yǔ)音播報(bào)功能的加入,讓面對(duì)面翻譯有了自己的“嘴巴”,身邊儼然有了一位翻譯官,增強(qiáng)了翻譯的實(shí)用性。

一般從文件、圖片中提取文字,需要手工錄入大量文字,不僅效率低下且可能出現(xiàn)錯(cuò)字?;谟脩魟傂?,訊飛輸入法新增了OCR拍照輸入,相當(dāng)于給輸入法安裝了一雙“眼睛”。這個(gè)新功能的用心之處是不管書本、路牌、名片還是其他紙質(zhì)圖中的文字,都能輕松識(shí)別并提取出來(lái),方便用戶進(jìn)行編輯、歸類、管理,省去大量錄入的時(shí)間。更令人驚喜的是,內(nèi)置OCR不僅能識(shí)別各類印刷體,對(duì)于手寫識(shí)別準(zhǔn)確率也高達(dá)90%以上,就算字體潦草也輕松識(shí)別。作為高效輸入的一種補(bǔ)充,OCR拍照輸入可以捕捉輸入過(guò)程中多場(chǎng)景下的文字,滿足用戶多樣的需求,助力訊飛輸入法成為未來(lái)最智能化的輸入法。
在科大訊飛看來(lái),手機(jī)端輸入方式發(fā)生了巨大的變化,語(yǔ)音輸入已經(jīng)達(dá)到了實(shí)用的門檻,語(yǔ)音交互的比重越來(lái)越大,加上對(duì)漣漪效應(yīng)的理解,訊飛輸入法已經(jīng)成為高粘性的工具類產(chǎn)品。媒體見面會(huì)現(xiàn)場(chǎng),訊飛輸入法市場(chǎng)品牌負(fù)責(zé)人李強(qiáng)軍介紹,訊飛輸入法用戶規(guī)模突破6億,語(yǔ)音輸入月覆蓋率達(dá)50%,語(yǔ)音滲透率保持逐年上升態(tài)勢(shì)。面向未來(lái),輸入法將不再局限于五筆、九宮格、二十六鍵、手寫固定鍵盤形態(tài)。訊飛輸入法首家推出“莫得鍵盤”、“語(yǔ)音鍵盤”、“VG語(yǔ)音交互面板”等革新人機(jī)交互,“重新定義鍵盤”讓輸入更有趣。
啟動(dòng)方言發(fā)音人招募 AI賦能方言語(yǔ)音輸入
此次媒體見面會(huì)的另一個(gè)重要環(huán)節(jié)是啟動(dòng)“方言發(fā)音人招募”公益行動(dòng)。隨著經(jīng)濟(jì)、文化活動(dòng)的全球化現(xiàn)狀以及區(qū)域經(jīng)濟(jì)的迅速發(fā)展,導(dǎo)致主流語(yǔ)言或通用語(yǔ)言更加強(qiáng)勢(shì),同時(shí)也使得弱勢(shì)語(yǔ)言的交際功能不斷衰弱,甚至瀕臨消亡。目前世界上的語(yǔ)言大約有6000?10000多種,據(jù)語(yǔ)言學(xué)家預(yù)測(cè),大部分語(yǔ)言將于本世紀(jì)末消失。因此,瀕危語(yǔ)言保護(hù)(以下簡(jiǎn)稱為“語(yǔ)?!?已經(jīng)成為了一項(xiàng)極重要而迫切的工作。
科大訊飛多語(yǔ)種高級(jí)研究員祖漪清在現(xiàn)場(chǎng)講述了方言勢(shì)微的現(xiàn)狀?,F(xiàn)在我們身處人工智能崛起的時(shí)代,利用人工智能技術(shù)進(jìn)行瀕危語(yǔ)言、方言系統(tǒng)地研究一個(gè)語(yǔ)言的語(yǔ)音結(jié)構(gòu)、語(yǔ)言結(jié)構(gòu),實(shí)現(xiàn)對(duì)一個(gè)語(yǔ)言的完整“復(fù)制”迫在眉睫。因此,本次媒體見面上正式啟動(dòng)了“AI方言發(fā)音人招募”公益行動(dòng)。

科大訊飛提出的“人類語(yǔ)言大互通計(jì)劃”,用AI為人類在語(yǔ)言能力上賦能,點(diǎn)亮全人類的語(yǔ)言互動(dòng)和命運(yùn)共同。方言保護(hù)作為至關(guān)重要的一環(huán),訊飛輸入法肩負(fù)起方言保護(hù)的重任,通過(guò)“方言發(fā)音人”采集的標(biāo)準(zhǔn)方言語(yǔ)料,持續(xù)優(yōu)化增添方言識(shí)別能力,并開放給用戶使用,有著極其重要的文化和社會(huì)價(jià)值。
目前訊飛輸入法支持22種方言,其中粵語(yǔ)、四川話、東北話等識(shí)別率均已超過(guò)90%。2017年訊飛輸入法對(duì)外發(fā)起“方言保護(hù)計(jì)劃”,建立“中國(guó)方言庫(kù)”,用智能語(yǔ)音留存、發(fā)展承載傳統(tǒng)文化積淀的方言,積累了海量方言數(shù)據(jù),是訊飛輸入法得天獨(dú)厚的深度學(xué)習(xí)素材,方言識(shí)別率日趨精準(zhǔn)。本月底,訊飛輸入法還將新增蘇州話識(shí)別,方言識(shí)別語(yǔ)種將擴(kuò)充至23種。基于科大訊飛精簡(jiǎn)和優(yōu)化的Hybrid-DFCNN全新語(yǔ)音識(shí)別框架,6月底訊飛輸入法將上線Hyper-CNN語(yǔ)音新引擎,隨之通用語(yǔ)音識(shí)別準(zhǔn)確率將相對(duì)提升15%,此外有效優(yōu)化中英混合語(yǔ)音輸入、粵語(yǔ)等重點(diǎn)方言、標(biāo)點(diǎn)判斷準(zhǔn)確率,提升語(yǔ)音輸入的體驗(yàn)。
本文由 電器雜志 發(fā)表,轉(zhuǎn)載請(qǐng)注明來(lái)源!