說(shuō)句話就能控制所有電器開關(guān)、聽音樂只需報(bào)出歌名……一直以來(lái),人類都懷揣著與其他生物乃至機(jī)器進(jìn)行語(yǔ)音交流的夢(mèng)想,而現(xiàn)在,人工智能的飛速發(fā)展,正推動(dòng)這一想象變?yōu)楝F(xiàn)實(shí)。如今,語(yǔ)音識(shí)別技術(shù)的廣泛應(yīng)用,讓智能語(yǔ)音產(chǎn)品逐漸風(fēng)靡。
語(yǔ)音識(shí)別發(fā)展突飛猛進(jìn)
近年來(lái),生物識(shí)別領(lǐng)域日趨升溫,語(yǔ)音識(shí)別技術(shù)取得顯著進(jìn)步,開始加速?gòu)膶?shí)驗(yàn)室走向消費(fèi)市場(chǎng)。眼下,語(yǔ)音助手、客服機(jī)器人、智能音箱等應(yīng)用都用到了語(yǔ)音識(shí)別技術(shù),家電、工業(yè)、金融、汽車電子等行業(yè)成為主要商業(yè)化場(chǎng)景。
在國(guó)內(nèi),語(yǔ)音識(shí)別技術(shù)的研發(fā)始于上世紀(jì)50年代,但是由于各方面條件限制,發(fā)展一直十分緩慢。到了80年代以后,隨著計(jì)算機(jī)等技術(shù)的發(fā)展與普及,國(guó)內(nèi)外語(yǔ)音識(shí)別技術(shù)的研究都迎來(lái)了一股新熱潮。
進(jìn)入新世紀(jì),借助深度學(xué)習(xí)技術(shù)突破帶動(dòng)的人工智能領(lǐng)域崛起,以及大數(shù)據(jù)等信息技術(shù)的進(jìn)步,包括語(yǔ)音識(shí)別在內(nèi)的生物識(shí)別技術(shù)取得了突飛猛進(jìn)的發(fā)展。不少科技公司、互聯(lián)網(wǎng)企業(yè)都將語(yǔ)音識(shí)別視為進(jìn)軍人工智能的橋頭堡,進(jìn)一步促進(jìn)了語(yǔ)音識(shí)別市場(chǎng)的巨大擴(kuò)張。
當(dāng)前,國(guó)外語(yǔ)音識(shí)別技術(shù)發(fā)展以蘋果、亞馬遜等企業(yè)為尊;而在國(guó)內(nèi),科大訊飛、bat三巨頭、搜狗、盛大等公司也在積極布局語(yǔ)音識(shí)別技術(shù),并研發(fā)、上市了一批相關(guān)產(chǎn)品。在這些公司以及資本市場(chǎng)的推動(dòng)下,語(yǔ)音識(shí)別技術(shù)已然成為為火熱的科技應(yīng)用之一。
語(yǔ)音識(shí)別技術(shù)有得有失
在生物識(shí)別領(lǐng)域中,語(yǔ)音識(shí)別技術(shù)是應(yīng)用為成熟、使用為便捷、商業(yè)化程度高的一個(gè)細(xì)分領(lǐng)域之一。而語(yǔ)音識(shí)別技術(shù)之所以受到各大科技企業(yè)的關(guān)注和資本市場(chǎng)的青睞,就在于其所具有的一系列優(yōu)勢(shì):
一是語(yǔ)音采集較為方便,無(wú)需繁復(fù)配合、也幾乎不用動(dòng)手,因而能夠吸引更多的消費(fèi)者;二是語(yǔ)音識(shí)別技術(shù)應(yīng)用成本較低,一般只需一個(gè)麥克風(fēng)配合系統(tǒng)軟件,語(yǔ)音分析、辨別的算法復(fù)雜程度也較低;三是更符合消費(fèi)者的期待與需求,較為適合智能家居等新興業(yè)態(tài)的發(fā)展趨勢(shì)。
當(dāng)然,語(yǔ)音識(shí)別技術(shù)固然優(yōu)勢(shì)多多,但是在當(dāng)前階段依然存在著一些缺點(diǎn),例如:每個(gè)人的聲音并不是一成不變,而是會(huì)隨著年齡的變化而變化;周邊的環(huán)境噪音對(duì)于語(yǔ)音的采集有一定干擾,距離因素也是采集過(guò)程中不能忽視的問(wèn)題;另外,還有語(yǔ)音識(shí)別準(zhǔn)確率及理解能力有待提升等不足都亟需予以重視,并逐步進(jìn)行完善。
口音或方言是大挑戰(zhàn)
無(wú)論是在國(guó)內(nèi)還是國(guó)外,方言或是口音都是切實(shí)存在的,而這對(duì)于語(yǔ)音識(shí)別技術(shù)的應(yīng)用和普及來(lái)說(shuō),無(wú)疑是大挑戰(zhàn)。因?yàn)閺慕?jīng)濟(jì)效益、商業(yè)化推廣等方面考慮,企業(yè)在研發(fā)階段,一般都是采用所在國(guó)為主流的語(yǔ)言形式,但是在實(shí)際應(yīng)用時(shí),消費(fèi)者的語(yǔ)言習(xí)慣卻并不一定符合預(yù)期設(shè)定。
一旦用戶有嚴(yán)重的口音,或是使用的方言不在識(shí)別范圍內(nèi),那么就會(huì)導(dǎo)致語(yǔ)音識(shí)別系統(tǒng)反應(yīng)遲鈍、識(shí)別率降低,甚至完全無(wú)法識(shí)別,終影響消費(fèi)者的使用體驗(yàn),從而造成市場(chǎng)口碑受到質(zhì)疑。很顯然,如果不能解決這一挑戰(zhàn),語(yǔ)音識(shí)別的普及就將被限定在目前的瓶頸之中。
因此,針對(duì)口音和方言展開的新一輪語(yǔ)音識(shí)別技術(shù)研發(fā),或?qū)⒊蔀樾碌母?jìng)爭(zhēng)焦點(diǎn)。可以預(yù)見,隨著識(shí)別語(yǔ)種的愈發(fā)豐富及準(zhǔn)確率進(jìn)一步提升,語(yǔ)音識(shí)別技術(shù)的普及程度將會(huì)再度提高,相關(guān)的產(chǎn)品將更為公眾所接受,語(yǔ)音識(shí)別市場(chǎng)的爆發(fā)也就可期了。