人工智能產(chǎn)業(yè)鏈由基礎(chǔ)層、技術(shù)層與應(yīng)用層構(gòu)成。同樣,智能語(yǔ)音識(shí)別亦由這三層組成,本文從語(yǔ)音識(shí)別的商業(yè)化應(yīng)用出發(fā),并探討驅(qū)動(dòng)語(yǔ)音識(shí)別發(fā)展的算法及硬件計(jì)算能力,三位一體淺析語(yǔ)音識(shí)別現(xiàn)狀、發(fā)展趨勢(shì)及仍然面臨的難點(diǎn)。
基礎(chǔ)層的核心處理芯片是支持海量訓(xùn)練數(shù)據(jù)、復(fù)雜的深度網(wǎng)絡(luò)建模方式以及實(shí)時(shí)推斷的關(guān)鍵要素。語(yǔ)音識(shí)別包括訓(xùn)練與識(shí)別(給定訓(xùn)練好的模型,對(duì)輸入語(yǔ)音進(jìn)行識(shí)別)兩部分。
在訓(xùn)練階段,由于數(shù)據(jù)量及計(jì)算量巨大,傳統(tǒng)的CPU或者單一處理器幾乎無(wú)法單獨(dú)地完成一個(gè)模型訓(xùn)練過(guò)程(初始階段,谷歌大腦語(yǔ)音識(shí)別項(xiàng)目是基于16000個(gè)CPU,用了75天,完成一個(gè)有156M參數(shù)的深度神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練工作)。原因在于CPU芯片架構(gòu)中只有少量的邏輯運(yùn)算單元,且指令執(zhí)行是一條接一條的串行過(guò)程,其算力不足。研發(fā)具有高計(jì)算能力的芯片成為語(yǔ)音識(shí)別乃至整個(gè)人工智能硬件的發(fā)展趨勢(shì)。
與CPU不同的是,GPU具有大量的計(jì)算單元,因而特別適合大規(guī)模并行計(jì)算。另外,F(xiàn)PGA、TPU、ASIC這些延續(xù)傳統(tǒng)架構(gòu)的芯片亦在大規(guī)模并行計(jì)算中得到廣泛的應(yīng)用。需要注意的是,從本質(zhì)上講,這些芯片都是計(jì)算性能與靈活性/通用性trade-off的結(jié)果,即,如圖3所示。CPU,GPU是通用處理器,DSP歸為ASP,TPU是ASIC這一類,F(xiàn)PGA則是一種Configurable Hardware。

圖3.來(lái)源:RIT的Shaaban教授的計(jì)算機(jī)體系結(jié)構(gòu)課程
另外,基于實(shí)時(shí)性、低功耗、高計(jì)算力的需求,使用專屬語(yǔ)音識(shí)別AI芯片處理識(shí)別階段大量的矩陣運(yùn)算,進(jìn)行運(yùn)算加速是今后終端語(yǔ)音識(shí)別芯片市場(chǎng)的主流方向。
1、云端場(chǎng)景
由于計(jì)算量、訓(xùn)練數(shù)據(jù)量極大,且需要大量的并行運(yùn)算,目前語(yǔ)音識(shí)別的模型訓(xùn)練部分基本都放在云端進(jìn)行。在云端訓(xùn)練中,英偉達(dá)的GPU占主導(dǎo)市場(chǎng),多GPU并行架構(gòu)是終端訓(xùn)練常用的基礎(chǔ)架構(gòu)方案。另外,Google在自己的人工智能生態(tài)中,使用TPU做訓(xùn)練與識(shí)別。
目前階段,語(yǔ)音識(shí)別公司的識(shí)別部分也大多放在云端,比如Google home、亞馬遜Echo,國(guó)內(nèi)的科大訊飛、云知聲等。在云端識(shí)別中,雖然也有使用GPU,但是GPU并不是最優(yōu)方案,更多的是利用CPU、GPU、FPGA各自優(yōu)勢(shì),采用異構(gòu)計(jì)算方案(CPU+GPU+FPGA/ASIC)。
2、終端場(chǎng)景
在智能家居等行業(yè)應(yīng)用中,對(duì)實(shí)時(shí)性、穩(wěn)定性及隱私性有極高的要求。出于對(duì)云端數(shù)據(jù)處理能力、網(wǎng)絡(luò)延遲及數(shù)據(jù)安全性的考慮,把計(jì)算下放到終端硬件中的邊緣計(jì)算得到了快速的發(fā)展。終端離線的語(yǔ)音識(shí)別即是一種基于邊緣計(jì)算的邊緣智能,我們認(rèn)為離線與在線是語(yǔ)音識(shí)別共存的發(fā)展路線。在終端離線識(shí)別中,需要把訓(xùn)練好的模型存儲(chǔ)到芯片。給定語(yǔ)音輸入時(shí),引擎會(huì)調(diào)用模型,完成識(shí)別。終端語(yǔ)音識(shí)別兩個(gè)關(guān)鍵因素是實(shí)時(shí)性與成本,其中實(shí)時(shí)性影響用戶體驗(yàn),成本影響語(yǔ)音識(shí)別應(yīng)用范圍。
由于深度神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別中取得明顯的性能優(yōu)勢(shì),其是目前主流的語(yǔ)音識(shí)別建模方式。但是神經(jīng)網(wǎng)絡(luò)的模型參數(shù)量一般非常大,且識(shí)別過(guò)程中有大量的矩陣計(jì)算,常用的DSP或者CPU處理該問(wèn)題時(shí)需要大量的時(shí)間,從而無(wú)法滿足語(yǔ)音識(shí)別的實(shí)時(shí)性需求。GPU、FPGA的價(jià)格又是阻礙其在終端語(yǔ)音識(shí)別中大規(guī)模應(yīng)用的主要障礙。考慮到終端應(yīng)用中,場(chǎng)景相對(duì)比較固定,且需要很高的計(jì)算性能,研發(fā)語(yǔ)音識(shí)別專屬芯片是終端語(yǔ)音識(shí)別硬件發(fā)展趨勢(shì)。
- 啟英泰倫(ChipIntelli):2015年11月在成都成立。2016年6月推出了全球首款基于人工智能的語(yǔ)音識(shí)別芯片CI1006,該芯片集成了神經(jīng)網(wǎng)絡(luò)加速硬件,可實(shí)現(xiàn)單芯片、本地離線、大詞匯量識(shí)別,且識(shí)別率明顯高于傳統(tǒng)終端語(yǔ)音識(shí)別方案。另外,啟英泰倫能夠提供廉價(jià)的單麥遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別模組,其實(shí)際識(shí)別效果能夠媲美使用了科勝訊降噪模塊的雙麥模組,大幅度降低遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別模組成本。啟英泰倫在終端語(yǔ)音識(shí)別專用芯片發(fā)展上取得了明顯的技術(shù)及先發(fā)優(yōu)勢(shì)。
- MIT項(xiàng)目:MIT黑科技,即,MIT在ISSCC2017上發(fā)表的paper里的芯片,該芯片能夠支持DNN運(yùn)算架構(gòu),進(jìn)行高性能的數(shù)據(jù)并行計(jì)算,可以實(shí)現(xiàn)單芯片離線識(shí)別上千單詞。
- 云知聲:云知聲致力于打造“云端芯”語(yǔ)音生態(tài)服務(wù)系統(tǒng),其剛獲取3億人民幣的投資,將把部分資金投入到終端語(yǔ)音識(shí)別芯片“UniOne”的研發(fā)中,據(jù)報(bào)道,該芯片將會(huì)內(nèi)置DNN處理單元,兼容多麥克風(fēng)陣列。
過(guò)去幾十年,尤其是最近幾年,語(yǔ)音識(shí)別技術(shù)不斷取得突破。但是,在大多數(shù)場(chǎng)景下,語(yǔ)音識(shí)別遠(yuǎn)沒有達(dá)到完美。解決遠(yuǎn)場(chǎng)復(fù)雜環(huán)境下的語(yǔ)音識(shí)別問(wèn)題仍然是當(dāng)前研究熱點(diǎn)。另外,通常情況下,語(yǔ)音識(shí)別都是針對(duì)特定的任務(wù),訓(xùn)練專用的模型,因而,模型的可移植性比較差。
人類在對(duì)話過(guò)程中,可以很高效的利用先驗(yàn)知識(shí),但是目前的語(yǔ)音識(shí)別系統(tǒng)都還無(wú)法有效利用先驗(yàn)知識(shí)。因此,語(yǔ)音識(shí)別還有很多問(wèn)題待解決。令人興奮的是,隨著高質(zhì)量數(shù)據(jù)的不斷積累、技術(shù)的不斷突破及硬件平臺(tái)算力的提升,語(yǔ)音識(shí)別正在向我們期待的方向快速發(fā)展。




