導(dǎo)讀:在需要AI相關(guān)算力的應(yīng)用中,使用專用AI加速器的收益往往大于加強(qiáng)處理器性能。
今年上半年,ARM發(fā)布了針對MCU場景的首款microNPUEthosU55系列。該microNPU主打超低功耗,根據(jù)用戶需求可以搭載32-256個MAC(乘法累加器)單元,最高可以提供0.5TOPS的算力。ARM給EthosU55搭配的處理器是高端CortexM系列處理器(例如CortexM55),可見在當(dāng)時EthosU55設(shè)計(jì)的初衷就是賦能中高端MCU市場。
在過了半年多時間之后,ARM在最近又發(fā)布了EthosU65系列,作為EthosU55的升級版本。EthosU65是ARM和主要合作方NXP一起定義和設(shè)計(jì),相對于EthosU55的主要區(qū)別在于EthosU65中的MAC單元數(shù)量從原來的最多256增加到了512,從而將最大的算力從0.5TOPS提升到了1TOPS。此外,在NXP的系統(tǒng)設(shè)計(jì)中,整體系統(tǒng)中除了EthosU65除了搭配CortexM之外,還配上了一個CortexA系列處理器。
我們認(rèn)為,ARM在一年中連續(xù)發(fā)布兩代針對MCU的microNPU,一方面說明了MCU市場對于AI和AI加速器確實(shí)有很強(qiáng)的需求,而另一方面,我們也看到了隨著智能家居等新品類的出現(xiàn)和流行,MCU和APU之間的間隔正在縮小,這也將為未來的智能MCU生態(tài)帶來新的變化。
MCU搭配AI加速器正在成為主流
在2017年之后,智能MCU慢慢進(jìn)入了大眾的視野。例如,在2017年意法發(fā)布了ProjectOrlando作為實(shí)驗(yàn)性質(zhì)的MCU超低功耗AI加速器單元,而瑞薩也在2018年發(fā)布了針對MCU的可編程可重構(gòu)協(xié)處理器DRP。在經(jīng)過了三年發(fā)展之后,我們認(rèn)為在MCU中加入AI加速器正在變得越來越主流,而且在需要AI相關(guān)算力的應(yīng)用中,使用專用AI加速器的收益往往大于加強(qiáng)處理器性能。
從應(yīng)用的角度來說,AI加速器搭配MCU更加主流的主要原因是需要AI的場景越來越普遍,而且從具體的算法和模型來看正在收斂到少數(shù)幾個模型,例如機(jī)器視覺(人臉識別,物體識別)和語音喚醒詞中需要的卷積神經(jīng)網(wǎng)絡(luò),以及在一些較為先進(jìn)的語音識別中需要的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。如果說在三年前,未來AI算法和應(yīng)用生態(tài)前景還不夠明確,因此會出現(xiàn)走專用化(AI加速器)和通用化(加強(qiáng)處理器性能以及可編程協(xié)處理器)兩條道路的話,那么在應(yīng)用和相關(guān)算法都已經(jīng)很集中的今天,AI加速器已經(jīng)成為較為明確的選擇了,因?yàn)橐环矫媸褂脤S没腁I加速器可以提供最佳的性能和能效比,而且另一方面在芯片設(shè)計(jì)門檻上事實(shí)上也并不太高,事實(shí)上更考驗(yàn)設(shè)計(jì)能力的反而是編譯器和相關(guān)的軟件/模型優(yōu)化。因此,我們認(rèn)為在未來會有更多智能MCU相關(guān)的產(chǎn)品和解決方案出現(xiàn)。
MCU與APU的融合
我們觀察到的另一個趨勢是MCU和APU,至少在一些熱門的場景中(例如智能家電),正在走向融合以組成新的系統(tǒng)。
在過去的家用電器中,MCU是常見的元件,它主要用于家用電器的控制,并且能執(zhí)行一些簡單的預(yù)定義程序。上一代家用電器中,需要用到計(jì)算的場景幾乎沒有,所以MCU除了控制之外,并不需要負(fù)責(zé)計(jì)算。而在上一代的MCU和APU的分工定位中,MCU通常意味著低功耗,低成本,低處理能力;而APU則代表著高性能,高成本以及高功耗。在對于成本需求較高的家電領(lǐng)域,使用高成本APU的機(jī)會很少。
而在這一代的智能家電中,隨著AI的普及,對于計(jì)算的要求越來越高,這也是MCU越來越多搭配AI加速器的原因。除此之外,“智能化”的另一個涵義通常是能和人做交互,因此在這些智能家電中,往往還需要跑一個操作系統(tǒng),這樣的需求就會需要一個類似APU的核來完成。在這樣的需求下,使用APU搭配能處理AI算力的MCU就是一個合理的選擇。這里的MCU不再是傳統(tǒng)上用于watchdog的APU周邊設(shè)備,而是一個能以高能效比處理大量實(shí)際任務(wù)的重要模塊。舉例來說,在需要聲控喚醒的智能設(shè)備中,就可以采用這樣的方案:高功耗的APU絕大多數(shù)時候處于深度睡眠狀態(tài),同時帶有AI處理能力的低功耗MCU則處于監(jiān)聽狀態(tài),當(dāng)MCU上以低功耗運(yùn)行的AI加速器檢測到喚醒詞時,MCU負(fù)責(zé)喚醒APU,同時APU則執(zhí)行更復(fù)雜的語音識別算法并且完成相應(yīng)的操作,例如播放音樂,或者語音通話等等。在這樣的一個系統(tǒng)中,智能MCU和APU各負(fù)其責(zé),由于絕大多數(shù)時間APU處于深度睡眠狀態(tài),因此整體功耗可以控制到較低的水準(zhǔn);同時,我們看到MCU需要監(jiān)聽環(huán)境,執(zhí)行AI算法并且在需要的時候準(zhǔn)備喚醒APU,因此MCU中的高能效比AI處理能力就成了關(guān)鍵。
此外,另一個推動APU+智能MCU方案的因素是智能家居對于成本的需求不再那么苛刻。一方面,不少消費(fèi)者愿意為智能家居中的AI能力付相應(yīng)的溢價;另一方面,許多智能家居的背后有著互聯(lián)網(wǎng)巨頭的加持,智能家居更多是一個使用互聯(lián)網(wǎng)巨頭相應(yīng)服務(wù)的一個入口,因此相對于成本互聯(lián)網(wǎng)公司更關(guān)心的是智能家居能實(shí)現(xiàn)的功能特性。因此,智能家居對于成本的要求不再像上一代家用電器那么苛刻,從而APU+智能MCU的方案也會得到更多的應(yīng)用。
市場生態(tài)將如何發(fā)展?
智能MCU未來的市場生態(tài),我們認(rèn)為可以從多個維度去分析。
首先是RISC-V和ARM之間的競爭格局。從智能MCU的技術(shù)生態(tài)方面做分析,我們認(rèn)為RISC-V在這個智能領(lǐng)域并沒有特別的優(yōu)勢。如前所述,智能MCU的主流技術(shù)路徑是MCU搭配AI加速器,而AI加速器的設(shè)計(jì)通常和處理器指令集(即使用ARM還是RISC-V)關(guān)系不大。另一方面,AI加速器中事實(shí)上軟件編譯器是一個重要難點(diǎn),而這一方面擁有較大團(tuán)隊(duì)和時間投入的ARM顯然更有優(yōu)勢一些。另一方面,RISC-V在這個領(lǐng)域的使用往往是考慮到可定制性和可控知識產(chǎn)權(quán),因此我們認(rèn)為更有可能是一些對于深度定制產(chǎn)品的大公司有更大的動力去使用RISC-V來實(shí)現(xiàn)芯片-軟件-產(chǎn)品協(xié)同設(shè)計(jì)。一個典型的例子就是阿里巴巴對于RISC-V的大力投入,我們認(rèn)為未來中國基于RISC-V的智能MCU很可能會首先在阿里巴巴的物聯(lián)網(wǎng)和智能家居產(chǎn)品中成為主力。
其次,我們還可以分析智能MCU中AI加速器方案的生態(tài)。目前,除了以ARM的microNPU為代表的AI加速器之外,還有以CadenceHiFi系列為代表的的DSP也在積極布局這個市場。DSP在這個市場的主要優(yōu)勢在于語音相關(guān)的AI應(yīng)用,因?yàn)镈SP技術(shù)在音頻相關(guān)應(yīng)用已經(jīng)有了幾十年的積累,因此在加入神經(jīng)網(wǎng)絡(luò)支持后就可以覆蓋語音相關(guān)的AI場景,而目前我們看到的是智能語音占領(lǐng)了智能MCU中很大的一塊市場需求,這也為DSP方案提供了很強(qiáng)的支撐。而在以機(jī)器視覺為主的方案中,一個專門為卷積神經(jīng)網(wǎng)絡(luò)做優(yōu)化的AI加速模塊目前來從性能和能效比還是會更強(qiáng)一些。
最后,我們還看到了許多以低功耗為主打的AI芯片公司也在積極布局這個市場,例如能實(shí)現(xiàn)微瓦級別機(jī)器視覺任務(wù)加速的識時科技等。以傳統(tǒng)公司立足MCU并加入AI加速模塊賦予MCU以智能不同,AI芯片公司對于這個市場的打法是基于自己的AI處理器方案,搭配一個MCU來實(shí)現(xiàn)智能MCU。這樣的方案更適合對于人工智能處理有極致需求的場景(比如需要超低功耗超高能效比的AI處理能力,類似智能門鎖等),因此隨著未來AI應(yīng)用場景進(jìn)一步下沉,我們預(yù)計(jì)會看到會有越來越多的AI芯片公司進(jìn)入這個市場。