本刊記者 薛士然
ARM看上的不止是物聯(lián)網(wǎng),還有人工智能
本刊記者 薛士然
目前,業(yè)界所用的MCU絕大部分都是基于ARM Cortex內(nèi)核的,所以ARM的技術(shù)走向會影響整個處理器行業(yè)的發(fā)展。近日,ARM Tech Day 2017在北京舉行,來自ARM的市場和技術(shù)專家介紹了ARM未來的發(fā)展規(guī)劃和技術(shù)走向。
DesignStart項目升級,Cortex-M0和Cortex-M3免預(yù)付授權(quán)費
事實上,從2010年起,ARM DesignStart就給用戶提供了快速獲得ARM IP的途徑。2015年,ARM又通過DesignStart項目開放了Cortex-M0內(nèi)核,免除預(yù)付授權(quán)費或者評估費用,通過一個簡單的可下載授權(quán)就可進行即時免費下載,用于評估和原型合法,而版稅只有在實現(xiàn)商業(yè)化量產(chǎn)之后才收取,這樣就有更多的嵌入式設(shè)計工程師、初創(chuàng)企業(yè)以及OEM廠商成為ARM生態(tài)系統(tǒng)的新成員。
如今,ARM再次對DesignStart項目進行升級,將Cortex-M3也加入免預(yù)付授權(quán)費的行列。據(jù)ARM計算產(chǎn)品事業(yè)部高級產(chǎn)品營銷經(jīng)理Phil Burr介紹,Cortex-M0和Cortex-M3是Cortex-M系列中出貨量最大的產(chǎn)品,每半小時就有25萬出貨,ARM選擇這兩個內(nèi)核加入DesignStart項目,就是希望此項目能夠惠及更多的嵌入式開發(fā)者,幫助創(chuàng)新者以更小的風險將產(chǎn)品推向市場,將創(chuàng)意變?yōu)楝F(xiàn)實。
同時,Phil Burr也表示,Cortex-M0和Cortex-M3免除了預(yù)付授權(quán)費,肯定是會影響公司的營收,但是這樣的決策是非常正確的,因為可以助力于使用兩個內(nèi)核實現(xiàn)更廣泛的嵌入式智能設(shè)計,加速實現(xiàn)一萬億芯片互聯(lián)。除了免除Cortex-M0/M3的預(yù)付授權(quán)費之外,大量已經(jīng)可用于基于ARM平臺的軟件和中間件也可以使用,這也是非常多的工程師喜歡使用ARM內(nèi)核做開發(fā)的原因。
ARM有名的big.LITTLE技術(shù)演進為DynamIQ技術(shù)
2017年3月,ARM推出了全新的DynamIQ技術(shù),其作為未來ARM Cortex-A系列處理器的基礎(chǔ),將為多核處理器的技術(shù)發(fā)展做出貢獻。ARM計算產(chǎn)品事業(yè)部高級營銷總監(jiān)Ian Smythe對此進行了深入解讀。
據(jù)Ian Smythe介紹,DynamIQ技術(shù)是ARM big.LITTLE技術(shù)的重要演進,其將通過“根據(jù)不同的任務(wù)選擇最合適的處理器”的方式來推動多核處理器的智能計算,允許對單一計算集群上的大小核進行配置,而這在big.LITTLE中是不可能實現(xiàn)的??梢哉J為DynamIQ是針對未來移動計算的技術(shù),隨著人工智能和機器學(xué)習時代的到來,單純追求線性核性能的提升已經(jīng)不能滿足需求,只有根據(jù)處理器核的計算能力來分配相匹配的任務(wù),才能智能化地發(fā)揮每個處理器的作用,比如,計算量大的任務(wù)交給大核,一些持久的小計算任務(wù)就交給小核來完成。
因為DynamIQ技術(shù)采用全新的處理器指令集,采用此技術(shù)后,Cortex-A75系列處理器可實現(xiàn)比基于Cortex-A73的設(shè)備高50倍的人工智能性能,并最多可提升10倍CPU和SoC上指定硬件加速器之間的反應(yīng)速度;SoC設(shè)計者可以在單個集群中最多部署8個核,并且每個核可以有各自不同的性能特性;通過對每一個處理器進行獨立的頻率控制,可以高效地在不同任務(wù)間切換最合適的處理器。
因為DynamIQ使用的是專有指令,所以可以采用此技術(shù)的只有Cortex-A75、Cortex-A55和Mali-G72三款處理器。
Cortex-A75是DynamIQ技術(shù)中的大核
Cortex-A75是首款基于DynamIQ技術(shù)的高性能CPU,在相同頻率下,比Cortex-A73性能提升20%。Ian Smythe介紹到,Cortex-A75中微架構(gòu)主要做了以下改進:有超標量處理器核心,與上一代產(chǎn)品相比能夠解碼、發(fā)出以及執(zhí)行更多的指令,支援完全亂序處理、無阻塞高吞吐量一級高速緩存以及高級指令和數(shù)據(jù)預(yù)取;有位于處理核心附近的專用二級高速緩存,這些專用二級高速緩存的容量可以配置,縮短了內(nèi)存的存取延遲,讓任務(wù)能夠更接近核心,實現(xiàn)更快的處理和更低的功耗;DynamIQ共享單元(DSU)中的統(tǒng)一共享三級高速緩存可被集群內(nèi)的所有處理器共享。
Cortex-A75可廣泛應(yīng)用與多個領(lǐng)域,其不僅適用于移動和消費性領(lǐng)域,還可以用于高要求的聯(lián)網(wǎng)和服務(wù)器等場合。ARM合作伙伴既可以單獨使用Cortex-A75處理器,也可以使用多個(最多4顆)處理器組成多核處理器,還可以與Cortex-A55處理器構(gòu)成big.LITTLE組合(一共最多8顆處理器),其中Cortex-A75扮演大核的角色。
Cortex-A55是DynamIQ技術(shù)中的小核
伴隨著物聯(lián)網(wǎng)、人工智能、機器學(xué)習熱潮的到來,ARM一直在研究能夠?qū)崿F(xiàn)從端到云的高效能處理器,因此Cortex-A55應(yīng)運而生。其微架構(gòu)比上一代產(chǎn)品有如下改進:對分支預(yù)測程序進行了全面修改,在其算法中融入了神經(jīng)網(wǎng)絡(luò)元素來改進預(yù)測,而且新增了零周期分支預(yù)測程序以便進一步減少流水線中的泡沫,這樣可以使指令之間的空閑時間越來越短;Cortex-A55中的二級緩存對每一顆CPU而言都是專用緩存,這樣一來與Cortex-A55相比,二級高速緩存的存取時間縮短了50%以上,而且二級高速緩存的工作頻率與CPU相同,通過降低延遲大幅提升CPU在各類基準測試工具中的性能;推出了三級高速緩存,可供集群內(nèi)的所有Cortex-A55 CPU共享,讓DynamIQ集群能夠得益于CPU附近增多的內(nèi)存容量,從而提升性能、降低系統(tǒng)功率;Cortex-A55 NEON流水線中增添了新的架構(gòu)指令,使其能夠在每個周期執(zhí)行16次8位整數(shù)運算,這些新的指令還使Cortex-A55能夠在每個周期執(zhí)行8次16位浮點運算、對兩條MAC指令進行舍入操作,有利于色彩空間轉(zhuǎn)換。這些改進使得Cortex-A55在保持與Cortex-A53相同功耗的基礎(chǔ)上,性能得到大幅提升。
Cortex-A55與Cortex-A75可以組成在DynamIQ技術(shù)上的大小核,Cortex-A55扮演小核的角色。
Mali-G72挑起高端GPU的大梁
ARM多媒體處理部高級產(chǎn)品經(jīng)理Espen Oybo介紹
了Mali-G72的未來應(yīng)用。移動端的復(fù)雜游戲、下一代VR技術(shù)在移動端的實現(xiàn)、設(shè)備端的機器學(xué)習,這些都可以借助Mali-G72實現(xiàn)。
與上一代產(chǎn)品相比,ARM在Mali-G72上做了如下改進:增加了區(qū)塊緩沖存儲器,讓GPU在每個運行區(qū)塊支持更多的存儲空間,這就提升了輕負載情況下的數(shù)據(jù)吞吐量;重新平衡了執(zhí)行引擎的數(shù)據(jù)路徑,以移除某些很少使用的指令,并以簡單的指令順序取而代之,降低使用面積與耗電;針對復(fù)雜運算進行優(yōu)化,以支持更高的圖形復(fù)雜性;為了進一步降低帶寬,增加了一級緩存與寫回緩存的大小,同時也改變了指令緩存邏輯,減少了對復(fù)雜內(nèi)容產(chǎn)生的緩存遺漏情況。