浮點
- 神經(jīng)網(wǎng)絡(luò)訓(xùn)練處理器的浮點運算優(yōu)化架構(gòu)
訓(xùn)練神經(jīng)網(wǎng)絡(luò)時,浮點運算比定點運算具有更高的精度[12]。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)電路設(shè)計研究集中在利用GPU 或定點計算硬件進行浮點運算。然而,大多數(shù)現(xiàn)有的基于浮點的神經(jīng)網(wǎng)絡(luò)僅限于推理操作,只有少數(shù)包含針對高速服務(wù)器而非低功耗移動設(shè)備的訓(xùn)練引擎[13]。將訓(xùn)練與高精度目標(biāo)結(jié)合起來需要使用浮點運算符。神經(jīng)網(wǎng)絡(luò)中的高精度浮點運算結(jié)構(gòu)往往會大量能耗。因此,需要設(shè)計出優(yōu)化浮點運算的加速器。通過計算近似技術(shù)可以有效降低計算復(fù)雜性,最大限度地減少浮點算子的顯著能耗[14]。雖
計算機測量與控制 2023年6期2023-07-06
- 基于部分積概率分析的高精度低功耗近似浮點乘法器設(shè)計
。相較于定點數(shù),浮點數(shù)的動態(tài)范圍更大,因此被廣泛應(yīng)用于高動態(tài)范圍(High-Dynamic Range,HDR)圖像處理及無線通信等領(lǐng)域。作為一種常用的浮點算術(shù)運算單元,浮點乘法器的復(fù)雜度高、硬件資源消耗大,在具有容錯特性的浮點應(yīng)用中使用近似浮點乘法器可以有效降低系統(tǒng)功耗。目前對近似浮點乘法器的研究工作主要是針對尾數(shù)乘法的近似設(shè)計。尾數(shù)乘法與定點乘法相似,可根據(jù)定點乘法器的近似思路對其進行設(shè)計。定點乘法器作為最基本的算術(shù)運算單元之一,相比于加法器等單元有著
電子與信息學(xué)報 2023年1期2023-02-18
- 基于Gold-Schmidt算法的高精度低延遲浮點平方根運算單元的VLSI實現(xiàn)
準(zhǔn)中的128 位浮點標(biāo)準(zhǔn)數(shù)據(jù)格式,模塊化地實現(xiàn)了浮點平方根運算單元的VLSI 電路設(shè)計。隨后,筆者對實現(xiàn)的128 位浮點平方根運算單元進行了仿真測試,結(jié)果表明,本文設(shè)計的硬件運算單元滿足全浮點域的精度要求。接著,筆者使用TSMC 65nm 標(biāo)準(zhǔn)工藝庫對該硬件運算單元做了邏輯綜合,結(jié)果表明,本文設(shè)計的硬件運算單元工作頻率可達800MHz,完成一次完整的128 位浮點計算需要4 個時鐘周期,最大計算誤差小于1 比特位,硬件電路面積為0.8216mm2,硬件功耗
華東科技 2023年1期2023-02-14
- GNSS載波相位整數(shù)等變估計及其PPP性能提升算法
道、鐘差等,導(dǎo)致浮點模糊度解精度相對較低,PPP模糊度固定解存在可靠性風(fēng)險[13]。衛(wèi)星軌道、鐘差產(chǎn)品及誤差模型改正精度對模糊度浮點解偏差影響較大,進一步增大了模糊度固定可靠性提升的難度[14]。當(dāng)前PPP模糊度固定的常見做法是,在獲取浮點模糊度之后,進一步將其分解為寬巷和窄巷模糊度,分別引入寬巷與窄巷小數(shù)偏差改正后,對寬巷模糊度進行取整固定,對窄巷模糊度用LAMBDA降相關(guān)搜索實現(xiàn)固定[8,15]。針對載波相位模糊度處理難題,研究人員嘗試引入更多方法以便
測繪學(xué)報 2022年8期2022-09-01
- 基于申威1621數(shù)學(xué)庫中的非精確結(jié)果異常處理①
用. 數(shù)學(xué)函數(shù)在浮點運算[3]過程中,會出現(xiàn)浮點異常的情況,如何高效處理則至關(guān)重要. 文獻[4,5]充分證明了一個數(shù)值計算軟件要達到?jīng)]有浮點異常產(chǎn)生的效果,其實現(xiàn)困難程度巨大. 在驗證軟件的可靠性方面,文獻[6–8]提出了測試工具DART,CUTE 等,其中DART 可以對任何編譯的程序進行自動化測試. 文獻[9,10]提出了浮點標(biāo)準(zhǔn)形式化的工具Coq,Gappa 等,文獻[10]提出的Gappa 使用區(qū)間算法自動評估和傳播舍入誤差,并且演示了該工具在浮點
計算機系統(tǒng)應(yīng)用 2022年7期2022-08-04
- 基于編譯時插樁的浮點異常檢測方法*
)1 引言目前,浮點計算被廣泛應(yīng)用于各個領(lǐng)域,現(xiàn)有的計算機硬件設(shè)計及IEEE-754[1]標(biāo)準(zhǔn),決定了浮點數(shù)是實數(shù)的有限精度編碼[2],不能精確表示出實數(shù),在進行浮點計算時,可能會導(dǎo)致不精確或者異常的結(jié)果。由于浮點數(shù)轉(zhuǎn)整數(shù)出現(xiàn)的整數(shù)溢出異常,歐洲Ariane 5火箭在1996年發(fā)射時出現(xiàn)了嚴重的升空自爆現(xiàn)象[3],造成了巨額的經(jīng)濟損失。因此,提前發(fā)現(xiàn)和規(guī)避,是目前解決浮點計算異常問題的關(guān)鍵。能夠?qū)Ξ惓L幚砥鸬街笇?dǎo)作用的異常檢測方面的研究也在蓬勃發(fā)展。當(dāng)前的
計算機工程與科學(xué) 2022年6期2022-06-23
- 真正的“理論”性能怎樣看待GPU浮點運算
期只負責(zé)處理一個浮點數(shù)據(jù),所以總的浮點運算次數(shù)就是核心數(shù)量×?xí)r鐘周期了(當(dāng)前常見的GPU浮點運算單位一般是TFLOPS,即每秒浮點操作多少萬億次)。又因為現(xiàn)在的核心可以一次性處理一個雙精度浮點數(shù)據(jù),它相當(dāng)于兩個最基礎(chǔ)的單精度浮點數(shù)據(jù),所以再×2就得到了GPU的浮點運算次數(shù)。國產(chǎn)GPU、英偉達RTX40系列和AMD RX 7000系列的理論性能其實就是根據(jù)其透露出的配置計算出來的理論浮點計算性能。因為現(xiàn)在的圖像是分成像素點來處理的,每個點的色彩都要進行浮點運
電腦愛好者 2022年5期2022-05-30
- OpenVX 高效能并行可重構(gòu)運算通路的設(shè)計與實現(xiàn)
1 級使用4 個浮點乘法器并行計算式(2)和式(3)中的乘積項;第2級將4個輸出結(jié)果兩兩相加;第3 級 將M1,3、M2,3分別和a0、a1相加并輸出最終計算結(jié)果。由圖5可知,仿射變換的流水線數(shù)據(jù)通路需要4 個浮點乘法器及4 個浮點加法器。圖5 仿射變換流水線Fig.5 Affine transformation pipeline透視變換對輸入圖像進行透視變換運算,支持的數(shù)據(jù)類型為vx_unit8 和vx_float32。該函數(shù)使用3×3 的透視矩陣M對像
計算機工程 2021年12期2021-12-20
- 基線長度和俯仰角約束條件下的模糊度浮點解求解及仿真實現(xiàn)
。2 整周模糊度浮點解求解技術(shù)的發(fā)展隨著GPS載波相位差分技術(shù)的深入研究,利用兩個或多個接收機進行高精度的載體姿態(tài)測量成為可能??焖?、準(zhǔn)確、可靠地求解整周模糊度是載體姿態(tài)測量的關(guān)鍵問題之一。針對這個問題,國內(nèi)外許多學(xué)者和研究人員做了大量的工作。安徽理工大學(xué)徐躍[1]針對短基線單歷元解算考慮到GEO衛(wèi)星模糊度較難固定問題,在寬巷模糊度固定的基礎(chǔ)上約束固定出IGSO和MEO衛(wèi)星的模糊度,然后再用IGSO和MEO衛(wèi)星模糊度約束固定出GEO衛(wèi)星模糊度,而固定寬巷模
指揮控制與仿真 2021年5期2021-10-22
- 二進制浮點數(shù)轉(zhuǎn)十進制的快速方法
情況下,對內(nèi)存中浮點數(shù)二進制的轉(zhuǎn)換支持并不完善?;赟IMD 的向量浮點單元,可以極大提高運算能力,但同時也增大了驗證的難度。特別是在CPU 硅后驗證階段,硬件不可靠的情況下,調(diào)試時就需要把內(nèi)存中浮點數(shù)取出然后轉(zhuǎn)換為十進制數(shù)去分析是否符合預(yù)期。例如在龍芯2K1000[4]平臺上進行向量優(yōu)化時就遇到大量的浮點異常,這與傳遞到浮點寄存器中的數(shù)據(jù)大小有關(guān)。關(guān)于浮點數(shù)二進制轉(zhuǎn)換為十進制,目前的多數(shù)研究還停留在根據(jù)IEEE754 標(biāo)準(zhǔn)去解析計算的階段,這個計算過程是
- 基于Karatsuba和Vedic算法的快速單精度浮點乘法器
0663)單精度浮點數(shù)乘法運算的耗時主要集中在24 bit的尾數(shù)相乘部分。為了提高單精度浮點數(shù)乘法運算的速度,研究者提出了各種單精度浮點乘法器的改進方法[1-8]。文獻[1]提出了基于Karatsuba算法[9-10]的改進設(shè)計,通過數(shù)學(xué)運算的公式變換,用加法器代替乘法器,相比于24 bit尾數(shù)直接相乘的單精度浮點乘法器的設(shè)計,該設(shè)計減少了3個乘法器,只使用了6個乘法器。但是乘法器的使用限制了單精度浮點乘法器運算速度的進一步提高。文獻[2]提出了一種基于V
電子科技大學(xué)學(xué)報 2021年3期2021-06-19
- DMR:兼容RISC-V架構(gòu)的亂序超標(biāo)量通用處理器核
、訪存調(diào)度隊列和浮點調(diào)度隊列;調(diào)度隊列中的指令就緒后,就會被亂序調(diào)度執(zhí)行,每拍最多可以調(diào)度9條指令,其中3條整數(shù)指令、1條分支指令、2條load指令、1條store指令和2條浮點指令;指令被調(diào)度執(zhí)行時讀取寄存器文件獲取源操作數(shù),源操作數(shù)也可能來自旁路的數(shù)據(jù);指令提交按序進行;指令Cache和數(shù)據(jù)Cache均為64 KB,4路組相聯(lián),Cache行大小均為64 B.Fig.1 DMR microarchitecture圖1 DMR的微體系結(jié)構(gòu)2 流水線DMR的
計算機研究與發(fā)展 2021年6期2021-06-17
- 兼容bfloat16 的高速浮點加法器設(shè)計
越來越高。 由于浮點數(shù)科學(xué)計數(shù)的方式,在圖像識別、機器學(xué)習(xí)等領(lǐng)域得到了越來越廣泛的使用,對于數(shù)據(jù)計算速率的提升有很大的作用。 由于浮點的加法、減法、轉(zhuǎn)換、比較都可以轉(zhuǎn)換為加法或者復(fù)用加法的部分計算來實現(xiàn),使得浮點加法在運算中使用頻率占50%以上[1],所以浮點加法的性能提升對于浮點計算能力的提高有著非常重要的意義。在機器學(xué)習(xí)等領(lǐng)域發(fā)展過程中發(fā)現(xiàn),一般情況下不需要用到32 位和64 位的高精度數(shù)據(jù),而bfloat16 的數(shù)據(jù)格式比IEEE 754-2008
智能計算機與應(yīng)用 2021年10期2021-02-25
- 基于RISC-V浮點指令集FPU的研究與設(shè)計
隨著嵌入式系統(tǒng)中浮點運算的需求日益增多,應(yīng)用范圍從氣候建模、電磁散射理論到圖像處理、FFT 計算[1]、特征值計算等。為了支持和加速這些應(yīng)用,需要能夠產(chǎn)生高吞吐量的高性能計算設(shè)備。浮點處理器(Floating Point Unit,F(xiàn)PU)極大地提高了這些高計算應(yīng)用的性能。在大多數(shù)現(xiàn)代通用計算機體系結(jié)構(gòu)中,浮點處理器集成在處理器芯片內(nèi),比如ARM、MIPS等[2]。浮點處理器作為一種加速器,與整數(shù)流水線并行工作,并從主處理器分擔(dān)大型計算、高延遲浮點指令。如
計算機工程與應(yīng)用 2021年3期2021-02-04
- GNSS模糊度整數(shù)估計方法圖形可視化軟件設(shè)計與應(yīng)用分析
的核心在于模糊度浮點解的整數(shù)估計. 常用的三類模糊度整數(shù)估計方法包括:整數(shù)取整、整數(shù)序貫取整和整數(shù)最小二乘[5-10]. 盡管從理論上三類整數(shù)估計算法較容易被實現(xiàn),且已有公開軟件LAMBDA3.0提供三類模糊度整數(shù)估計功能[11]. 但是單純地根據(jù)數(shù)學(xué)原理直接估計出整周模糊度,而對模糊度由實數(shù)空間映射到整數(shù)空間的過程缺乏直觀的認知,不利于對三類估計理論的深入理解. 為更好地解釋這三類整數(shù)估計過程,文獻[5-6]采用歸整域構(gòu)建了模糊度實數(shù)域與整數(shù)域之間的幾何
全球定位系統(tǒng) 2020年5期2020-11-18
- 基于啟發(fā)式搜索的浮點表達式設(shè)計空間探索方法
)上的廣泛應(yīng)用,浮點計算在FPGA 上的應(yīng)用變得越來越流行[1-4]。浮點數(shù)可以增加數(shù)據(jù)的表示范圍,但是浮點計算的誤差也會導(dǎo)致最終結(jié)果不準(zhǔn)確。根據(jù)IEEE 754 標(biāo)準(zhǔn),通過加、減或乘兩個浮點數(shù)產(chǎn)生的計算結(jié)果都應(yīng)四舍五入為IEEE 754 浮點數(shù)格式,這種舍入是浮點計算不準(zhǔn)確的原因。當(dāng)浮點數(shù)格式固定的前提下,浮點計算的誤差主要取決于浮點表達式的形式。例如:表達式(x+y)2可表示為(x+y)×(x+y)和x×(x+y)+y×(x+y)等不同的形式,當(dāng)x的取
計算機應(yīng)用 2020年9期2020-09-29
- 流水的浮點倒數(shù)近似值運算部件的設(shè)計與實現(xiàn)*
201204)浮點運算部件是微處理器的重要運算部件,與處理器的性能直接相關(guān)。常見的浮點運算包括浮點加、減、乘、乘加等。這些浮點運算在傳統(tǒng)的科學(xué)計算和工程計算應(yīng)用領(lǐng)域中應(yīng)用十分廣泛。相對于這些常見的浮點運算,浮點倒數(shù)運算并不很常用,但是在數(shù)字信號處理、多媒體、計算機圖形計算等應(yīng)用領(lǐng)域,以及部分科學(xué)計算應(yīng)用領(lǐng)域,卻比較常用,也是一種重要的運算[1]。此外,利用浮點倒數(shù)運算,還可以實現(xiàn)浮點除法運算。常用的實現(xiàn)浮點倒數(shù)運算的算法與浮點除法類似,有基于減法運算的數(shù)
國防科技大學(xué)學(xué)報 2020年2期2020-05-06
- 一種模式可配置的單精度浮點乘法器設(shè)計
耗[1]。單精度浮點乘法器采用兩個符合IEEE754標(biāo)準(zhǔn)的浮點數(shù)完成乘法運算,與定點運算相比,浮點運算單元(floating point units,FPUs)提供了高精度、高動態(tài)范圍的實際值以及簡單的編程模型[2]。一般而言,頻率、功耗和面積是衡量乘法器和處理器性能的3個重要指標(biāo)。為了降低浮點乘法器功耗,大多數(shù)的設(shè)計都是通過犧牲計算的精度來實現(xiàn)的[3-4]。例如,在某些對精度要求不高的機器學(xué)習(xí)和數(shù)據(jù)傳感技術(shù)中,有研究直接利用一個乘數(shù)的值來代替乘法的結(jié)果,
西安郵電大學(xué)學(xué)報 2020年6期2020-04-07
- DSP中的浮點與定點比較
和使用場景。1 浮點數(shù)據(jù)格式與定點數(shù)據(jù)格式1.1 浮點數(shù)據(jù)格式在計算機系統(tǒng)的發(fā)展過程中提出過多種方法表示實數(shù),但是目前為止使用最廣泛的是浮點表示法。IEEE(Institute of Electrical and Electronics Engineers,電子電氣工程師協(xié)會)在I985年制定的IEEE 754(IEEE Standard for Binary Floating-Point Arithmetic,ANSI/IEEE Std 754-1985
通信電源技術(shù) 2020年1期2020-02-20
- 基于Simulink浮點模型和定點模型的問題研究
為例,重點解釋了浮點模型和定點模型之間的區(qū)別,并通過自動生成的代碼和CodeWarrior編譯生成的可執(zhí)行文件證明定點模型相對于浮點模型所占內(nèi)存少。關(guān)鍵詞:MATLAB/Simulink;自動代碼生成;浮點;定點中圖分類號:U462? 文獻標(biāo)識碼:A? 文章編號:1671-7988(2019)04-131-03前言隨著電動汽車的快速發(fā)展,企業(yè)對電子控制系統(tǒng)的性能與開發(fā)效率提出了越來越高的要求,傳統(tǒng)手寫代碼的開發(fā)方式周期長、調(diào)試難度大,已經(jīng)很難適用于現(xiàn)代電控
汽車實用技術(shù) 2019年4期2019-10-21
- 新思科技推出ARC VPX DSP處理器IP核
加速和高性能矢量浮點流水線等增強功能有助于我們開發(fā)精確的算法實現(xiàn)。”ARC VPX5和VPX5FS處理器支持單核、雙核和四核配置。每個VPX內(nèi)核包含一個標(biāo)量執(zhí)行單元和多個矢量計算單元,支持512位矢量字節(jié)內(nèi)的8位、16位和32位SIMD運算。全新DSP處理器高度可配置功能,使開發(fā)人員能夠通過只選擇滿足性能所需的硬件功能和矢量資源來優(yōu)化功耗和尺寸。用于機器學(xué)習(xí)和人工智能應(yīng)用的神經(jīng)網(wǎng)絡(luò)算法,可以由ARC VPX處理器使用8位數(shù)據(jù)類型以及16位和32位浮點數(shù)據(jù)類
計算機與網(wǎng)絡(luò) 2019年22期2019-09-10
- 面向人工智能的浮點乘加器設(shè)計
訓(xùn)練和推理應(yīng)用。浮點乘加部件能力是衡量人工智能芯片性能的主要指標(biāo)。以NVIDIA Tesla V100為例,該芯片可達到7.5 TFLOPS的雙精度計算性能、15 TFLOPS的單精度計算性能和125 TFLOPS的張量計算性能。Tesla V100中包含2 560個FP64的計算單元和5 120個FP32的計算單元,同時引入了640個張量核心。作為人工智能卷積運算的基本單元,張量計算單元的運算方式如圖1所示。圖1 Tensor Core基本運算方式矩陣運
計算機技術(shù)與發(fā)展 2019年8期2019-08-22
- 一種機載GNSS高精度定位算法
,提高模型強度與浮點解質(zhì)量;其次,為充分挖掘模糊度參數(shù)的整周約束信息,當(dāng)模型無法可靠地固定全部模糊度時,選用部分模糊度固定策略,提高模糊度固定效率及可靠性.本文方法可自適應(yīng)調(diào)整大氣擾動隨時間、空間的變化,實現(xiàn)長短基線定位模式的靈活、有效切換,而部分模糊度固定策略充分發(fā)掘了模糊度參數(shù)的整周特性.1 GNSS定位模型1.1 浮點電離層模型GNSS動態(tài)定位非組合雙差觀測方程為(1)1.2 無電離層組合模型對于雙頻GNSS接收機,通常采用雙頻無電離層組合模型消去電
全球定位系統(tǒng) 2019年2期2019-05-07
- 傳感器數(shù)據(jù)采集系統(tǒng)設(shè)計
用單精度或雙精度浮點數(shù)進行采集,但是浮點數(shù)據(jù)在計算機內(nèi)部存儲的結(jié)構(gòu)有別于其他類型的數(shù)據(jù),同時由于傳輸?shù)倪^程中存在丟包和干擾現(xiàn)象,為實現(xiàn)在上位機和下位機之間浮點數(shù)據(jù)的采集,本文使用STM32位處理器作為下位機主控,對PC上位機和下位機之間的通訊機制進行了初步研究。2 下位機設(shè)計有刷直流電機[2]調(diào)速系統(tǒng)由有刷直流電機、電機驅(qū)動模塊、STM32F103C8T6最小開發(fā)板模塊、霍爾編碼器構(gòu)成。在使用開發(fā)版板串口時,首先對相關(guān)寄存器初始化設(shè)置,以使串口發(fā)送接收數(shù)據(jù)
中小企業(yè)管理與科技 2018年27期2018-11-07
- 基于FPGA 的浮點LMS 自適應(yīng)濾波算法的設(shè)計與實現(xiàn)
基于FPGA 的浮點LMS 自適應(yīng)濾波算法的設(shè)計與實現(xiàn)齊志強*(中國空空導(dǎo)彈研究院,河南洛陽,471009)針對定點LMS(最小均方誤差)自適應(yīng)濾波算法動態(tài)范圍小,運算精度差的弊端,提出了一種基于FPGA的浮點LMS自適應(yīng)濾波算法的實現(xiàn)方法。該方法能夠有效降低量化誤差造成的性能損失,避免了采用DSP實現(xiàn)算法造成的硬件開銷,降低了系統(tǒng)設(shè)計復(fù)雜度,提高了系統(tǒng)可靠性,同時還具有可移植性強,應(yīng)用靈活等優(yōu)點。自適應(yīng);抗干擾;浮點;最小均方誤差;FPGA引言自適應(yīng)濾波
數(shù)碼設(shè)計 2017年6期2017-12-14
- AMD發(fā)布首款Vega計算卡:16GB HBM2顯存
,其16位半精度浮點性能達到25TFLOPs,32位單精度浮點性能達到12.5TFLOPs,熱設(shè)計功耗低于300W。另外AMD全新的Vega計算卡同樣搭載了最新的HBM2顯存,容量為16GB,顯存帶寬為512GB/S,和Nvidia Tesla P100相比,AMD所使用的HBM2顯存擁有更好的緩存管理機制。作為高性能集群運算的代表廠商,超微計劃在明年上半年推出基于MI25計算卡的集群超級計算機,預(yù)計單精度性能可以達到100TFOPs。除了這張基于Vega
中國信息化周報 2016年49期2017-03-13
- 單雙精度浮點運算加法器的實現(xiàn)
:為了使單雙精度浮點加法運算方便,減少資源浪費,設(shè)計了一套可同時運行兩路單精度或一路雙精度的浮點運算加法器結(jié)構(gòu)。該浮點數(shù)加法器可通過信號控制端,在高電平時執(zhí)行雙精度浮點加法,低電平時執(zhí)行單精度浮點加法,且運算結(jié)果符合IEEE-754標(biāo)準(zhǔn)格式,通過實驗驗證,該加法器結(jié)構(gòu)合理,功能正確。關(guān)鍵詞:浮點運算;加法器;IEEE-754標(biāo)準(zhǔn)中圖分類號:TP391 文獻標(biāo)識碼:A 文章編號:1009-3044(2016)31-0231-02浮點數(shù)的引用隨著網(wǎng)絡(luò)時代的迅速
電腦知識與技術(shù) 2016年31期2017-02-27
- 不同運算機制下FFT計算精度分析*
主要研究定點、塊浮點和浮點運算機制下,頻域抽取基4算法的精度問題。首先分析了定點、塊浮點、浮點等運算機制下,基4算法基本運算單元中數(shù)據(jù)不同表現(xiàn)形式及輸出截位規(guī)則。然后利用MATLAB平臺建立了定點與塊浮點FFT仿真模型,以噪信比作為FFT輸出精度指標(biāo),研究輸出精度與輸入信號范圍、算法參數(shù)之間的關(guān)系。仿真表明,輸入為隨機序列時,定點與塊浮點FFT輸出噪信比與輸入信號幅值范圍、輸入序列長度及算法輸入位寬有關(guān)。此結(jié)論可用以解決實際工程中小信號頻譜失真問題,在工程
電子技術(shù)應(yīng)用 2016年12期2016-12-22
- 基于Xilinx FPGA lP核的浮點頻域脈沖壓縮算法的設(shè)計與實現(xiàn)
PGA lP核的浮點頻域脈沖壓縮算法的設(shè)計與實現(xiàn)邢冠培,孟凡利(上海航天電子技術(shù)研究所,上海,201109)脈沖壓縮體制雷達的發(fā)射信號通常包括多種線性調(diào)頻信號,這就要求對回波信號的脈沖壓縮處理適應(yīng)性要強,如果采用定點脈壓,不同信噪比的回波信號脈沖壓縮結(jié)果的截位各不相同,需要分別進行仿真測試,以確定截位的位置,而本文提出一種浮點頻域脈壓的算法及實現(xiàn),基于Xilinx FPGA IP核,無需考慮截位,對各種信號適應(yīng)性強,方便易用。IP核;脈沖壓縮;浮點;頻域0
電子測試 2015年15期2015-12-05
- 一種細粒度流水化控制的FPU集成方法
,該方法通過細分浮點指令的執(zhí)行狀態(tài),然后以執(zhí)行狀態(tài)為基本粒度生成與之對應(yīng)的FPU控制信息,最后根據(jù)控制信息分段處理目標(biāo)操作數(shù),并通過流水化的形式實現(xiàn)數(shù)據(jù)的回寫?;谝豢頢PARC V8型微處理器對上述方案進行了設(shè)計實現(xiàn)、仿真驗證及分析。結(jié)果表明,該FPU集成方法與公開文獻的方案相比,浮點指令關(guān)鍵路徑縮短61%,硬件消耗減小16. 9%,浮點計算效率提高1.7倍,可用于將擴展雙精度FPU集成到RISC處理器中,并使兩者高效協(xié)同運算。FPU;協(xié)同運算;細粒度;
西北工業(yè)大學(xué)學(xué)報 2015年6期2015-10-22
- 高速深流水線浮點加法單元的設(shè)計
9)高速深流水線浮點加法單元的設(shè)計張 明1,2,鄭莉平1,余寧梅1 (1.西安理工大學(xué) 自動化與信息工程學(xué)院,陜西 西安 710048;2.中國航天科技集團公司第九研究院第七七一研究所,陜西 西安 710119)在X87執(zhí)行環(huán)境下,采用基于Two-Path算法的并行深度流水線優(yōu)化算法,設(shè)計了一種能夠?qū)崿F(xiàn)符合IEEE-754標(biāo)準(zhǔn)的單精度、雙精度和擴展雙精度及整型數(shù)據(jù)且舍入模式可控的高速浮點加法器。采用并行深度流水設(shè)計,經(jīng)驗證,功能滿足設(shè)計要求,使用TSMC6
網(wǎng)絡(luò)安全與數(shù)據(jù)管理 2015年20期2015-10-21
- Quartus II v14.1支持具有硬核浮點DSP模塊的FPGA
.1支持具有硬核浮點DSP模塊的FPGAAltera公司發(fā)布其Quartus II軟件v14.1,擴展支持Arria 10 FPGA和SoC——FPGA業(yè)界具有硬核浮點DSP模塊的器件,也是集成了ARM處理器的20 nm SoC FPGA。Altera最新的軟件版本可立即支持集成在Arria 10 FPGA和SoC中的硬核浮點DSP模塊。用戶現(xiàn)在可以選擇三種獨特的DSP設(shè)計輸入流程,DSP性能達到1.5 TFLOPS。軟件還包括多項優(yōu)化,加速Arria 1
單片機與嵌入式系統(tǒng)應(yīng)用 2015年2期2015-03-24
- 基于“魂芯一號”的自適應(yīng)截位浮點乘法實現(xiàn)?
?,F(xiàn)階段32位單浮點精度無法滿足自相關(guān)浮點矩陣的精度要求,因此本文基于國產(chǎn)“魂芯一號”DSP(簡稱BWDSP100)的指令系統(tǒng),提出了一種自適應(yīng)截位的浮點復(fù)數(shù)矩陣乘法,將浮點數(shù)據(jù)以最大值為基準(zhǔn)擴位成定點數(shù)據(jù),采用BWDSP100指令集中的72位定點乘累加器,將乘累加后的結(jié)果通過自適應(yīng)截位處理,并對獲取浮點數(shù)據(jù)的指數(shù)位進行調(diào)整,使得最終獲取的結(jié)果最大程度地保留小數(shù)精度,減少截位過程的誤差影響。本文使用BWDSP100作為實現(xiàn)平臺,BWDSP100是由中國電子
雷達科學(xué)與技術(shù) 2015年3期2015-01-22
- 基于C++ Builder 6.0的IEEE 754中單精度浮點數(shù)轉(zhuǎn)換實現(xiàn)
可以精確表示某一浮點型數(shù)據(jù)的單精度(常用)和雙精度表示方法,這在許多對數(shù)據(jù)精度要求較高的場合得到廣泛應(yīng)用,而在數(shù)據(jù)通信過程中所有數(shù)據(jù)都是以十六進制打包和解析、二進制形式傳輸?shù)?,所以研究如何根?jù)該標(biāo)準(zhǔn)把所要傳輸?shù)?span id="syggg00" class="hl">浮點型數(shù)據(jù)編程轉(zhuǎn)換成8位十六進制數(shù)據(jù)具有重要的實用意義。這里在分析和研究IEEE 754標(biāo)準(zhǔn)中浮點型數(shù)據(jù)單精度表示方式的基礎(chǔ)上,結(jié)合Borland C++Builder 6.0可視化編程工具,闡述了如何把單精度浮點型數(shù)據(jù)轉(zhuǎn)換成所需要的8位十六進制數(shù),
現(xiàn)代電子技術(shù) 2014年20期2014-10-14
- 用于導(dǎo)航解算的矩陣運算硬件加速器設(shè)計
3]。因此,提高浮點矩陣乘法運算速度對慣導(dǎo)系統(tǒng)實時性的提高具有重要意義。之前的浮點矩陣乘積運算一般都采用PC或DSP實現(xiàn),但這種串行處理器在應(yīng)對高階數(shù)、高復(fù)雜度的算法時,更新速率并不高。伴隨超大規(guī)模集成電路技術(shù)的發(fā)展,國內(nèi)外很多學(xué)者開始研究使用具有并行處理能力的FPGA來計算浮點矩陣乘積[4]。文獻[5]提出了一種各計算單元之間不存在任何通訊的并行矩陣乘法器結(jié)構(gòu),但其所需要的存儲空間隨矩陣維數(shù)的增加而顯著增加,且效率較低。文獻[6]在Xilinx FPGA
計算機工程 2014年8期2014-09-29
- 采用Karatsuba 算法在FPGA 上實現(xiàn)雙精度浮點乘法
安710065)浮點運算廣泛應(yīng)用于諸多領(lǐng)域,特別是在科學(xué)計算、數(shù)值分析和信號處理等方面,如數(shù)字濾波器、FFT、圖像處理等。在所有的浮點算術(shù)運算中,乘法是其核心算法之一,如何構(gòu)建高效的浮點乘法器一直是人們關(guān)注的焦點。隨著FPGA技術(shù)的發(fā)展,由于FPGA器件本身的優(yōu)勢——速度、邏輯資源、豐富的IP核等,使得采用FAPG實現(xiàn)通用高性能的運算器成為可能。按照IEEE754中定義的雙精度浮點數(shù)的尾數(shù)有53 bit,采用FGAP實現(xiàn)53 bit×53 bit的硬件乘法
西安石油大學(xué)學(xué)報(自然科學(xué)版) 2014年1期2014-04-01
- Altera在Arria 10 FPGA率先提供硬核浮點DSP模塊
前宣布在FPGA浮點DSP性能方面實現(xiàn)了變革。Altera是第一家在FPGA中集成硬核IEEE 754兼容浮點運算功能的可編程邏輯公司,大大提高了DSP性能、設(shè)計人員的效能和邏輯效率?;赥SMC 20SoC工藝技術(shù),Arria 10 FPGA和SoC在單個管芯中實現(xiàn)了業(yè)界容量最大、性能最好的DSP資源。應(yīng)用專利冗余技術(shù),Altera開發(fā)了含有以萬邏輯單元(LE)的業(yè)界密度最大的20 nm FPGA管芯。Arria 10器件性能比最快的28 nm高端FPG
電子技術(shù)應(yīng)用 2014年5期2014-03-28
- 一種基于SRT-8算法的SIMD浮點除法器的設(shè)計與實現(xiàn)*
073)1 引言浮點除法運算是基本操作之一。在早期的計算機中,除了除法本身的復(fù)雜性外,除法的不頻繁使用導(dǎo)致了人們對除法效率的忽略。隨著VLSI技術(shù)的發(fā)展,針對各個應(yīng)用領(lǐng)域的處理器相繼出現(xiàn),特別是DSP、MMP等專用處理器,這些處理器的應(yīng)用需求使得除法應(yīng)用越來越廣泛;而通用處理器中也大部分實現(xiàn)了浮點除法,如AMD-K7、Intel Core i7和Intel Itanium[1]等等。同時,各種應(yīng)用的處理器對計算速度、芯片面積以及功耗大小的要求也對除法的實現(xiàn)
計算機工程與科學(xué) 2014年5期2014-03-23
- 載波相位差分相對定位的模糊度求解
,利用序慣條件下浮點模糊度及其協(xié)方差矩陣構(gòu)造搜索空間,以模糊度殘差平方和最小準(zhǔn)則確定整周模糊度[6-7]。但不能保證能夠得到正確解,為了獲得正確的模糊度,需對雙差模糊度浮點解進行整數(shù)變換降相關(guān),以降低模糊度分量之間的相關(guān)性,然后再利用變換后的序慣條件下浮點模糊度及其協(xié)方差矩陣構(gòu)造搜索空間,以模糊度殘差平方和最小為準(zhǔn)則確定整周模糊度,該方法因具有較高的搜索效率因而受到廣泛關(guān)注[5-8]。其求解過程如圖2所示。1)模糊度浮點解采用最小二乘法。圖2 模糊度解算框
導(dǎo)航定位學(xué)報 2014年1期2014-01-16
- Altera在Stratix 10 SoC率先采用四核64位Cortex-A53
x-A53、硬核浮點 DSP模塊和1 GHz FPGA模塊。硬核浮點DSP模塊可達到10 TFlops的運算速度?!盋hris詳細解釋了采用硬核浮點DPS模塊給工程師帶來的幫助:“眾所周知,浮點運算DSP范圍廣,運算精度高,但浮點DSP的浮點運算需用硬件實現(xiàn),價格昂貴;很多工程師只好用浮點DSP建模,定點DSP實現(xiàn),以降低成本;采用Intel 14 nm三柵極工藝技術(shù)實現(xiàn)后,晶體管數(shù)量大量增加,實現(xiàn)浮點DSP模塊成本不會增加很多,但對工程師幫助很大。”Al
電子技術(shù)應(yīng)用 2013年11期2013-08-13
- 整周模糊度搜索空間確定方法研究*
模糊度初值,又稱浮點解。一般采用在某一空間進行搜索的方法得到模糊度整周解。如何合理確定模糊度搜索空間是模糊度搜索方法的難點,也是不同模糊度搜索方法的主要區(qū)別之一。1 幾種動態(tài)模糊度初始化方法比較目前利用較多的模糊度搜索方法有:AFM[1]、FARA[2-3]、FASF[3-5]、LAMBDA[6-13]和 Cholesky[14]分解方法等。其中,AFM在坐標(biāo)域內(nèi)進行搜索,其余幾種方法均在模糊度域內(nèi)進行搜索。目前各種單歷元整周模糊度搜索方法普遍存在的問題是
彈箭與制導(dǎo)學(xué)報 2012年5期2012-12-10
- 基于FPGA的全流水雙精度浮點矩陣乘法器設(shè)計
硬件結(jié)構(gòu)和出色的浮點計算性能,適合對矩陣乘法進行硬件加速,是當(dāng)前的研究熱點.目前,采用FPGA實現(xiàn)矩陣乘法計算的研究已經(jīng)取得一些成果.在定點矩陣乘法方面,Amira等在FPGA上實現(xiàn)了8位定點的矩陣乘法器,但是該設(shè)計所需要的帶寬與矩陣規(guī)模成比例增加,限制了該設(shè)計的可擴展性[1];Jang等設(shè)計的矩陣乘法器只需要固定的帶寬,但是所需要的存儲單元大小與矩陣規(guī)模成正比[2].在浮點矩陣乘法方面,Campell等設(shè)計了一個并行結(jié)構(gòu)矩陣乘法器,該設(shè)計中的各個計算單元
智能系統(tǒng)學(xué)報 2012年4期2012-09-24
- 基于嵌入式方法的浮點單元驗證系統(tǒng)設(shè)計
IC的重要性。對浮點單元而言,驗證更加困難。Intel曾經(jīng)因為奔騰處理器的浮點錯誤而損失了數(shù)以億計的美金,而且嚴重損害了公司的聲譽。為了對某定浮點合并的FALU[1]進行驗證,文獻[1]采用特殊數(shù)據(jù)和隨機數(shù)據(jù)相結(jié)合的方法對其進行了充分的功能仿真,但是只進行功能仿真是不夠的。在芯片流片前為了在實際電路中對其進行驗證,一般都需要用FPGA做原型驗證。一種方法是直接把FALU綜合后下載到FPGA里對其進行驗證。這里采用另外一種方法,利用Xilinx公司FX系列帶
微處理機 2012年1期2012-07-25
- 面向移動終端的統(tǒng)計機器翻譯解碼定點化方法
器翻譯需要大量的浮點運算,無浮點運算單元的中低端嵌入式處理器影響了翻譯速度。另一方面,面向移動終端的語音翻譯也面臨同樣問題。對此,本文提出了將統(tǒng)計機器翻譯解碼運算定點化的方法。與統(tǒng)計機器翻譯的浮點解碼運算相比,利用定點實現(xiàn)解碼運算可以降低對計算資源的需求,獲得更好的翻譯性能。實驗結(jié)果表明,在保證同等翻譯質(zhì)量的情況下,本方法可以有效地提高統(tǒng)計機器翻譯在移動終端上的翻譯速度。本文在第2節(jié)簡要介紹了統(tǒng)計機器翻譯系統(tǒng),第3節(jié)介紹了計算機內(nèi)部數(shù)據(jù)的表示方法,第4節(jié)詳
中文信息學(xué)報 2011年2期2011-06-28
- 新年伊始TI加強C2000系列在PLC領(lǐng)域?qū)嵙MS320F2806x Piccolo MCU能為可再生能源、PLC與電機控制提供浮點內(nèi)核
量。TI的高性能浮點微控制器(MCU)Delfino系列(運算速度約在100~300 MIPS)及低端的Piccolo MCU系列(運算速度在40~60 MIPS)覆蓋的范圍雖然很廣,但是缺少運算速度在60~80 MIPS之間的實時處理MCU,為了彌補這一空缺,TI日前宣布推出15款最新低成本TMS320F2806x Piccolo浮點MCU,以提供能平衡低成本Piccolo與高性能Delfino的性能,為可再生能源、電力線通信(PLC)、電機控制、數(shù)字電
電子技術(shù)應(yīng)用 2011年2期2011-04-02
- Altera演示基于模型的FPGA浮點DSP工具
了使用FPGA的浮點DSP新設(shè)計流程,這是基于模型的浮點設(shè)計工具,支持在FPGA中實現(xiàn)復(fù)數(shù)浮點DSP算法。Altera浮點DSP設(shè)計流程包括集成在DSP Builder高級模塊庫中的Altera浮點DSP編譯器、Quartus II RTL工具鏈、ModelSim仿真器,以及 Math-Works MATLAB和Simulink工具,簡化了FPGA的DSP算法實現(xiàn)過程。浮點設(shè)計流程結(jié)合并集成了算法模型和仿真、RTL產(chǎn)生、綜合、布局布線以及設(shè)計驗證級等。通過
單片機與嵌入式系統(tǒng)應(yīng)用 2011年11期2011-04-01
- 基于IP核的數(shù)選式浮點矩陣相乘設(shè)計
提高嵌入式系統(tǒng)中浮點矩陣乘法運算的速度,則可加快其他類型的矩陣運算速度。目前實現(xiàn)浮點矩陣運算的方法,有直接使用VHDL語言編寫的浮點矩陣相乘處理單元[1],關(guān)鍵技術(shù)是乘累加單元的設(shè)計,通常依據(jù)設(shè)計者的編程水平?jīng)Q定硬件性能。同樣,F(xiàn)PGA廠商也推出了一定規(guī)模的浮點矩陣運算IP核[2],其應(yīng)用針對本廠家器件,且經(jīng)過專業(yè)調(diào)試和硬件實測,性能穩(wěn)定且優(yōu)于手寫代碼,但還有一些可改進的地方。本文基于Altera的算法IP核,采用數(shù)選方式對矩陣運算中的單精度浮點矩陣相乘進
電子技術(shù)應(yīng)用 2011年6期2011-03-21
- 參數(shù)化可配置IP核浮點運算器的設(shè)計與實現(xiàn)
像處理中有大量的浮點數(shù)加、減、乘、除操作,浮點數(shù)本身的復(fù)雜性決定其需要專用的硬件來實現(xiàn)[1]。傳統(tǒng)硬件電路的實現(xiàn)依靠手工搭建,過程復(fù)雜,存在電路參數(shù)分布性大、元器件老化、易受溫度影響及通用性差等問題,尤其是對網(wǎng)格狀多渦卷混沌吸引子的電路設(shè)計和調(diào)試需要花費更多時間。此外,要求電路設(shè)計者要有較高的技巧和經(jīng)驗[2]?;贗P核模塊的設(shè)計方法是采用IP核模塊而不是采用基本邏輯或電路單元作為基礎(chǔ)單元,是以功能組裝代替功能設(shè)計,用戶只需通過設(shè)置參數(shù)即可方便地按需要定制
電子技術(shù)應(yīng)用 2011年4期2011-03-15
- 浮點反正切函數(shù)的FPGA實現(xiàn)
E-754單精度浮點數(shù)據(jù)格式對輸入輸出數(shù)據(jù)進行處理,實現(xiàn)了高精度的浮點反正切函數(shù)的計算。1 反正切函數(shù)實現(xiàn)原理CORDIC算法有旋轉(zhuǎn)模式和向量模式兩種計算模式。旋轉(zhuǎn)模式可以用來計算一個輸入角的正弦、余弦,向量模式可以計算給定向量的角度和長度。CORDIC算法的基本迭代公式為:如果將輸入向量通過一個特定的角Y變?yōu)?,且旋轉(zhuǎn)的方向取決于Y的符號,即:則N次迭代后CORDIC公式的輸出變?yōu)?其中P為旋轉(zhuǎn)增益,P≈1.646 76。如果Z0=0,對于給定的X0和Y
電子技術(shù)應(yīng)用 2010年8期2010-08-12
- 德州儀器最新TMS320C66x DSP實現(xiàn)業(yè)界最高定點與浮點性能獨立BDTI基準(zhǔn)測試表明TI C66x DSP內(nèi)核性能遠勝該市場所有其它DSP
測試中,其定點與浮點性能均獲得最高評分。BDTI DSP Kernel Benchmarks(TM)套件分別對C66x DSP內(nèi)核的定點與浮點性能進行的測試結(jié)果表明,在兩組測試中該內(nèi)核都獲得了業(yè)界最高評分。C66x的浮點基準(zhǔn)測試評分比此前參加測試的所有器件評分都高出2倍以上。技術(shù)分析權(quán)威公司BDTI在其《InsideDSP》新聞報中指出:“C66x的浮點性能BDTImark2000測試評分達10,720,遠遠超過了前代浮點DSP的性能。這將有助于應(yīng)用開發(fā)人
電腦與電信 2010年11期2010-04-16
- ADI公司擴展SHARC浮點DSP產(chǎn)品系列
將高性能、低功耗浮點處理精度擴展到廣泛的HD音頻、家庭影院、汽車電子、便攜式醫(yī)療設(shè)備、工業(yè)控制和儀器儀表設(shè)計。新型SHARC處理器具有如下特性:400 MHz;5 Mb大容量片內(nèi)存儲器;低功耗浮點DSP(363 m W);單芯片、浮點信號處理精度 。借助ADI公司SHARC系列32位浮點數(shù)字信號處理器(DSP)最新產(chǎn)品,設(shè)計人員將能更好地發(fā)揮浮點處理精度的優(yōu)勢,系統(tǒng)功耗預(yù)算、電路板空間和器件成本則不受影響。
單片機與嵌入式系統(tǒng)應(yīng)用 2010年6期2010-04-04
- SHARC DSP產(chǎn)品組合在高性能、低功耗浮點處理精度方面實現(xiàn)飛躍
nc.推出32位浮點數(shù)字信號處理器SHARC產(chǎn)品組合的最新成員-SHARC 2148x及 SHARC 2147x系列。高性能 SHARC 2148x及低功耗 SHARC 2147x系列處理器憑借集成高達 5 Mb的存儲器,為各種應(yīng)用提高了單芯片、浮點信號處理精度,并為便攜式設(shè)備實現(xiàn)了高端系統(tǒng)功能。通過SHARC 2148x及SHARC 2147x處理器,設(shè)計師可以利用端到端SHARC系列的代碼兼容性及魯棒的ADI開發(fā)工具套件,借助性能極佳的32位浮點DSP
電子設(shè)計工程 2010年5期2010-04-04
- Visual Basic處理浮點DSP芯片數(shù)據(jù)的方法
Basic處理浮點DSP芯片數(shù)據(jù)的方法雷文英1劉 娜2張 龍3(1.西安石油大學(xué)光電油氣測井與檢測教育部重點實驗室 陜西西安)(2.西安電子科技大學(xué)通信工程學(xué)院 陜西西安) (3.中國石油集團測井有限公司長慶事業(yè)部 陜西高陵)文章針對各DSP芯片中浮點數(shù)的特點,對計算機軟件處理浮點DSP的數(shù)據(jù)的方法進行了分析并設(shè)計出相應(yīng)的處理算法,最后在Visual Basic環(huán)境下對各自的算法描述進行了算法實現(xiàn)。實踐表明,該算法處理結(jié)果誤差小,穩(wěn)定可靠,具有可移植性且
石油管材與儀器 2010年4期2010-02-06
- 單精度浮點加法器的FPGA實現(xiàn)
GA上實現(xiàn)單精度浮點加法器的設(shè)計,通過分析實數(shù)的IEEE 754表示形式和IEEE 754單精度浮點的存儲格式,設(shè)計出一種適合在FPGA上實現(xiàn)單精度浮點加法運算的算法處理流程,依據(jù)此算法處理流程劃分的各個處理模塊便于流水設(shè)計的實現(xiàn)。所以這里所介紹的單精度浮點加法器具有很強的運算處理能力。關(guān)鍵詞:IEEE 754;單精度浮點;加法運算;FPGA中圖分類號:TP368.1文獻標(biāo)識碼:B文章編號:1004—373X(2009)08—008—03
現(xiàn)代電子技術(shù) 2009年8期2009-06-25