電子方案開發供應鏈平台
一鍵發布任務
獲取驗證碼
返回

發布成功


讚賞作者

讚賞金額:

  • ¥2
  • ¥5
  • ¥10
  • ¥50
  • ¥100
  • ¥200

您輸入的金額有誤,請重新輸入

支付金額:5

支付方式:

微信支付

讚賞成功!
你的讚賞是對作者最大的肯定~?

當前位置 : 首頁 > 方案訊 > 方案訊詳情
5nm實驗芯片用INT4達到INT8的精度
發布時間:2022-12-12 閱讀量:1262 來源:必威官方网站手机網整理 作者:必威官方网站手机網

32位與(yu) 16位格式的混合精度訓練,正是當前深度學習(xi) 的主流。最新的英偉(wei) 達核彈GPU H100,剛剛添加上對8位浮點數格式FP8的支持。英偉(wei) 達首席科學家Bill Dally現在又表示,他們(men) 還有一個(ge) “秘密武器”: 在IEEE計算機運算研討會(hui) 上,他介紹了一種實驗性5nm芯片,可以混合使用8位與(yu) 4位格式,並且在4位上得到近似8位的精度。  

 

目前這種芯片還在開發中,主要用於(yu) 深度學習(xi) 推理所用的INT4和INT8格式,對於(yu) 如何應用在訓練中也在研究了。相關(guan) 論文已發表在2022 IEEE Symposium on VLSI Technology上。     

 

5nm實驗芯片用INT4達到INT8的精度

 

新的量化技術

 

降低數字格式而不造成重大精度損失,要歸功於(yu) 按矢量縮放量化(per-vector scaled quantization,VSQ)的技術。  

 

具體(ti) 來說,一個(ge) INT4數字隻能精確表示從(cong) -8716個(ge) 整數。  

 

其他數字都會(hui) 四舍五入到這16個(ge) 值上,中間產(chan) 生的精度損失被稱為(wei) 量化噪聲。  

 

傳(chuan) 統的量化方法給每個(ge) 矩陣添加一個(ge) 縮放因子來減少噪聲,VSQ則在這基礎之上給每個(ge) 向量都添加縮放因子,進一步減少噪聲。

   

5nm實驗芯片用INT4達到INT8的精度

 

關(guan) 鍵之處在於(yu) ,縮放因子的值要匹配在神經網絡中實際需要表示的數字範圍。  

 

英偉(wei) 達研究人員發現,每64個(ge) 數字為(wei) 一組賦予獨立調整過的縮放因子可以最小化量化誤差。  

 

計算縮放因子的開銷可以忽略不計,從(cong) INT8降為(wei) INT4則讓能量效率增加了一倍。   

 

5nm實驗芯片用INT4達到INT8的精度

 

Bill Dally認為(wei) ,結合上INT4計算、VSQ技術和其他優(you) 化方法後,新型芯片可以達到Hopper架構每瓦運算速度的10倍。   

 

還有哪些降低計算量的努力

 

除了英偉(wei) 達之外,業(ye) 界還有更多降低計算量的工作也在這次IEEE研討會(hui) 上亮相。  

 

馬德裏康普頓斯大學的一組研究人員設計出基於(yu) Posits格式的處理器核心,與(yu) Float浮點數相比準確性提高了多達4個(ge) 數量級。  

 

Posits與(yu) Float相比,增加了一個(ge) 可變長度的Regime區域,用來表示指數的指數。  

 

對於(yu) 0附近的較小數字隻需要占用兩(liang) 個(ge) 位,而這類數字正是在神經網絡中大量使用的。  

 

適用Posits格式的新硬件基於(yu) FPGA開發,研究人員發現可以用芯片的麵積和功耗來提高精度,而不用增加計算時間。    

 

5nm實驗芯片用INT4達到INT8的精度

 

ETH Zurich一個(ge) 團隊的研究基於(yu) RISC-V,他們(men) 把兩(liang) 次混合精度的積和熔加計算(fused multiply-addFMA)放在一起平行計算。  

 

這樣可以防止兩(liang) 次計算之間的精度損失,還可以提高內(nei) 存利用率。  

 

FMA指的是d = a * b + c這樣的操作,一般情況下輸入中的ab會(hui) 使用較低精度,而c和輸出的d使用較高精度。  

 

研究人員模擬了新方法可以使計算時間減少幾乎一半,同時輸出精度有所提高,特別是對於(yu) 大矢量的計算。  

 

相應的硬件實現正在開發中。    

 

5nm實驗芯片用INT4達到INT8的精度

 

巴塞羅那超算中心和英特爾團隊的研究也和FMA相關(guan) ,致力於(yu) 神經網絡訓練可以完全使用BF16格式完成。  

 

BF16格式已在DALL·E 2等大型網絡訓練中得到應用,不過還需要與(yu) 更高精度的FP32結合,並且在兩(liang) 者之間來回轉換。  

 

這是因為(wei) 神經網絡訓練中隻有一部分計算不會(hui) 因BF16而降低精度。  

 

最新解決(jue) 辦法開發了一個(ge) 擴展的格式BF16-N,將幾個(ge) BF16數字組合起來表示一個(ge) 數,可以在不顯著犧牲精度的情況下更有效進行FMA計算    

 

5nm實驗芯片用INT4達到INT8的精度

 

關(guan) 鍵之處在於(yu) ,FMA計算單元的麵積隻受尾數位影響。  

 

比如FP32有23個(ge) 尾數位,需要576個(ge) 單位的麵積,而BF16-2隻需要192個(ge) ,減少了2/3。  

 

另外這項工作的論文題目也很有意思,BF16 is All You Need。

 

5nm實驗芯片用INT4達到INT8的精度

 

關(guan) 於(yu) 必威官方网站手机網

 

必威官方网站手机網是一個(ge) 電子方案開發供應鏈平台,提供從(cong) 找方案到研發采購的全鏈條服務。找方案,上必威官方网站手机網!在方案超市找到合適的方案就可以直接買(mai) ,沒有找到就到快包定製開發。必威官方网站手机網積累了一大批方案商和企業(ye) 開發資源,能提供標準的模塊和核心板以及定製開發服務,按要求交付PCBA、整機產(chan) 品、軟件或IoT係統。更多信息,敬請訪問https://www.interviewcrusher.com


文章評論

您需要登錄才可以對文章進行評論。

沒有賬號?立即注冊(ce)

最新活動
意見反饋
取消