發布成功
讚賞金額:
您輸入的金額有誤,請重新輸入
支付金額:5元
支付方式:
讚賞成功!
你的讚賞是對作者最大的肯定~?
32位與(yu) 16位格式的混合精度訓練,正是當前深度學習(xi) 的主流。最新的英偉(wei) 達核彈GPU H100,剛剛添加上對8位浮點數格式FP8的支持。英偉(wei) 達首席科學家Bill Dally現在又表示,他們(men) 還有一個(ge) “秘密武器”: 在IEEE計算機運算研討會(hui) 上,他介紹了一種實驗性5nm芯片,可以混合使用8位與(yu) 4位格式,並且在4位上得到近似8位的精度。
目前這種芯片還在開發中,主要用於(yu) 深度學習(xi) 推理所用的INT4和INT8格式,對於(yu) 如何應用在訓練中也在研究了。相關(guan) 論文已發表在2022 IEEE Symposium on VLSI Technology上。
新的量化技術
降低數字格式而不造成重大精度損失,要歸功於(yu) 按矢量縮放量化(per-vector scaled quantization,VSQ)的技術。
具體(ti) 來說,一個(ge) INT4數字隻能精確表示從(cong) -8到7的16個(ge) 整數。
其他數字都會(hui) 四舍五入到這16個(ge) 值上,中間產(chan) 生的精度損失被稱為(wei) 量化噪聲。
傳(chuan) 統的量化方法給每個(ge) 矩陣添加一個(ge) 縮放因子來減少噪聲,VSQ則在這基礎之上給每個(ge) 向量都添加縮放因子,進一步減少噪聲。
關(guan) 鍵之處在於(yu) ,縮放因子的值要匹配在神經網絡中實際需要表示的數字範圍。
英偉(wei) 達研究人員發現,每64個(ge) 數字為(wei) 一組賦予獨立調整過的縮放因子可以最小化量化誤差。
計算縮放因子的開銷可以忽略不計,從(cong) INT8降為(wei) INT4則讓能量效率增加了一倍。
Bill Dally認為(wei) ,結合上INT4計算、VSQ技術和其他優(you) 化方法後,新型芯片可以達到Hopper架構每瓦運算速度的10倍。
還有哪些降低計算量的努力
除了英偉(wei) 達之外,業(ye) 界還有更多降低計算量的工作也在這次IEEE研討會(hui) 上亮相。
馬德裏康普頓斯大學的一組研究人員設計出基於(yu) Posits格式的處理器核心,與(yu) Float浮點數相比準確性提高了多達4個(ge) 數量級。
Posits與(yu) Float相比,增加了一個(ge) 可變長度的Regime區域,用來表示指數的指數。
對於(yu) 0附近的較小數字隻需要占用兩(liang) 個(ge) 位,而這類數字正是在神經網絡中大量使用的。
適用Posits格式的新硬件基於(yu) FPGA開發,研究人員發現可以用芯片的麵積和功耗來提高精度,而不用增加計算時間。
ETH Zurich一個(ge) 團隊的研究基於(yu) RISC-V,他們(men) 把兩(liang) 次混合精度的積和熔加計算(fused multiply-add,FMA)放在一起平行計算。
這樣可以防止兩(liang) 次計算之間的精度損失,還可以提高內(nei) 存利用率。
FMA指的是d = a * b + c這樣的操作,一般情況下輸入中的a和b會(hui) 使用較低精度,而c和輸出的d使用較高精度。
研究人員模擬了新方法可以使計算時間減少幾乎一半,同時輸出精度有所提高,特別是對於(yu) 大矢量的計算。
相應的硬件實現正在開發中。
巴塞羅那超算中心和英特爾團隊的研究也和FMA相關(guan) ,致力於(yu) 神經網絡訓練可以完全使用BF16格式完成。
BF16格式已在DALL·E 2等大型網絡訓練中得到應用,不過還需要與(yu) 更高精度的FP32結合,並且在兩(liang) 者之間來回轉換。
這是因為(wei) 神經網絡訓練中隻有一部分計算不會(hui) 因BF16而降低精度。
最新解決(jue) 辦法開發了一個(ge) 擴展的格式BF16-N,將幾個(ge) BF16數字組合起來表示一個(ge) 數,可以在不顯著犧牲精度的情況下更有效進行FMA計算
關(guan) 鍵之處在於(yu) ,FMA計算單元的麵積隻受尾數位影響。
比如FP32有23個(ge) 尾數位,需要576個(ge) 單位的麵積,而BF16-2隻需要192個(ge) ,減少了2/3。
另外這項工作的論文題目也很有意思,BF16 is All You Need。
關(guan) 於(yu) 必威官方网站手机網
必威官方网站手机網是一個(ge) 電子方案開發供應鏈平台,提供從(cong) 找方案到研發采購的全鏈條服務。找方案,上必威官方网站手机網!在方案超市找到合適的方案就可以直接買(mai) ,沒有找到就到快包定製開發。必威官方网站手机網積累了一大批方案商和企業(ye) 開發資源,能提供標準的模塊和核心板以及定製開發服務,按要求交付PCBA、整機產(chan) 品、軟件或IoT係統。更多信息,敬請訪問https://www.interviewcrusher.com