GitHub開源社區(qū)最新公布的AMD ROCm開發(fā)庫(kù)顯示,AMD GPU將在未來(lái)加入對(duì)BFloat16(BF16)浮點(diǎn)指令的支持,相比現(xiàn)在的FP16浮點(diǎn)可帶來(lái)巨大的飛躍。
目前,Intel Cascade Lake至強(qiáng)、Ice Lake酷睿處理器已經(jīng)支持BF16,ARM下一代ARMv8 CPU架構(gòu)也會(huì)加入。BF16雖然不屬于IEEE標(biāo)準(zhǔn)規(guī)范,但它的優(yōu)勢(shì)正得到越來(lái)越廣泛的驗(yàn)證和認(rèn)可。
BF16可以視為精簡(jiǎn)版的FP32單精度浮點(diǎn)指令,使用8個(gè)有效位、8個(gè)階位,內(nèi)存和帶寬占用減半,執(zhí)行效率大大提升,同時(shí)又在性能方面遠(yuǎn)勝FP16,可以大大提升AI人工智能、ML機(jī)器學(xué)習(xí)、DL深度學(xué)習(xí)等應(yīng)用的性能、效率,不再受限于FP16的性能、FP32的效率。
根據(jù)模擬,BF16相比于FP16帶來(lái)的性能提升在不同運(yùn)算類型中,少則可達(dá)1.6倍,多則能夠超過(guò)4倍。
現(xiàn)代3D游戲渲染不太可能從BF16中獲益,但是隨著GPU越來(lái)越多地參與AI、ML、DL運(yùn)算,BF16的加入必將會(huì)給AMD顯卡帶來(lái)強(qiáng)大的加成,未來(lái)值得期待。