10 月 12 日消息 語(yǔ)言模型(Language Model)簡(jiǎn)單來(lái)說(shuō)就是一串詞序列的概率分布,主要作用是為一個(gè)長(zhǎng)度為 m 的文本確定一個(gè)概率分布 P,表示這段文本存在的可能性。
大家之前可能或多或少聽(tīng)說(shuō)過(guò) GPT-3,OpenAI 最新的語(yǔ)言模型,堪稱地表最強(qiáng)語(yǔ)言模型,也被認(rèn)為是革命性的人工智能模型。除此之外還有 BERT、Switch Transformer 等重量級(jí)產(chǎn)品,而且業(yè)內(nèi)其他企業(yè)也在努力推出自家的模型。
微軟和英偉達(dá)今天宣布了由 DeepSpeed 和 Megatron 驅(qū)動(dòng)的 Megatron-Turing 自然語(yǔ)言生成模型(MT-NLG),這是迄今為止訓(xùn)練的最大和最強(qiáng)大的解碼語(yǔ)言模型。

作為 Turing NLG 17B 和 Megatron-LM 的繼任者,這個(gè)模型包括 5300 億個(gè)參數(shù),而且 MT-NLG 的參數(shù)數(shù)量是同類現(xiàn)有最大模型 GPT-3 的 3 倍,并在一系列廣泛的自然語(yǔ)言任務(wù)中展示了無(wú)與倫比的準(zhǔn)確性,例如:
完成預(yù)測(cè)
閱讀理解
常識(shí)推理
自然語(yǔ)言推理
詞義消歧
105 層、基于轉(zhuǎn)換器的 MT-NLG 在零、單和少樣本設(shè)置中改進(jìn)了先前最先進(jìn)的模型,并為兩個(gè)模型規(guī)模的大規(guī)模語(yǔ)言模型設(shè)定了新標(biāo)準(zhǔn)和質(zhì)量。
據(jù)悉,模型訓(xùn)練是在基于 NVIDIA DGX SuperPOD 的 Selene 超級(jí)計(jì)算機(jī)上以混合精度完成的,該超級(jí)計(jì)算機(jī)由 560 個(gè) DGX A100 服務(wù)器提供支持,這些服務(wù)器以完整的胖樹(shù)(FatTree)配置與 HDR InfiniBand 聯(lián)網(wǎng)。每個(gè) DGX A100 有 8 個(gè) NVIDIA A100 80GB Tensor Core GPU,通過(guò) NVLink 和 NVSwitch 相互完全連接。微軟 Azure NDv4 云超級(jí)計(jì)算機(jī)使用了類似的參考架構(gòu)。

特別提醒:本網(wǎng)信息來(lái)自于互聯(lián)網(wǎng),目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系我們,本站將會(huì)在24小時(shí)內(nèi)處理完畢。
相關(guān)推薦
- 華納云香港高防服務(wù)器150G防御4.6折促銷,低至6888元/月,CN2大帶寬直連清洗,終身循環(huán)折扣
- RakSmart服務(wù)器成本優(yōu)化策略
- 2025年國(guó)內(nèi)免費(fèi)AI工具推薦:文章生成與圖像創(chuàng)作全攻略
- 自媒體推廣實(shí)時(shí)監(jiān)控從服務(wù)器帶寬到用戶行為解決方法
- 站長(zhǎng)必讀:從“流量思維”到“IP思維”的品牌升級(jí)之路
- 從流量變現(xiàn)到信任變現(xiàn):個(gè)人站長(zhǎng)的私域運(yùn)營(yíng)方法論
- 傳統(tǒng)網(wǎng)站如何借力短視頻?從SEO到“內(nèi)容種草”的轉(zhuǎn)型策略
- AI時(shí)代,個(gè)人站長(zhǎng)如何用AI工具實(shí)現(xiàn)“一人公司”