久久久久久久视色,久久电影免费精品,中文亚洲欧美乱码在线观看,在线免费播放AV片

<center id="vfaef"><input id="vfaef"><table id="vfaef"></table></input></center>

<p id="vfaef"><kbd id="vfaef"></kbd></p>

<pre id="vfaef"><u id="vfaef"></u></pre>

<thead id="vfaef"><input id="vfaef"></input></thead>

當(dāng)前位置：站長資訊網(wǎng) > 新聞資訊 > 正文

微軟和英偉達(dá)推出迄今為止訓(xùn)練最大最強(qiáng)的語言模型 MT-NLG

2021-10-13 分類：新聞資訊閱讀(1071) 評論(0)

　　10 月 12 日消息語言模型(Language Model)簡單來說就是一串詞序列的概率分布，主要作用是為一個長度為 m 的文本確定一個概率分布 P，表示這段文本存在的可能性。

　　大家之前可能或多或少聽說過 GPT-3，OpenAI 最新的語言模型，堪稱地表最強(qiáng)語言模型，也被認(rèn)為是革命性的人工智能模型。除此之外還有 BERT、Switch Transformer 等重量級產(chǎn)品，而且業(yè)內(nèi)其他企業(yè)也在努力推出自家的模型。

　　微軟和英偉達(dá)今天宣布了由 DeepSpeed 和 Megatron 驅(qū)動的 Megatron-Turing 自然語言生成模型(MT-NLG)，這是迄今為止訓(xùn)練的最大和最強(qiáng)大的解碼語言模型。

微軟和英偉達(dá)推出迄今為止訓(xùn)練最大最強(qiáng)的語言模型 MT-NLG

　　作為 Turing NLG 17B 和 Megatron-LM 的繼任者，這個模型包括 5300 億個參數(shù)，而且 MT-NLG 的參數(shù)數(shù)量是同類現(xiàn)有最大模型 GPT-3 的 3 倍，并在一系列廣泛的自然語言任務(wù)中展示了無與倫比的準(zhǔn)確性，例如：

　　完成預(yù)測

　　閱讀理解

　　常識推理

　　自然語言推理

　　詞義消歧

　　105 層、基于轉(zhuǎn)換器的 MT-NLG 在零、單和少樣本設(shè)置中改進(jìn)了先前最先進(jìn)的模型，并為兩個模型規(guī)模的大規(guī)模語言模型設(shè)定了新標(biāo)準(zhǔn)和質(zhì)量。

　　據(jù)悉，模型訓(xùn)練是在基于 NVIDIA DGX SuperPOD 的 Selene 超級計算機(jī)上以混合精度完成的，該超級計算機(jī)由 560 個 DGX A100 服務(wù)器提供支持，這些服務(wù)器以完整的胖樹(FatTree)配置與 HDR InfiniBand 聯(lián)網(wǎng)。每個 DGX A100 有 8 個 NVIDIA A100 80GB Tensor Core GPU，通過 NVLink 和 NVSwitch 相互完全連接。微軟 Azure NDv4 云超級計算機(jī)使用了類似的參考架構(gòu)。

微軟和英偉達(dá)推出迄今為止訓(xùn)練最大最強(qiáng)的語言模型 MT-NLG

特別提醒：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時性本站不作任何保證或承諾，并請自行核實(shí)相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系我們，本站將會在24小時內(nèi)處理完畢。

贊(0)

標(biāo)簽：AI GPU NVIDIA word 互聯(lián)網(wǎng)+人工智能微軟服務(wù)器計算機(jī)

相關(guān)推薦

網(wǎng)站地圖滬ICP備18035694號-2

滬公網(wǎng)安備31011702889846號