久久久久久久视色,久久电影免费精品,中文亚洲欧美乱码在线观看,在线免费播放AV片

<center id="vfaef"><input id="vfaef"><table id="vfaef"></table></input></center>

<p id="vfaef"><kbd id="vfaef"></kbd></p>

<pre id="vfaef"><u id="vfaef"></u></pre>

<thead id="vfaef"><input id="vfaef"></input></thead>

<pre id="35ukh"><sub id="35ukh"><center id="35ukh"></center></sub></pre>

<thead id="35ukh"><acronym id="35ukh"></acronym></thead>

當前位置：站長資訊網 > 新聞資訊 > 正文

無需依賴英語中介，F(xiàn)acebook 發(fā)布可翻譯 100 種語言的 AI 模型

2020-10-28 分類：新聞資訊閱讀(811) 評論(0)

　　機器翻譯器正成為現(xiàn)代人生活中必不可少的工具。

無需依賴英語中介，F(xiàn)acebook 發(fā)布可翻譯 100 種語言的 AI 模型

　　不管你在世界的哪個地方，美國、巴西、法國或者亞洲的婆羅洲島，借助機器翻譯，谷歌和 Facebook 這類軟件都可以把平臺上的幾乎任何文字內容都翻譯成當?shù)卣Z言。

　　不過你可能不知道的是，多數(shù)翻譯系統(tǒng)都是將英語作為中間語言進行的翻譯工作。也就是說，在把中文翻譯成法語時其實是中文到英語再到法語的。

　　這么做的原因是因為英語翻譯的數(shù)據(jù)集(包括譯入和譯出)非常多而且容易獲得。但是，用英語作為中介語總體上降低了翻譯的準確性，同時讓整個流程更加復雜臃腫。

無需依賴英語中介，F(xiàn)acebook 發(fā)布可翻譯 100 種語言的 AI 模型

　　比如說，在 Facebook 上，單是 News Feed 這一項服務，F(xiàn)acebook 就需要每天進行大約 200 億次翻譯。

　　針對這些問題，最近，F(xiàn)acebook 開發(fā)了新的機器翻譯模型，可以不借助英語直接實現(xiàn)兩種語言的雙向互譯，而且新模型在 BLEU 評估算法下的得分比傳統(tǒng)的借助英語的模型還高了 10 分。

無需依賴英語中介，F(xiàn)acebook 發(fā)布可翻譯 100 種語言的 AI 模型

　　Facebook 的新模型被稱作 M2M-100，F(xiàn)acebook 宣稱它是第一個多語言機器翻譯模型，可以直接在 100 種語言中的任何一對之間來回翻譯。Facebook AI 構建了一個共計由 100 種語言的 75 億個句子組成的龐大數(shù)據(jù)集。使用這個數(shù)據(jù)集，研究團隊訓練了一個擁有超過 150 億個參數(shù)的通用翻譯模型，據(jù) Facebook 的一篇博客描述，該模型可以 “獲取相關語言的信息，并反映出更多樣化的語言文本和語言形態(tài)”。

　　“主要的挑戰(zhàn)在于，我們如何利用我們的翻譯系統(tǒng)，切實地去滿足全世界各地人們的需求，”Facebook AI 的助理研究員 Angela Fan 在采訪中表示。“你得翻譯所有的語言，涉及人們會遇到的各種需求。比如說，世界上有很多地方，當?shù)厝藭褂枚喾N語言，而英語不在其中，但現(xiàn)有的翻譯系統(tǒng)卻嚴重依賴英語。”她還指出，在 Facebook 平臺上每天以 160 種語言發(fā)布的數(shù)十億條帖子中，有三分之二是英語以外的語言。

　　為了做到這一點，F(xiàn)acebook 需要使用各種新技術從世界各地收集大量公開數(shù)據(jù)。“這里頭很多工作其實建立在我們在 Facebook 多年研究的基礎之上，就像不同的樂高積木，我們有點像是把積木拼在一起來構建今天的系統(tǒng)，”Fan 解釋道。

　　該團隊首先采用 CommonCrawl 來從網絡上收集文本示例，這是一個開放的網絡抓取數(shù)據(jù)庫。然后他們著手用 FastText 來識別文本所屬的語言，后者是 Facebook 幾年前開發(fā)并開源的文本分類系統(tǒng)。“這個系統(tǒng)基本上是看一些測試然后嘗試判定文本是用什么語言寫的，”Fan 說，“這樣我們就把一堆網絡文本按照不同的語言分開了，接下來我們的目標是識別對應的句子。”

無需依賴英語中介，F(xiàn)acebook 發(fā)布可翻譯 100 種語言的 AI 模型

　　“傳統(tǒng)上，人們使用人類譯員來創(chuàng)建翻譯數(shù)據(jù)，”她繼續(xù)說道，“這很難大規(guī)模來做，比如，你很難找到同時講英語和泰米爾語的人，同時講法語和泰米爾語的就更難了，非英語翻譯仍舊是一個有待加強的領域。”

　　為了大規(guī)模挖掘必需數(shù)據(jù)，F(xiàn)an 的團隊重度依賴 LASER 系統(tǒng)。“它讀取句子，抓取文本并構建文本的數(shù)學表示，具有相同意思的句子將被映射到同一個意涵里，”她解釋道，“如果我有一句中文和一句法文，說的是同一件事，它們就會像韋恩圖 (Venn diagram)一樣有所交疊——交疊區(qū)域我們就認為是一組對應的句子。”

　　當然，不是所有語言都有大量的文字內容在網上。

　　遇到這些情況，F(xiàn)an 的團隊使用單語言數(shù)據(jù)來改進。以中文譯法文為例，F(xiàn)an 解釋道：“如果我的目標是翻譯中文為法文，但是因為某些原因，達不到足夠好的翻譯質量，那么我可以試著用法文的單語言數(shù)據(jù)來做改進。我要做的是訓練一個反過來的系統(tǒng)：從法文到中文。比如我從維基百科上取得所有的法文，然后把它翻譯到中文。”

　　這樣一來就有了大量的機器翻譯生成的 “人工合成”語料。Fan 說，“有了這些從法文反向譯過來的‘人工合成’的中文之后，我可以把這些數(shù)據(jù)加在我的前向模型里。也就是我用原來的中文數(shù)據(jù)加上這個補充出來的‘合成’數(shù)據(jù)，然后再把它們都譯成法文。由于新加了很多例句——在輸入和輸出兩端都有——模型會更加強大。”

　　這個項目是否會產生一條 “數(shù)字巴別魚”，能在全球 6200 多種口語之間進行無損翻譯，還有待觀察。Fan 指出，這個項目的最終成功取決于 AI 能夠利用的資源量。對于法語、漢語、德語、西班牙語和印地語等主要語言，資源是海量的。“人們用這些語言在網絡上寫了大量的文字，”她說，“他們能貢獻大量數(shù)據(jù)，我們的模型可以利用這些數(shù)據(jù)變得更好。”

　　“對于資源非常少的語言，我個人確定了很多我們可能需要改進的語言類別，”Fan 繼續(xù)說道。“對于非洲語言，我們在斯瓦希里語和南非荷蘭語方面相當不錯，我們可以在像祖魯語這樣的語言上進行很多改進，在這些語言上我們需要面對額外的研究挑戰(zhàn)。” M2M-100 的 GitHub 代碼鏈接：

　　https://github.com/pytorch/fairseq/tree/master/examples/m2m_100

特別提醒：本網內容轉載自其他媒體，目的在于傳遞更多信息，并不代表本網贊同其觀點。其原創(chuàng)性以及文中陳述文字和內容未經本站證實，對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾，并請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網有任何內容侵犯您的權益，請及時聯(lián)系我們，本站將會在24小時內處理完畢。

贊(0)

標簽：AI Facebook GitHub master word 大數(shù)據(jù)數(shù)據(jù)庫美國谷歌

相關推薦

?

網站地圖滬ICP備18035694號-2

滬公網安備31011702889846號