久久久久久久视色,久久电影免费精品,中文亚洲欧美乱码在线观看,在线免费播放AV片

<center id="vfaef"><input id="vfaef"><table id="vfaef"></table></input></center>

    <p id="vfaef"><kbd id="vfaef"></kbd></p>

    
    
    <pre id="vfaef"><u id="vfaef"></u></pre>

      <thead id="vfaef"><input id="vfaef"></input></thead>

    1. 站長資訊網(wǎng)
      最全最豐富的資訊網(wǎng)站

      無需依賴英語中介,F(xiàn)acebook 發(fā)布可翻譯 100 種語言的 AI 模型

        機(jī)器翻譯器正成為現(xiàn)代人生活中必不可少的工具。

      無需依賴英語中介,F(xiàn)acebook 發(fā)布可翻譯 100 種語言的 AI 模型

        不管你在世界的哪個(gè)地方,美國、巴西、法國或者亞洲的婆羅洲島,借助機(jī)器翻譯,谷歌和 Facebook 這類軟件都可以把平臺(tái)上的幾乎任何文字內(nèi)容都翻譯成當(dāng)?shù)卣Z言。

        不過你可能不知道的是,多數(shù)翻譯系統(tǒng)都是將英語作為中間語言進(jìn)行的翻譯工作。也就是說,在把中文翻譯成法語時(shí)其實(shí)是中文到英語再到法語的。

        這么做的原因是因?yàn)橛⒄Z翻譯的數(shù)據(jù)集(包括譯入和譯出)非常多而且容易獲得。但是,用英語作為中介語總體上降低了翻譯的準(zhǔn)確性,同時(shí)讓整個(gè)流程更加復(fù)雜臃腫。

      無需依賴英語中介,F(xiàn)acebook 發(fā)布可翻譯 100 種語言的 AI 模型

        比如說,在 Facebook 上,單是 News Feed 這一項(xiàng)服務(wù),F(xiàn)acebook 就需要每天進(jìn)行大約 200 億次翻譯。

        針對這些問題,最近,F(xiàn)acebook 開發(fā)了新的機(jī)器翻譯模型,可以不借助英語直接實(shí)現(xiàn)兩種語言的雙向互譯,而且新模型在 BLEU 評(píng)估算法下的得分比傳統(tǒng)的借助英語的模型還高了 10 分。

      無需依賴英語中介,F(xiàn)acebook 發(fā)布可翻譯 100 種語言的 AI 模型

        Facebook 的新模型被稱作 M2M-100,F(xiàn)acebook 宣稱它是第一個(gè)多語言機(jī)器翻譯模型,可以直接在 100 種語言中的任何一對之間來回翻譯。Facebook AI 構(gòu)建了一個(gè)共計(jì)由 100 種語言的 75 億個(gè)句子組成的龐大數(shù)據(jù)集。使用這個(gè)數(shù)據(jù)集,研究團(tuán)隊(duì)訓(xùn)練了一個(gè)擁有超過 150 億個(gè)參數(shù)的通用翻譯模型,據(jù) Facebook 的一篇博客描述,該模型可以 “獲取相關(guān)語言的信息,并反映出更多樣化的語言文本和語言形態(tài)”。

        “主要的挑戰(zhàn)在于,我們?nèi)绾卫梦覀兊姆g系統(tǒng),切實(shí)地去滿足全世界各地人們的需求,”Facebook AI 的助理研究員 Angela Fan 在采訪中表示。“你得翻譯所有的語言,涉及人們會(huì)遇到的各種需求。比如說,世界上有很多地方,當(dāng)?shù)厝藭?huì)使用多種語言,而英語不在其中,但現(xiàn)有的翻譯系統(tǒng)卻嚴(yán)重依賴英語。”她還指出,在 Facebook 平臺(tái)上每天以 160 種語言發(fā)布的數(shù)十億條帖子中,有三分之二是英語以外的語言。

        為了做到這一點(diǎn),F(xiàn)acebook 需要使用各種新技術(shù)從世界各地收集大量公開數(shù)據(jù)。“這里頭很多工作其實(shí)建立在我們在 Facebook 多年研究的基礎(chǔ)之上,就像不同的樂高積木,我們有點(diǎn)像是把積木拼在一起來構(gòu)建今天的系統(tǒng),”Fan 解釋道。

        該團(tuán)隊(duì)首先采用 CommonCrawl 來從網(wǎng)絡(luò)上收集文本示例,這是一個(gè)開放的網(wǎng)絡(luò)抓取數(shù)據(jù)庫。然后他們著手用 FastText 來識(shí)別文本所屬的語言,后者是 Facebook 幾年前開發(fā)并開源的文本分類系統(tǒng)。“這個(gè)系統(tǒng)基本上是看一些測試然后嘗試判定文本是用什么語言寫的,”Fan 說,“這樣我們就把一堆網(wǎng)絡(luò)文本按照不同的語言分開了,接下來我們的目標(biāo)是識(shí)別對應(yīng)的句子。”

      無需依賴英語中介,F(xiàn)acebook 發(fā)布可翻譯 100 種語言的 AI 模型

        “傳統(tǒng)上,人們使用人類譯員來創(chuàng)建翻譯數(shù)據(jù),”她繼續(xù)說道,“這很難大規(guī)模來做,比如,你很難找到同時(shí)講英語和泰米爾語的人,同時(shí)講法語和泰米爾語的就更難了,非英語翻譯仍舊是一個(gè)有待加強(qiáng)的領(lǐng)域。”

        為了大規(guī)模挖掘必需數(shù)據(jù),F(xiàn)an 的團(tuán)隊(duì)重度依賴 LASER 系統(tǒng)。“它讀取句子,抓取文本并構(gòu)建文本的數(shù)學(xué)表示,具有相同意思的句子將被映射到同一個(gè)意涵里,”她解釋道,“如果我有一句中文和一句法文,說的是同一件事,它們就會(huì)像韋恩圖 (Venn diagram)一樣有所交疊——交疊區(qū)域我們就認(rèn)為是一組對應(yīng)的句子。”

        當(dāng)然,不是所有語言都有大量的文字內(nèi)容在網(wǎng)上。

        遇到這些情況,F(xiàn)an 的團(tuán)隊(duì)使用單語言數(shù)據(jù)來改進(jìn)。以中文譯法文為例,F(xiàn)an 解釋道:“如果我的目標(biāo)是翻譯中文為法文,但是因?yàn)槟承┰颍_(dá)不到足夠好的翻譯質(zhì)量,那么我可以試著用法文的單語言數(shù)據(jù)來做改進(jìn)。我要做的是訓(xùn)練一個(gè)反過來的系統(tǒng):從法文到中文。比如我從維基百科上取得所有的法文,然后把它翻譯到中文。”

        這樣一來就有了大量的機(jī)器翻譯生成的 “人工合成”語料。Fan 說,“有了這些從法文反向譯過來的‘人工合成’的中文之后,我可以把這些數(shù)據(jù)加在我的前向模型里。也就是我用原來的中文數(shù)據(jù)加上這個(gè)補(bǔ)充出來的‘合成’數(shù)據(jù),然后再把它們都譯成法文。由于新加了很多例句——在輸入和輸出兩端都有——模型會(huì)更加強(qiáng)大。”

        這個(gè)項(xiàng)目是否會(huì)產(chǎn)生一條 “數(shù)字巴別魚”,能在全球 6200 多種口語之間進(jìn)行無損翻譯,還有待觀察。Fan 指出,這個(gè)項(xiàng)目的最終成功取決于 AI 能夠利用的資源量。對于法語、漢語、德語、西班牙語和印地語等主要語言,資源是海量的。“人們用這些語言在網(wǎng)絡(luò)上寫了大量的文字,”她說,“他們能貢獻(xiàn)大量數(shù)據(jù),我們的模型可以利用這些數(shù)據(jù)變得更好。”

        “對于資源非常少的語言,我個(gè)人確定了很多我們可能需要改進(jìn)的語言類別,”Fan 繼續(xù)說道。“對于非洲語言,我們在斯瓦希里語和南非荷蘭語方面相當(dāng)不錯(cuò),我們可以在像祖魯語這樣的語言上進(jìn)行很多改進(jìn),在這些語言上我們需要面對額外的研究挑戰(zhàn)。” M2M-100 的 GitHub 代碼鏈接:

        https://github.com/pytorch/fairseq/tree/master/examples/m2m_100

      特別提醒:本網(wǎng)內(nèi)容轉(zhuǎn)載自其他媒體,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,并請自行核實(shí)相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請及時(shí)聯(lián)系我們,本站將會(huì)在24小時(shí)內(nèi)處理完畢。

      贊(0)
      分享到: 更多 (0)
      網(wǎng)站地圖   滬ICP備18035694號(hào)-2    滬公網(wǎng)安備31011702889846號(hào)