中國科學報訊科幻小說《銀河系漫游指南》中的翻譯動物“巴別魚”,可能離現(xiàn)實更近了。美國互聯(lián)網(wǎng)科技公司Meta的研究人員開發(fā)了一種機器學習系統(tǒng),幾乎可以立即將101種語言的語音翻譯成36種目標語言中的任意一種。 這種大規(guī)模多語言和多模態(tài)機器翻譯(SEAMLESSM4T)系統(tǒng)還可以將語音轉(zhuǎn)換成文本、文本轉(zhuǎn)換成語音、文本轉(zhuǎn)換成文本。相關(guān)研究成果1月15日發(fā)表于《自然》。 Meta運營著臉書、WhatsApp和Instagram等社交媒體網(wǎng)站。該公司表示,在向全球?qū)W術(shù)研究人員成功發(fā)布LLaMA大語言模型后,將把SEAMLESSM4T開源用于非商業(yè)用途。 過去幾十年里,機器翻譯取得了巨大進步,這在很大程度上歸功于在大數(shù)據(jù)集上訓練的神經(jīng)網(wǎng)絡(luò)。英語等主要語言的訓練數(shù)據(jù)比比皆是,但其他語言的訓練數(shù)據(jù)卻少得可憐。這種不平等限制了機器可以翻譯的語言范圍。美國康奈爾大學的計算機科學家Allison Koenecke表示:“這影響了不經(jīng)常出現(xiàn)在互聯(lián)網(wǎng)上的那些語言?!?br> Meta團隊在之前語音對語音翻譯工作的基礎(chǔ)上,開啟了一個名為“不讓任何語言掉隊”的項目,旨在為大約200種語言提供文本到文本的翻譯。根據(jù)經(jīng)驗,Meta和其他機構(gòu)的研究人員發(fā)現(xiàn),即使在翻譯那些訓練數(shù)據(jù)有限的語言時,使翻譯系統(tǒng)多語言化也能提高其性能,但原因尚不清楚。 該團隊從互聯(lián)網(wǎng)和聯(lián)合國檔案等來源收集了數(shù)百萬小時的音頻文件,以及這些語音的人工翻譯。他們還收集了其中一些演講的文字記錄。 研究人員使用可靠的數(shù)據(jù)訓練模型識別兩份匹配的內(nèi)容。這使研究人員能夠?qū)⒋蠹s50萬小時的語音與文本配對,并自動將一種語言的每個片段與其他語言的對應片段匹配。 SEAMLESSM4T可以將語音轉(zhuǎn)換成語音,而無須先將其轉(zhuǎn)換為文本。語音合成器用于產(chǎn)生音頻,它可以翻譯101種語言中的任何一種語音,不過到目前為止,只有36種語言可輸出。該系統(tǒng)還可以執(zhí)行其他翻譯任務(wù),比如完成不同語言的文本到語音的翻譯。 論文作者之一、Meta的計算機科學家Marta Costa-juss表示,除了增加語言數(shù)量外,他們還通過整合文本和語音的不同組合提高系統(tǒng)性能?!斑@些是改善的關(guān)鍵。”她補充說,該系統(tǒng)的時間延遲通常為幾秒鐘,與專業(yè)人工翻譯的表現(xiàn)相當。 作者表示,他們對SEAMLESSM4T進行了微調(diào),例如當翻譯中出現(xiàn)與原文不符的攻擊性語言時,可以限制這種情況發(fā)生。他們還對系統(tǒng)進行了控制,以防止它將一種語言中無性別的專有詞匯(如英語中的“護士”)翻譯成其他語言中有性別的對應詞。 Koenecke在評論中寫道,為進一步限制自動翻譯的潛在風險,“開發(fā)人員應該考慮如何在明確模型局限性的前提下輸出翻譯”,并考慮“在準確性有爭議時完全放棄輸出”。 英國吉爾福德薩里大學的翻譯研究員Sabine Braun說,在機器翻譯被廣泛采用前,應該進行更多審查,并就如何使用機器翻譯進行教育培訓,尤其是身處醫(yī)療或法律等關(guān)鍵工作崗位的人。(李木子) 相關(guān)論文信息: https://doi.org/10.1038/s41586-024-08359-z 《中國科學報》 (2025-01-20 第2版 國際) 來源: 中國科學報 |