97国产精品一区二区视频_国产午夜毛片色哟哟_惠民福利国产91精品看黄网站在线观看_搡老熟女老女人一区二区三区_国产做a∨在线视频观看免费_日韩 综合 婷婷 图_成人黄色一级毛片片_萧山本地第一网络媒体_亚洲国产精品无码久久久曰_亚洲欧美日韩岛国色图

快捷導(dǎo)航

解碼古文字,AI助力古代歷史研究

2025-1-14 12:41| 發(fā)布者: admin| 查看: 68| 評論: 0
摘要: 來源:科技日報(bào) 科技日報(bào)記者 張佳欣從金融到醫(yī)學(xué),人工智能(AI)正深刻改變著現(xiàn)代生活。如今,它開始進(jìn)軍古代文本研究:從希臘與拉丁典籍到中國甲骨文,人工神經(jīng)網(wǎng)絡(luò)正成為解讀古文字的鑰匙。它不僅能駕馭浩瀚檔案 ...
來源:科技日報(bào)

科技日報(bào)記者 張佳欣

從金融到醫(yī)學(xué),人工智能(AI)正深刻改變著現(xiàn)代生活。如今,它開始進(jìn)軍古代文本研究:從希臘與拉丁典籍到中國甲骨文,人工神經(jīng)網(wǎng)絡(luò)正成為解讀古文字的鑰匙。它不僅能駕馭浩瀚檔案,填補(bǔ)字符空缺,還能解碼幾乎無跡可尋的罕見或滅絕語言,令古代智慧在現(xiàn)代科技之光下重現(xiàn)輝煌。

2023年10月,費(fèi)德里卡·尼科拉爾迪收到了一封電子郵件,郵件附帶的一張圖片徹底改變了她的研究。此圖顯示了從公元79年維蘇威火山浩劫中幸存的一卷莎草紙殘骸,它于18世紀(jì)在赫庫蘭尼姆古城的一處豪華別墅遺跡中被發(fā)現(xiàn)。這些歷經(jīng)滄桑的莎草紙,曾是數(shù)百卷古籍之一,卻因歲月侵蝕而變得脆弱不堪,多數(shù)已無法展開。

尼科拉爾迪是意大利那不勒斯大學(xué)的一名莎草紙學(xué)者,她曾參與一項(xiàng)利用AI讀取難解文字的研究。而今,她見證了一項(xiàng)奇跡:圖片上,一片莎草紙帶上,希臘字母密布如織,于幽暗中煥發(fā)新生。

這一名為“維蘇威挑戰(zhàn)”的項(xiàng)目只是AI重塑古代歷史研究的“冰山一角”。

神經(jīng)網(wǎng)絡(luò)重建古代文本

幾十年來,計(jì)算機(jī)一直被用于對數(shù)字化文本進(jìn)行分類和分析,但目前最令人興奮的是神經(jīng)網(wǎng)絡(luò)的使用。神經(jīng)網(wǎng)絡(luò)由相互連接的節(jié)點(diǎn)組成的分層結(jié)構(gòu)組成,尤其是具有多個(gè)內(nèi)部層的“深層”神經(jīng)網(wǎng)絡(luò)。

卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型能夠從這些圖像中精準(zhǔn)捕捉網(wǎng)格狀數(shù)據(jù)結(jié)構(gòu)。CNN模型在光學(xué)字符識別領(lǐng)域大放異彩的同時(shí),也開辟了其他多元化的應(yīng)用途徑。例如,中國研究團(tuán)隊(duì)在探索甲骨文時(shí),巧妙地運(yùn)用這些模型來復(fù)原遭受嚴(yán)重侵蝕的文字圖案,深入分析甲骨文隨時(shí)間的演變軌跡,并將破碎的文物碎片重新拼湊起來,重現(xiàn)歷史原貌。

與此同時(shí),循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)作為一種專為處理線性序列數(shù)據(jù)設(shè)計(jì)的模型,開始展現(xiàn)出在搜索、翻譯以及填補(bǔ)已轉(zhuǎn)錄古代文本缺失內(nèi)容方面的巨大潛力。RNN已被用于為古巴比倫時(shí)期數(shù)百份格式嚴(yán)謹(jǐn)?shù)男姓头晌谋咎峁┤笔ё址闹悄芑ㄗh。

那么,神經(jīng)網(wǎng)絡(luò)能否在歷史的殘片中找出人類專家難以發(fā)現(xiàn)的聯(lián)系?2017年,英國牛津大學(xué)的一項(xiàng)合作開啟了探索之旅,當(dāng)時(shí),兩名研究人員正面臨破解西西里希臘銘文的難題。

古典學(xué)者通常依賴對現(xiàn)存文本的理解來詮釋新材料,但難以全面掌握所有相關(guān)資料。牛津大學(xué)研究人員認(rèn)為,這正是機(jī)器學(xué)習(xí)可發(fā)揮作用的領(lǐng)域。他們使用基于RNN的Pythia模型,并用數(shù)萬份希臘銘文來訓(xùn)練它,最終成功預(yù)測了文本中缺失的單詞和字符。

2022年,他們又推出Ithaca模型,不僅能預(yù)測缺失內(nèi)容,還能為未知文本提供日期和來源地建議。Ithaca利用了Transformer模型的突破,能捕捉更復(fù)雜的語言模式。當(dāng)前風(fēng)靡全球的聊天機(jī)器人,如OpenAI的ChatGPT就是基于Transformer模型。

翻譯復(fù)原浩瀚歷史檔案

韓國研究人員有一項(xiàng)棘手的任務(wù):整理世界上規(guī)模最大的歷史檔案之一。該檔案詳細(xì)記錄了27位朝鮮王國國王自14世紀(jì)至20世紀(jì)初統(tǒng)治時(shí)期的日常,涵蓋數(shù)十萬篇文章。美國紐約大學(xué)機(jī)器翻譯專家金亨俊表示,這些文本數(shù)據(jù)量極為龐大。

將這些文本人工譯成現(xiàn)代韓文,預(yù)計(jì)需耗時(shí)數(shù)十年。金亨俊攜手韓國同行,利用Transformer網(wǎng)絡(luò)訓(xùn)練自動(dòng)翻譯系統(tǒng)。結(jié)果顯示,AI譯文在準(zhǔn)確性和可讀性上遠(yuǎn)超古韓文,有時(shí)甚至優(yōu)于現(xiàn)代韓文。

對于僅存少量文本的古代語言,研究人員也會采用神經(jīng)網(wǎng)絡(luò)進(jìn)行破解。希臘帕特拉斯大學(xué)的卡特里娜·帕帕瓦西里歐及其團(tuán)隊(duì),利用RNN恢復(fù)了克里特島諾索斯邁錫尼泥板中缺失的線性文字B文本。測試顯示,模型預(yù)測準(zhǔn)確性高,且常與人類專家建議相符。

面臨驗(yàn)證與利用雙重挑戰(zhàn)

利用AI破解古文字依舊面臨諸多挑戰(zhàn)。AI技術(shù)使非專業(yè)人士也能接觸到大量古代文獻(xiàn),如何確保研究成果準(zhǔn)確無誤,成為了首要挑戰(zhàn)。神經(jīng)網(wǎng)絡(luò)的強(qiáng)大雖令人矚目,但其偶爾產(chǎn)生的誤導(dǎo)性結(jié)果,即“幻覺現(xiàn)象”,也讓人對結(jié)果的可靠性產(chǎn)生擔(dān)憂。

英國《自然》雜志指出,為解決這一問題,人文科學(xué)專家與計(jì)算機(jī)科學(xué)家需攜手合作,共同研究并驗(yàn)證AI的解讀結(jié)果。同時(shí),提倡將所有相關(guān)數(shù)據(jù)(包括原始文本、掃描文件、訓(xùn)練模型及算法)實(shí)行開源,以此提升研究的透明度與可驗(yàn)證性。這一做法被稱為“數(shù)字來源鏈”,旨在構(gòu)建一個(gè)從原始數(shù)據(jù)到最終結(jié)論的完整鏈條,便于任何人回溯并核實(shí)研究過程。

此外,隨著數(shù)字化文本數(shù)量的激增,如何有效利用這些龐大的數(shù)據(jù)資源,從中提煉出關(guān)于古代社會的重要信息,也是研究人員面臨的新課題。這要求研究者轉(zhuǎn)變視角,從單一的文本分析轉(zhuǎn)向?qū)φw文化的深入理解,并嘗試將不同地域、不同時(shí)期的文本數(shù)據(jù)相互關(guān)聯(lián),以獲得更為全面的認(rèn)識。

鮮花

握手

雷人

路過

雞蛋

關(guān)注我們:東遠(yuǎn)物聯(lián)

抖音

微信咨詢

咨詢電話:

199-2833-9866

D-Think | 廣州東遠(yuǎn)智能科技有限公司

地址:廣州市白云區(qū)北太路1633號廣州民營科技園科創(chuàng)中心2棟16樓

電話:+86 020-87227952 Email:[email protected]

Copyright  ©2020  東遠(yuǎn)科技  粵ICP備2024254589號

免責(zé)申明:部分圖文表述來自于網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系作者刪除!