97国产精品一区二区视频_国产午夜毛片色哟哟_惠民福利国产91精品看黄网站在线观看_搡老熟女老女人一区二区三区_国产做a∨在线视频观看免费_日韩 综合 婷婷 图_成人黄色一级毛片片_萧山本地第一网络媒体_亚洲国产精品无码久久久曰_亚洲欧美日韩岛国色图

快捷導(dǎo)航

歷史與AI的距離|從甲骨文到古希臘銘文:AI挑戰(zhàn)古代文獻(xiàn)

2025-3-12 07:53| 發(fā)布者: admin| 查看: 103| 評論: 0
摘要: 在加州大學(xué)圣地亞哥分校計(jì)算機(jī)科學(xué)與工程系博士生候選人陳丹露的分享中,復(fù)旦大學(xué)本科生必修課《15世紀(jì)以前的世界》迎來了第29次拓展講座。此次講座以“當(dāng)人工智能遇上歷史研究 ——AI如何解讀古代文獻(xiàn)”為主題,深 ...
在加州大學(xué)圣地亞哥分校計(jì)算機(jī)科學(xué)與工程系博士生候選人陳丹露的分享中,復(fù)旦大學(xué)本科生必修課《15世紀(jì)以前的世界》迎來了第29次拓展講座。此次講座以“當(dāng)人工智能遇上歷史研究 ——AI如何解讀古代文獻(xiàn)”為主題,深入探討了如何將人工智能融入歷史研究,為傳統(tǒng)學(xué)科帶來新的視角和方法。陳丹露本科就讀于復(fù)旦大學(xué),其主要研究方向包括自然語言處理、機(jī)器學(xué)習(xí)以及數(shù)字人文。

當(dāng)前,數(shù)字人文(Digital Humanities)的常見理解和實(shí)踐包括建立電子數(shù)據(jù)庫、分析文本、繪制歷史地圖與網(wǎng)絡(luò)分析,以及文化遺產(chǎn)的數(shù)字化重建。然而,這些應(yīng)用大多將計(jì)算機(jī)技術(shù)視為輔助工具,尚未與人工智能等先進(jìn)技術(shù)深度融合。

為了幫助聽眾更好地理解講座內(nèi)容,陳丹露通過幾個(gè)生動(dòng)的例子進(jìn)行了說明。首先,以《紅樓夢》的文本分析為例,將120回文本拆分為120個(gè)樣本作為輸入,利用k聚類分析方法進(jìn)行處理,輸出點(diǎn)狀聚類結(jié)果。結(jié)果顯示,前80回與后40回(除去第67回)在特征空間中存在明顯差異,從而支持了“前80回與后40回作者不同”的觀點(diǎn)。

處理歷史文獻(xiàn)往往第一步需要做文本電子化處理,即光學(xué)字符識別(OCR)。光學(xué)字符識別(OCR)技術(shù)是將紙質(zhì)文字轉(zhuǎn)化為計(jì)算機(jī)可處理的電子化表示的重要手段。然而,處理歷史文獻(xiàn)時(shí),OCR技術(shù)面臨諸多挑戰(zhàn)。由于歷史文獻(xiàn)的字體、排版和紙張質(zhì)量差異,OCR的識別準(zhǔn)確率可能較低,通常需要人工校正。例如,在對古代文獻(xiàn)進(jìn)行OCR識別時(shí),最理想的情況下,也約有5%的字符無法正確識別。為了提高準(zhǔn)確率,研究人員需要先提取文本,再對每個(gè)字符進(jìn)行分類,識別出字符的多種可能性,并進(jìn)行人工校對。

陳丹露主持的EEBO-verse項(xiàng)目則試圖打破使用OCR的傳統(tǒng)方法。該項(xiàng)目從早期現(xiàn)代西方文獻(xiàn)中篩選有韻律的詞句和詩歌,通過將圖片直接作為機(jī)器學(xué)習(xí)模型的輸入,篩選出可能包含詩歌的頁面,然后結(jié)合人工和文字識別軟件進(jìn)行精校。這種基于圖片的篩選方法針對特殊需求結(jié)合詩歌的版式特征,不需要單獨(dú)關(guān)注文本內(nèi)容,極大地提升了工作效率,為計(jì)算機(jī)和歷史文獻(xiàn)研究的結(jié)合提供了新思路。

然而,上述例子大多停留在使用機(jī)器建立數(shù)據(jù)庫和統(tǒng)計(jì)文本的層面,較少能夠超越“搜索與索引”,突破簡單的字符匹配或統(tǒng)計(jì)詞頻的層面。機(jī)器學(xué)習(xí)模型通常需要大量的樣本來進(jìn)行訓(xùn)練,但在歷史研究中,尤其是古代文獻(xiàn)領(lǐng)域,很多時(shí)候樣本數(shù)量有限,無法滿足機(jī)器學(xué)習(xí)的條件。同時(shí),一個(gè)關(guān)鍵問題是:如何表示古代文本?從機(jī)器學(xué)習(xí)的視角來看,大部分文字無法直接編碼,或者說編碼無法儲存所有的信息。所以,古代文字并非可直接處理的文本數(shù)據(jù),而是以圖像形式存在的視覺信息。這些圖片需要經(jīng)過預(yù)處理和標(biāo)注,才能被機(jī)器學(xué)習(xí)模型理解和學(xué)習(xí)。

歷史研究材料樣本不足和分布不均問題也構(gòu)成了挑戰(zhàn)。如果使用機(jī)器學(xué)習(xí)模型對楔形文字泥板進(jìn)行斷代,當(dāng)數(shù)據(jù)集來源單一(如大英博物館或耶魯博物館)時(shí),模型的表現(xiàn)可能較為理想。但如果將模型應(yīng)用于其他來源(如開羅博物館)的泥板時(shí),錯(cuò)誤率可能會高達(dá)80%。這是因?yàn)椴煌┪镳^的拍照環(huán)境、光線、色調(diào)和參數(shù)差異巨大,導(dǎo)致數(shù)據(jù)分布不一致。相比之下,識別貓狗等常見模型能夠取得成功,是因?yàn)檫@些數(shù)據(jù)集的規(guī)模足夠大,能夠覆蓋各種場景和變化。然而,網(wǎng)絡(luò)上楔形文字泥板的數(shù)量有限,且分布分散,難以形成大規(guī)模的、統(tǒng)一標(biāo)注的數(shù)據(jù)集,這使得機(jī)器學(xué)習(xí)模型的訓(xùn)練和應(yīng)用面臨巨大挑戰(zhàn)。

總結(jié)來說,人工智能在應(yīng)用于歷史研究時(shí)面臨三大核心問題:首先,歷史研究中的許多問題難以轉(zhuǎn)化為機(jī)器學(xué)習(xí)能夠理解的形式;其次,古代文字本身難以被機(jī)器學(xué)習(xí)模型直接識別,需要復(fù)雜的預(yù)處理和標(biāo)注;最后,古代文獻(xiàn)的數(shù)據(jù)資源稀缺,且訓(xùn)練集和測試集之間存在顯著的數(shù)據(jù)分布偏移。這些問題導(dǎo)致目前的研究大多停留在將紙質(zhì)文獻(xiàn)數(shù)字化為電子數(shù)據(jù)庫的階段,難以深入到更復(fù)雜的歷史問題的分析和解決中。

接下來,陳丹露通過多個(gè)案例展示了人工智能在古代文獻(xiàn)研究中的深入應(yīng)用。

重建古希臘銘文:DeepMind Ithaca

DeepMind開發(fā)的Ithaca模型旨在通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)補(bǔ)全受損銘文的缺失部分,并嘗試推測銘文的地理來源和年代。Ithaca通過隨機(jī)挖掉銘文中未破損的字符(例如20%的字符)來模擬破損銘文,并將這些字符作為模型的輸出進(jìn)行訓(xùn)練。這種方法的優(yōu)點(diǎn)在于避免了專家補(bǔ)全可能帶來的主觀錯(cuò)誤,確保模型能夠基于更可靠的訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí)。Ithaca的模型不僅能夠預(yù)測缺失的字符,還能確定銘文的地理來源和年代。實(shí)驗(yàn)結(jié)果顯示,Ithaca單獨(dú)使用時(shí)的錯(cuò)誤率遠(yuǎn)低于接受過希臘文字訓(xùn)練的研究生。

歷史與AI的距離|從甲骨文到古希臘銘文:AI挑戰(zhàn)古代文獻(xiàn)


人工智能重建古希臘銘文

歷史與AI的距離|從甲骨文到古希臘銘文:AI挑戰(zhàn)古代文獻(xiàn)


該研究論文題為“Restoring and attributing ancient texts using deep neural networks”,已發(fā)表在《自然》雜志上。

甲骨文綴合:OBI-Bench

由于甲骨文尚未有成熟的數(shù)字化表達(dá)方式,直接將其轉(zhuǎn)化為機(jī)器可讀的格式并不容易。OBI-Bench項(xiàng)目通過將甲骨文綴合問題轉(zhuǎn)化為字符相似度檢索問題,以期完成甲骨文的識別、綴合、分類、檢索和破譯五大任務(wù)。具體而言,該方法將甲骨文的圖片作為輸入,通過模型召回與目標(biāo)字符相似的其他字符,從而幫助研究人員進(jìn)行綴合。這種方法的優(yōu)勢在于無需對甲骨文進(jìn)行復(fù)雜的數(shù)字化編碼,直接利用圖片進(jìn)行處理,大大降低了技術(shù)門檻,同時(shí)也為甲骨文的研究提供了新的思路。

歷史與AI的距離|從甲骨文到古希臘銘文:AI挑戰(zhàn)古代文獻(xiàn)


本圖來自“甲骨文AI協(xié)同平臺”

龐貝古城赫庫蘭尼姆卷軸的非侵入式閱讀:Vesuvius Challenge

考古學(xué)家在龐貝古城附近的庫赫蘭尼姆遺址的考古發(fā)掘中,于火山灰泥層下發(fā)現(xiàn)了一座古代圖書館,其中保存著大量因火山噴發(fā)而碳化的珍貴古籍。這些古籍的閱讀難度極大,傳統(tǒng)的物理打開方法可能會對古籍造成不可逆的損壞。Vesuvius Challenge項(xiàng)目通過非侵入式的方法,利用三維掃描技術(shù)對古籍進(jìn)行成像,然后通過機(jī)器學(xué)習(xí)技術(shù)識別古籍中的文字。這種方法的主要步驟包括:CT成像、分割每一頁并(虛擬地)展平、墨水檢測識別,以及專家驗(yàn)證機(jī)器識別的文字是否準(zhǔn)確。然而,由于這些卷軸的掃描數(shù)據(jù)量巨大(例如25cm的卷軸掃描后數(shù)據(jù)量可達(dá)3.41TB),其中99%以上都是噪音,這給機(jī)器學(xué)習(xí)和識別帶來了巨大挑戰(zhàn)。此外,由于缺乏監(jiān)督數(shù)據(jù),研究人員不得不先人工辨認(rèn)墨跡,然后通過不斷迭代訓(xùn)練模型來提高識別準(zhǔn)確率。2023年的結(jié)果顯示,該方法成功識別出了一部失傳的哲學(xué)家作品。但模型的泛化能力有限,例如能夠準(zhǔn)確識別單獨(dú)一個(gè)卷軸的模型無法直接應(yīng)用于另外一個(gè)卷軸。

歷史與AI的距離|從甲骨文到古希臘銘文:AI挑戰(zhàn)古代文獻(xiàn)


左圖為Vesuvius Challenge(維蘇威火山挑戰(zhàn)賽)獲勝者利用機(jī)器學(xué)習(xí)技術(shù)解讀的古籍;右圖是這類古籍通過傳統(tǒng)的物理打開方式打開后的情況。

歷史與AI的距離|從甲骨文到古希臘銘文:AI挑戰(zhàn)古代文獻(xiàn)


在碳化的古卷上找到的字母ΠΟΡΦΥΡΑΣ ,是古文的紫色(Porphyras)

莎士比亞第四對開本的印刷者識別:Print and Probability

莎士比亞的第四對開本存在許多錯(cuò)漏,因此學(xué)者對尋找其印刷者表現(xiàn)出極大興趣,但當(dāng)時(shí)出版商匿名出版的習(xí)慣使之變得困難。通過機(jī)器學(xué)習(xí)技術(shù),研究人員可以利用活字印刷的特性來解決這一問題。具體而言,同一出版社印刷的字符在形狀(帶有破損)上應(yīng)該是相同的,因此可以通過尋找具有相似破損形狀的字符來確定兩本書是否由同一出版社印刷。來自加州大學(xué)圣地亞哥分校(UC San Diego)和卡內(nèi)基梅隆大學(xué)的跨學(xué)科合作團(tuán)隊(duì)把這個(gè)問題拆解成幾個(gè)機(jī)器學(xué)習(xí)模型能處理的子任務(wù),用AI首次回答了這個(gè)歷史懸案。首先,Ocular無監(jiān)督字符識別系統(tǒng)能夠提取一頁英文打印書籍中的所有字符并進(jìn)行分類,篩選出具有破損的字符,并通過訓(xùn)練小的神經(jīng)網(wǎng)絡(luò)來判斷字符是否有破損。隨后,通過標(biāo)注100-200個(gè)肉眼判斷為相似的字符樣本,訓(xùn)練一個(gè)網(wǎng)絡(luò)來識別這些字符的相似性。最終,通過匹配已知出版者的作品中的字符,可以確定未署名版本的印刷者。

通過這些案例,陳丹露給我們展示了人工智能在古代文獻(xiàn)研究中的多樣化應(yīng)用,從古希臘銘文的補(bǔ)全到甲骨文的綴合,從赫庫蘭尼姆卷軸的非侵入式破譯到莎士比亞對開本的印刷者識別,這些研究為歷史研究提供了新的視角和方法。

最后,在講座的互動(dòng)環(huán)節(jié)中,在場聽眾提出了多個(gè)問題,陳丹露也結(jié)合實(shí)際研究經(jīng)驗(yàn)進(jìn)行了詳細(xì)解答。

提問:

從大量古代文獻(xiàn)中篩選韻文的工作,是否更接近圖像識別任務(wù)而非語言分析任務(wù)?是否需要人工預(yù)先標(biāo)注數(shù)據(jù)?是否有比較有效的模型?

回答:

確實(shí)如此,篩選韻文的工作更接近圖像識別任務(wù)。圖像本質(zhì)上是矩陣,而文字需要轉(zhuǎn)化為機(jī)器能夠理解的連續(xù)形式,這增加了處理的復(fù)雜性。例如,在一百萬本書中,大約只有20%的文本經(jīng)過了人為標(biāo)注。在這種情況下,通常會將其中5%的數(shù)據(jù)用作測試集,95%用作訓(xùn)練集。從實(shí)際效果來看,基于圖像的方法往往比傳統(tǒng)的文字識別或特征提取方法表現(xiàn)更好。

提問:

建筑師手稿的OCR手寫體識別非常困難,目前的思路是人工標(biāo)注后再進(jìn)行機(jī)器識別,這是否正確?對于小樣本學(xué)習(xí)領(lǐng)域,您怎么看?在處理手稿時(shí),除了中文和英文,還有繪制的相關(guān)圖紙,這種情況下是否更應(yīng)該采用圖像處理的思路?

回答:

對于手寫體識別和小樣本學(xué)習(xí),人工標(biāo)注是非常關(guān)鍵的一步。實(shí)際上,只需要標(biāo)注一小部分?jǐn)?shù)據(jù),例如5%,就足以讓模型識別出95%的內(nèi)容。小樣本學(xué)習(xí)在近年來得到了廣泛應(yīng)用,尤其在歷史文獻(xiàn)研究中,這種方法貫穿了項(xiàng)目的整個(gè)流程。對于包含多種語言和圖紙的手稿,圖像處理的方法(或者說多模態(tài)的特征輸入)確實(shí)更為適用。通過將手稿中的文字和圖紙視為圖像,可以利用圖像處理技術(shù)進(jìn)行特征提取和分析,從而更好地處理這些復(fù)雜的內(nèi)容。

提問:

在處理大量文本并截取韻文時(shí),如果中文世界中并沒有整頁或半頁的版式體現(xiàn),是否還能采用類似的方法?在《紅樓夢》這一例子中,使用的聚類分析方法是否可以手工微調(diào)這些庫的參數(shù)以獲得更好的結(jié)果?

回答:

如果中文文獻(xiàn)中沒有明顯的整頁或半頁版式,那么直接應(yīng)用類似的方法確實(shí)會面臨困難。不過,韻文的例子是為了說明,除了文字內(nèi)容本身,還可以關(guān)注版式等非文字的特征。而關(guān)于《紅樓夢》的例子,在實(shí)際操作中,原文可能進(jìn)行了字級別的篩選。雖然聚類分析主要依賴于第三方庫,但每一步的分析過程都是可以觀察和調(diào)整的。例如,可以選擇不同的參數(shù)來優(yōu)化聚類結(jié)果,使其更符合研究需求,比如情感色彩等特征。當(dāng)然,需要注意的是,選擇參數(shù)時(shí)應(yīng)盡量避免僅選擇那些能夠明確得出預(yù)期結(jié)果的參數(shù),否則可能會導(dǎo)致結(jié)果的偏差,從而陷入循環(huán)論證的謬誤。

提問:

關(guān)于銘文補(bǔ)充的例子,是否因?yàn)槟P褪窃谝粋€(gè)集中的數(shù)據(jù)集里訓(xùn)練,所以結(jié)果會比較準(zhǔn)確?是否存在循環(huán)驗(yàn)證的情況?人類的詞語組合能力是否比機(jī)器更強(qiáng),從而導(dǎo)致機(jī)器的錯(cuò)誤率更高?現(xiàn)在所有模型都是基于大數(shù)據(jù)量訓(xùn)練的,但對于中世紀(jì)手稿這類數(shù)據(jù)量不足且風(fēng)格迥異的情況,該如何解決?

回答:

我認(rèn)為,人類在銘文補(bǔ)充任務(wù)中的錯(cuò)誤率59.6%可能有些偏高,因?yàn)檫@個(gè)數(shù)字是讓兩個(gè)做古典學(xué)的學(xué)生測出來的。但個(gè)人認(rèn)為這并非完全是因?yàn)槿祟惖脑~語組合能力更強(qiáng)而導(dǎo)致人類可以補(bǔ)全得更多。大多數(shù)情況下,錯(cuò)誤率較高是因?yàn)殂懳娜睋p過多,導(dǎo)致無法準(zhǔn)確補(bǔ)充。其次,機(jī)器給出的并非單一結(jié)果,而是多種可能性的概率分布,這為歷史學(xué)家提供了更多參考。最后,人和AI模型不應(yīng)該是一種競爭關(guān)系,而是人與機(jī)器可以相互補(bǔ)充:機(jī)器可以進(jìn)行初步篩選,尤其是在那些懂的人不多的語言中,由人類專家進(jìn)行最終確認(rèn)可能會更有效。對于小樣本問題,例如中世紀(jì)手稿,可以采用一些現(xiàn)有工具或方法。例如,像Ocular是一個(gè)專門用于處理小樣本和字符集較少的語言的工具。此外,也可以通過人工添加一些限制條件來優(yōu)化模型的訓(xùn)練過程。

提問:

甲骨文和其他古文字的字?jǐn)?shù)有限且相對規(guī)范,但竹簡文字的部件可以隨意拼貼組合,存在無數(shù)種可能性。在這種情況下,我們該如何識別?

回答:

可以嘗試讓模型生成關(guān)于這些部件的解讀,將分類問題轉(zhuǎn)化為描述性問題。這種方法可能有助于解決竹簡文字的識別問題。有些文字的分類并非固定組合,目前只有中文的簡帛存在類似問題,楔形文字其實(shí)也比較類似,但還是沒有竹簡字復(fù)雜。這是一個(gè)非常有趣且具有挑戰(zhàn)性的問題,值得進(jìn)一步研究。

提問:

我試用了Ithaca,特意挑選了一些包含地名和時(shí)間信息的銘文讓它判斷,但模型在判斷字符權(quán)重時(shí)會忽略一些重要名詞。這是不是意味著我們需要再訓(xùn)練一個(gè)大模型來輔助它,還是有其他方法可以讓一個(gè)模型同時(shí)實(shí)現(xiàn)字符推斷和結(jié)合歷史信息校正推斷?

回答:

Ithaca在訓(xùn)練的時(shí)候特意去除日期和地點(diǎn)這種能泄露年代的信息,并主要從純文風(fēng)角度去推斷銘文所屬的年代和地點(diǎn),因此會忽略一些人類專家可能會注意到的權(quán)重,例如地名、人名等信息。解決辦法是針對具體需求重新進(jìn)行相關(guān)訓(xùn)練。由于數(shù)據(jù)量通常不會太大,因此不需要重新接入一個(gè)大模型??梢酝ㄟ^調(diào)整訓(xùn)練數(shù)據(jù)和目標(biāo),讓模型更好地結(jié)合歷史信息進(jìn)行推斷。

提問:

作為純文科體系的學(xué)生,如果想結(jié)合數(shù)字技術(shù)與人文研究,需要做哪些準(zhǔn)備?

回答:

我個(gè)人的建議是,作為本科生,可以暫時(shí)把數(shù)字技術(shù)當(dāng)作一個(gè)“黑箱”,現(xiàn)在的GPT大模型已經(jīng)將輸入和輸出簡化到了極致,所以暫時(shí)不需要深入了解其內(nèi)部工作機(jī)制,而是要清楚它能做到什么,不能做到什么。網(wǎng)上有許多關(guān)于數(shù)字技術(shù)與人文社科結(jié)合的學(xué)習(xí)資源,雖然可能僅限于了解如何對問題進(jìn)行建模,但在學(xué)習(xí)專業(yè)課程時(shí),可以思考某個(gè)問題為什么可以或不可以被數(shù)字技術(shù)建模。不要過于焦慮,如果對交叉領(lǐng)域感興趣,可以主動(dòng)去學(xué)習(xí)更多的AI相關(guān)的數(shù)理課程,譬如說線性代數(shù)和機(jī)器學(xué)習(xí)基礎(chǔ)。更重要地是,要學(xué)會如何表述一個(gè)問題,思考如何將一個(gè)人文歷史問題轉(zhuǎn)化為可操作的分析問題,明確輸入和輸出,或者如何利用數(shù)字工具輔助研究,這是非數(shù)理技術(shù)專業(yè)的學(xué)者需要培養(yǎng)的重要能力。

歷史與AI的距離|從甲骨文到古希臘銘文:AI挑戰(zhàn)古代文獻(xiàn)


講座現(xiàn)場

董靜瀅 徐亞宣

(本文來自澎湃新聞,更多原創(chuàng)資訊請下載“澎湃新聞”APP)

路過

雷人

握手

鮮花

雞蛋

關(guān)注我們:東遠(yuǎn)物聯(lián)

抖音

微信咨詢

咨詢電話:

199-2833-9866

D-Think | 廣州東遠(yuǎn)智能科技有限公司

地址:廣州市白云區(qū)北太路1633號廣州民營科技園科創(chuàng)中心2棟16樓

電話:+86 020-87227952 Email:[email protected]

Copyright  ©2020  東遠(yuǎn)科技  粵ICP備2024254589號

免責(zé)申明:部分圖文表述來自于網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系作者刪除!