97国产精品一区二区视频_国产午夜毛片色哟哟_惠民福利国产91精品看黄网站在线观看_搡老熟女老女人一区二区三区_国产做a∨在线视频观看免费_日韩 综合 婷婷 图_成人黄色一级毛片片_萧山本地第一网络媒体_亚洲国产精品无码久久久曰_亚洲欧美日韩岛国色图

快捷導(dǎo)航

科學(xué)家證實ChatGPT改變學(xué)術(shù)論文風(fēng)格,百萬篇論文詞頻減少10%

2024-7-9 16:14| 發(fā)布者: admin| 查看: 263| 評論: 0
摘要: 在近期一項研究中,意大利國際高等研究院(SISSA,International School for Advanced Studies)博士生耿明萌量化了 ChatGPT 對學(xué)術(shù)論文寫作的影響。圖 | 耿明萌(來源:耿明萌)日前,相關(guān)論文以《ChatGPT 正在改變 ...

在近期一項研究中,意大利國際高等研究院(SISSA,International School for Advanced Studies)博士生耿明萌量化了 ChatGPT 對學(xué)術(shù)論文寫作的影響。



科學(xué)家證實ChatGPT改變學(xué)術(shù)論文風(fēng)格,百萬篇論文詞頻減少10%

圖 | 耿明萌(來源:耿明萌)


日前,相關(guān)論文以《ChatGPT 正在改變學(xué)者的寫作風(fēng)格嗎?》(Is ChatGPT Transforming Academics’ Writing Style?)為題發(fā)在 arXiv[1]。



科學(xué)家證實ChatGPT改變學(xué)術(shù)論文風(fēng)格,百萬篇論文詞頻減少10%

圖 | 相關(guān)論文(來源:arXiv)


據(jù)介紹,之前大多數(shù)同類研究,往往是分析某個段落或某篇文章由 ChatGPT 生成的可能性。但是,本次成果更加關(guān)注于整體情況。


舉例來說,一項成熟的運(yùn)動不只需要優(yōu)秀的運(yùn)動員,還需要球迷、教練、投資人、裁判等。


目前,大模型的火熱程度已經(jīng)無需贅述,這條賽道甚至顯得有些擁擠不堪。在這樣的背景之下,耿明萌想做一些類似足球裁判員和數(shù)據(jù)分析師的工作。


事實上,就在一年之前他還不是 ChatGPT 的擁躉,也不打算追逐大模型的研究熱潮。


2023 年夏,耿明萌把更早一篇論文的初稿提交給導(dǎo)師之后,導(dǎo)師并沒有直接在原文上修改,而是給出一些簡略的建議和批注,其中有不少建議針對的是寫作問題。


這時,耿明萌想到使用 ChatGPT 來修改和潤色論文,但是很快他就意識到 ChatGPT 的風(fēng)格,比如其所使用的詞語頻率和人類有所不同。


于是,他想從詞頻角度出發(fā),來分析 ChatGPT 對于人類論文的影響。耿明萌導(dǎo)師的主業(yè)是天文和統(tǒng)計,之前并沒有自然語言處理的經(jīng)驗。


導(dǎo)師也很疑惑為何當(dāng)時仍未有人使用這么簡潔明了的方法來研究 ChatGPT 的影響,因此推測有可能是因為行不通所以才沒有人研究,于是暫時擱置了這個想法。


事情的轉(zhuǎn)機(jī)發(fā)生在 2023 年秋,當(dāng)時導(dǎo)師頻繁出差去宣傳自己出版的新書,并沒有時間討論課題組的項目。


于是,耿明萌決定騰出手自己試試看。


他記得特別清楚,在萬圣節(jié)假期的前一天晚上,在解決所有數(shù)據(jù)問題之后,他出去旅行了兩周,回來又花費(fèi)一周時間得到了初步結(jié)果。


即:學(xué)術(shù)論文中確實有一些詞語的使用頻率,在 ChatGPT 出現(xiàn)之后發(fā)生了明顯變化。


為了方便起見,耿明萌選取了當(dāng)時 arXiv 上最新的 100 萬篇論文的摘要進(jìn)行分析。之所以這樣做是因為摘要雖然短小,但是比論文的其他部分更有代表性。


結(jié)果他發(fā)現(xiàn):最近幾年論文數(shù)量出現(xiàn)暴漲,比如從 2018 年到 2023 年,就有超過 100 萬篇論文被提交到 arXiv 上。其中,大約有 90% 論文來自于數(shù)學(xué)、物理和計算機(jī)三個學(xué)科。


當(dāng)然,初步的研究結(jié)果也很有意思:比如“significant”的詞頻翻了接近一番,而“is”和“are”的詞頻則減少了 10% 左右。



科學(xué)家證實ChatGPT改變學(xué)術(shù)論文風(fēng)格,百萬篇論文詞頻減少10%

(來源:arXiv)


于是,耿明萌選取 2022 年 arXiv 上的前兩萬篇論文摘要,通過 ChatGPT API 加以修改和潤色,借此分析得到 ChatGPT 的詞語偏好。


由此發(fā)現(xiàn):2023 年 ChatGPT 修改論文前后的詞頻變化,和 2022 年的詞頻變化有著很大相關(guān)性。但是,2022 年相對于 2021 年,在詞語頻率變化上的相關(guān)性很小。



科學(xué)家證實ChatGPT改變學(xué)術(shù)論文風(fēng)格,百萬篇論文詞頻減少10%

(來源:arXiv)


那么,如果使用 ChatGPT 處理一部分論文摘要,和未經(jīng) ChatGPT 處理的論文摘要混在一起,能否基于詞語頻率的變化,估算出經(jīng)過 ChatGPT 處理的論文摘要的比重?以及應(yīng)該怎樣估計?再就是應(yīng)該選取哪些詞語?


為了回答這些問題,耿明萌提出一個含有噪聲項的模型,證明在某些情況之下,詞語的選取并不是越多越好。


而是應(yīng)該主要考慮以下兩個標(biāo)準(zhǔn):詞語頻率、以及 ChatGPT 處理前后的變化率。


而且,對于不同類別和不同混合比例的摘要,選取的詞語也應(yīng)該有所變化。隨后,通過校準(zhǔn)和測試,上述理論分析也在模擬中得到了驗證。



科學(xué)家證實ChatGPT改變學(xué)術(shù)論文風(fēng)格,百萬篇論文詞頻減少10%

(來源:arXiv)


基于此,他開始根據(jù)真實的 arXiv 摘要數(shù)據(jù),來估算 ChatGPT 的影響。


這一分析是基于:ChatGPT API 的模擬輸出對于不同的 prompt,其輸出的結(jié)果也不相同,因此所得出的結(jié)果是一個相對值。


如果以“Revise the following sentences”的結(jié)果作為基準(zhǔn),ChatGPT 修改的“比例”大約在 35% 左右。


如果科研人員在使用 ChatGPT 時都能使用更精準(zhǔn)的 prompt,那么 ChatGPT 對于論文摘要的貢獻(xiàn)就完全有可能超過 100%。


不過,耿明萌更愿意用“影響”而非用“比例”來看待本次結(jié)果。


不同的 prompt 會產(chǎn)生不同的輸出,因而同樣的使用比例也會產(chǎn)生不同的估計結(jié)果。考慮到實際的使用場景,一些人很有可能在使用 ChatGPT 之后刻意抹去了一些痕跡。


亦有論文作者的寫作風(fēng)格的確受到了 ChatGPT 的影響,但最后并沒有使用 ChatGPT 潤色論文摘要。同時,其它大模型可能會有相似、但不相同的詞頻。



科學(xué)家證實ChatGPT改變學(xué)術(shù)論文風(fēng)格,百萬篇論文詞頻減少10%

(來源:arXiv)


總的來說,耿明萌依然認(rèn)為,使用 ChatGPT 或其它工具,來潤色論文和翻譯論文本身并沒有錯,但要知道修改前后語義上的差別。


對于母語非英語的研究人員來說,這些新工具的合理使用確實也能促進(jìn)公平,但直接利用這些工具生成論文段落是不可取的。


而研究 ChatGPT 對于論文風(fēng)格的影響,則能助力科研人員更好地使用類似工具。


參考資料:

1.https://arxiv.org/pdf/2404.08627


運(yùn)營/排版:何晨龍


鮮花

握手

雷人

路過

雞蛋

關(guān)注我們:東遠(yuǎn)物聯(lián)

抖音

微信咨詢

咨詢電話:

199-2833-9866

D-Think | 廣州東遠(yuǎn)智能科技有限公司

地址:廣州市白云區(qū)北太路1633號廣州民營科技園科創(chuàng)中心2棟16樓

電話:+86 020-87227952 Email:[email protected]

Copyright  ©2020  東遠(yuǎn)科技  粵ICP備2024254589號

免責(zé)申明:部分圖文表述來自于網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系作者刪除!