都說醫(yī)療、金融等專業(yè)領(lǐng)域的語料數(shù)據(jù)稀缺,制約大模型AI發(fā)展,能不能讓兩個ChatGPT對聊,聊出點數(shù)據(jù)?近日,天橋腦科學研究院(TCCI)主辦AI For Brain Science系列會議第二期“面向AI模型的數(shù)據(jù)生成方法及其對醫(yī)療領(lǐng)域的啟示”。在上海交通大學計算機科學與工程系副教授吳夢玥主持下,青年科學家分享了關(guān)于破解大規(guī)模語言模型數(shù)據(jù)瓶頸的看法和實踐。 “知識蒸餾”與快速構(gòu)建專屬GPT 國際上一項研究評估指出,ChatGPT回答癌癥相關(guān)問題的水平已經(jīng)與美國國家癌癥研究所的官方回答持平。然而,ChatGPT只能通過受限的API進行訪問。涉及到個人醫(yī)療,人們也普遍不希望將個人隱私信息分享給第三方公司。 針對這樣的難題,加州大學圣迭戈分校博士生許燦文和中山大學團隊的合作者提出了一種能自動生成高質(zhì)量多輪聊天語料庫的流程,利用ChatGPT與其自身進行對話,生成對話數(shù)據(jù),再基于產(chǎn)生的對話數(shù)據(jù)調(diào)優(yōu)、增強開源的大型語言模型LLaMA。他們從而獲得了高質(zhì)量的專屬模型“白澤”,并在數(shù)天前推出2.0版本。這個名字的靈感來源是中國古代傳說中的一種神獸,“能言語,達知萬物之情”。 許燦文說,白澤在這個過程中并沒有學會新的知識,只是提取了大模型中的特定數(shù)據(jù),并且保留了ChatGPT分點作答、拒絕回答等強大的語言能力。這在專業(yè)上被比喻為一種“蒸餾”。他們進一步提出了反饋自蒸餾的概念,即利用ChatGPT當教官,對白澤回答的結(jié)果進行評分排序,從而進一步提高白澤模型的性能。 許燦文認為,白澤通過自動化的“知識蒸餾”,在特定領(lǐng)域達到ChatGPT的能力,成本卻遠低于ChatGPT,兼具經(jīng)濟意義和實用意義。在醫(yī)療領(lǐng)域,本地化或私有化建構(gòu)的模型將有利于消除隱私顧慮,輔助患者診療。未來也許每個人都將有自己的專屬AI助手。 數(shù)據(jù)生成新策:大模型優(yōu)化醫(yī)療文本挖掘 ChatGPT具有創(chuàng)造性的寫作能力,在醫(yī)療、金融、法律等標注數(shù)據(jù)很少的領(lǐng)域以及知識密集型領(lǐng)域表現(xiàn)出色。然而,具體到醫(yī)療文本挖掘,他們發(fā)現(xiàn)將ChatGPT直接應用大型模型處理醫(yī)療文本的下游任務,表現(xiàn)并不總是優(yōu)秀。 萊斯大學博士生唐瑞祥和合作者提出了一種新策略:利用大型模型生成大量醫(yī)療數(shù)據(jù),再通過小型模型對這些數(shù)據(jù)進行訓練。實驗結(jié)果顯示,相較直接利用大型模型執(zhí)行下游任務,這一新策略能取得更出色的效果,同時因為模型數(shù)據(jù)在本地,也大幅降低了潛在的隱私風險。 他們進一步指出,隨著開源大模型數(shù)量的增加和大模型能力提升,其產(chǎn)生的文本數(shù)據(jù)與人類產(chǎn)生的文本數(shù)據(jù)的差別將越來越小,能否有效檢測出數(shù)據(jù)是不是GPT生成的,將影響到廣大用戶對大模型AI的信任度。 大模型時代的數(shù)據(jù)生成有什么不一樣? 那么,在沒有GPT的時代,科學家們?nèi)绾谓鉀Q數(shù)據(jù)稀缺難題?大模型又帶來了哪些新趨勢? 上海交通大學博士生曹瑞升談到,深度學習本質(zhì)上是一種找出從輸入x到輸出y的映射過程,所以需要大量的(x, y)數(shù)據(jù)對來訓練。在醫(yī)療這樣不容易獲得大量真實數(shù)據(jù)的領(lǐng)域,就需要人為生成更多的(x, y)數(shù)據(jù)對。 展望未來,曹瑞升總結(jié)了數(shù)據(jù)生成在大模型時代的幾大新趨勢。首先是構(gòu)建更通用的模型,以確保其能應用于多樣化任務。其次是從特定任務出發(fā),進一步精細化地處理。例如,在醫(yī)療領(lǐng)域,甚至可以針對特定類型的抑郁癥進行專業(yè)化的任務處理,提供更精準個性化的解決方案。最后,數(shù)據(jù)生成和模型訓練的過程將從分離走向融合,而為了保證數(shù)據(jù)質(zhì)量的硬性過濾也將逐漸被軟性控制所取代。 作者:唐聞佳 編輯:唐聞佳 |