克雷西 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
用ChatGPT診斷疾病,準(zhǔn)確率已經(jīng)超過了人類醫(yī)生?!
斯坦福大學(xué)等機(jī)構(gòu)進(jìn)行了一輪隨機(jī)臨床試驗(yàn),結(jié)果人類醫(yī)生單獨(dú)做出診斷的準(zhǔn)確率為74%。
在ChatGPT的輔助之下,這一數(shù)字提升到了76%。
有意思的是,如果完全讓ChatGPT“自由發(fā)揮”,準(zhǔn)確率直接飆到了90%。
據(jù)紐約時(shí)報(bào)說,面對(duì)這一結(jié)果,參與實(shí)驗(yàn)的內(nèi)科專家Adam Rodman博士表示非常震驚。
有人評(píng)價(jià),在這樣的案例中,人類的干預(yù),反而是給大模型的表現(xiàn)“拖了后腿”。
OpenAI總裁Brockman也轉(zhuǎn)發(fā)了這則消息,表示看來AI還有巨大的潛力,但在和人類合作這件事上,還需要再加強(qiáng)。
50名醫(yī)生挑戰(zhàn)經(jīng)典病例
研究團(tuán)隊(duì)隨機(jī)從斯坦福大學(xué)、弗吉尼亞大學(xué)等機(jī)構(gòu)招募到了50名醫(yī)生,其中包括44名內(nèi)科醫(yī)生、5名急診醫(yī)生和1名家庭醫(yī)生。
如果按照職稱劃分,這50名醫(yī)生包括26名主治醫(yī)生和24名住院醫(yī)生,工作年限中位數(shù)為3年。
主治醫(yī)生和住院醫(yī)生分別被隨機(jī)分配到實(shí)驗(yàn)組和對(duì)照組,區(qū)別是在診斷中是否允許使用ChatGPT。
另外,研究人員還對(duì)參與者的大模型使用經(jīng)驗(yàn)進(jìn)行了統(tǒng)計(jì)。
結(jié)果有8人從未使用過ChatGPT,6人只用過一次,15人使用頻率少于每月一次,13人每月多于一次但少于每周一次,8人每周至少使用一次。
病例方面,研究團(tuán)隊(duì)從上世紀(jì)90年代以來的105個(gè)經(jīng)典病例中進(jìn)行了選擇和改編。
所有病例均來源于真實(shí)病人,包含病史、體檢和實(shí)驗(yàn)室檢查結(jié)果等初步診斷評(píng)估信息,但最終診斷結(jié)果從未公開。
這意味著,人類醫(yī)生無法預(yù)先知曉答案,ChatGPT的訓(xùn)練數(shù)據(jù)中也沒有相應(yīng)的診斷結(jié)果。
四名專業(yè)醫(yī)生每人獨(dú)立審閱其中至少50個(gè)病例,確定至少10個(gè)滿足納入標(biāo)準(zhǔn)的候選病例,需要排除過于簡(jiǎn)單或過于罕見的病例。
最終四人小組討論達(dá)成一致,確定6個(gè)最終入選病例,預(yù)計(jì)受試者完成時(shí)間為1個(gè)小時(shí)。
入選的病例還要經(jīng)過編輯,改寫成現(xiàn)代化實(shí)驗(yàn)室數(shù)據(jù)報(bào)告的格式,并用將專業(yè)術(shù)語替換為通俗描述(如將“網(wǎng)狀青斑”替換為“紫色、紅色、蕾絲狀皮疹”)。
在評(píng)估方法上,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)基于“結(jié)構(gòu)化反思”的評(píng)估工具。
具體來說,參與者需要填寫一個(gè)結(jié)構(gòu)化的表格,其中包含以下關(guān)鍵要素:
最可能的三個(gè)鑒別診斷(3分):參與者需要根據(jù)病例信息,列出他們認(rèn)為最有可能的三個(gè)診斷,每個(gè)正確的診斷可以獲得1分,最多3分;
支持和反對(duì)每個(gè)診斷的因素(12分):對(duì)于每個(gè)鑒別診斷,參與者需要列出病例中支持和反對(duì)該診斷的具體證據(jù)。每個(gè)因素的評(píng)分采用0-2分的等級(jí),0分表示錯(cuò)誤或缺失,1分表示部分正確,2分表示完全正確;
最終診斷(2分):在綜合考慮各鑒別診斷的支持和反對(duì)證據(jù)后,參與者需要給出最終診斷。最佳診斷得2分,次佳但合理的診斷得1分,錯(cuò)誤診斷不得分;
后續(xù)步驟(2分):參與者需要列出最多三個(gè)他們認(rèn)為必要的后續(xù)診斷措施,以進(jìn)一步確認(rèn)或排除某些診斷。每個(gè)步驟的評(píng)分也采用0-2分的等級(jí),0分表示錯(cuò)誤,1分表示部分正確,2分表示完全正確。
在正式實(shí)驗(yàn)之前,研究團(tuán)隊(duì)招募了13名醫(yī)生,收集了共65個(gè)試點(diǎn)病例的結(jié)構(gòu)化反思表格,并邀請(qǐng)3名臨床評(píng)估專家進(jìn)行盲評(píng),從而對(duì)評(píng)分量表進(jìn)行了優(yōu)化。
最終,50名參與者需要在1個(gè)小時(shí)時(shí)間內(nèi),完成6個(gè)病例的結(jié)構(gòu)化反思表格。
每個(gè)病例會(huì)被2名評(píng)分員獨(dú)立盲評(píng),如果兩名評(píng)審員評(píng)分相差不超過10%,則直接取平均值;
如果差異超過10%,則認(rèn)為兩名評(píng)審員存在分歧,需要進(jìn)行討論直至達(dá)成共識(shí)。
ChatGPT表現(xiàn)超過人類
為了更清晰地展示研究的內(nèi)容,研究人員公布了六個(gè)病例中的一個(gè),以及對(duì)應(yīng)得分高和得分低的醫(yī)生的答案。
一名76歲的男性患者,走路時(shí)腰部、臀部和小腿劇烈疼痛。在他接受球囊血管成形術(shù)以擴(kuò)大冠狀動(dòng)脈后幾天,疼痛開始出現(xiàn)。手術(shù)后,他接受了48小時(shí)的血液稀釋劑肝素治療。
該男子稱他感到發(fā)燒和疲倦。他的心臟病醫(yī)生所做的實(shí)驗(yàn)室研究表明,他的貧血癥再次發(fā)作,并且氮和其他腎臟廢物在血液中積聚。該男子十年前曾因心臟病接受搭橋手術(shù)。
案例中還包括該男子體檢的詳細(xì)信息以及他的實(shí)驗(yàn)室測(cè)試結(jié)果,正確的診斷是“膽固醇栓塞”,兩名醫(yī)生以及GPT-4給出的回答如下(中間理由和后續(xù)操作略)。
最終,實(shí)驗(yàn)組(使用ChatGPT)的診斷得分中位數(shù)為76%,對(duì)照組為74%。
由于每個(gè)參與者完成了多個(gè)病例,因此病例之間可能存在相關(guān)性,所以為了妥善處理這種嵌套結(jié)構(gòu),作者使用了混合效應(yīng)模型。
這類模型不僅考慮了干預(yù)的固定效應(yīng)(即是否使用大模型的影響),還考慮了參與者和病例的隨機(jī)效應(yīng)。
根據(jù)混合效應(yīng)模型估計(jì),兩組的差異為2個(gè)百分點(diǎn),95%置信區(qū)間為-4到8個(gè)百分點(diǎn),p值為0.60。
這意味著,盡管實(shí)驗(yàn)組的得分略高于對(duì)照組,但這種差異可能僅僅是由于隨機(jī)誤差所致,不具有統(tǒng)計(jì)學(xué)意義。
如果單純看最終診斷結(jié)果,以及完成測(cè)試所花費(fèi)的時(shí)間,兩組之間同樣沒有體現(xiàn)出明顯的差別。
除此之外,作者還補(bǔ)充了單獨(dú)使用ChatGPT進(jìn)行診斷的實(shí)驗(yàn)。
研究團(tuán)隊(duì)使用近期提出的提示工程框架,迭代開發(fā)了一個(gè)最優(yōu)的0樣本提示。
其中包含了任務(wù)細(xì)節(jié)、背景、指令等關(guān)鍵要素,且每個(gè)病例使用相同的提示。
一名研究者會(huì)將優(yōu)化后的提示,連同病例內(nèi)容輸入ChatGPT,每個(gè)病例獨(dú)立運(yùn)行三次。
研究者會(huì)不對(duì)ChatGPT的輸出做任何人工修改,直接交給評(píng)分者一同盲評(píng),而且評(píng)分員也不知道哪些結(jié)果由ChatGPT生成。
結(jié)果,單獨(dú)使用ChatGPT得到的診斷得分,中位數(shù)高達(dá)92%,明顯高于對(duì)照組,且p值為0.03,具有統(tǒng)計(jì)學(xué)意義。
需要注意的是,這些病例是經(jīng)過人類臨床醫(yī)生精心篩選和總結(jié)的,人類已經(jīng)對(duì)其中的關(guān)鍵信息進(jìn)行過提取。
實(shí)際臨床工作中,從病人那里獲取信息、收集數(shù)據(jù)的過程更加復(fù)雜,因此實(shí)驗(yàn)結(jié)果并不代表大模型能在臨床場(chǎng)景中取代人類。
但同時(shí),“人類+ChatGPT”與ChatGPT“自由發(fā)揮”結(jié)果之間的巨大差異,也說明了人類的使用方式,還遠(yuǎn)遠(yuǎn)不能發(fā)揮出大模型的最大效能。
所以,就像開頭Brockman說的一樣,這個(gè)實(shí)驗(yàn)預(yù)示著,人類和AI之間,還需要進(jìn)一步加強(qiáng)合作。
論文地址:
https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2825395
參考鏈接:
[1]https://www.nytimes.com/2024/11/17/health/chatgpt-ai-doctors-diagnosis.html
[2]https://x.com/gdb/status/1858337346514485362
定檔12月11日
「MEET2025智能未來大會(huì)」開啟報(bào)名
李開復(fù)博士、周志華教授、智源研究院王仲遠(yuǎn)院長(zhǎng)都來量子位MEET2025智能未來大會(huì)探討行業(yè)破局之道了!
首批嘉賓陣容在此,觀眾報(bào)名通道已開啟!歡迎來到MEET智能未來大會(huì),期待與您一起預(yù)見智能科技新未來!