請(qǐng) 登錄后使用快捷導(dǎo)航
沒有賬號(hào)？立即注冊(cè)

快捷導(dǎo)航

D-Think | 東遠(yuǎn)科技-廣州東遠(yuǎn)智能科技有限公司- › 首頁(yè) ›資訊› 科技頭條 › 查看內(nèi)容

ChatGPT擊敗50名人類醫(yī)生！疾病診斷準(zhǔn)確率達(dá)90%，OpenAI總裁：人機(jī)合作還得加強(qiáng)

2024-11-18 15:34| 發(fā)布者: admin| 查看: 89| 評(píng)論: 0

摘要: 克雷西發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI用ChatGPT診斷疾病，準(zhǔn)確率已經(jīng)超過了人類醫(yī)生？！斯坦福大學(xué)等機(jī)構(gòu)進(jìn)行了一輪隨機(jī)臨床試驗(yàn)，結(jié)果人類醫(yī)生單獨(dú)做出診斷的準(zhǔn)確率為74%。在ChatGPT的輔助之下，這一數(shù)字提升 ...

克雷西發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

用ChatGPT診斷疾病，準(zhǔn)確率已經(jīng)超過了人類醫(yī)生？！

斯坦福大學(xué)等機(jī)構(gòu)進(jìn)行了一輪隨機(jī)臨床試驗(yàn)，結(jié)果人類醫(yī)生單獨(dú)做出診斷的準(zhǔn)確率為74%。

在ChatGPT的輔助之下，這一數(shù)字提升到了76%。

有意思的是，如果完全讓ChatGPT“自由發(fā)揮”，準(zhǔn)確率直接飆到了90%。

ChatGPT擊敗50名人類醫(yī)生！疾病診斷準(zhǔn)確率達(dá)90%，OpenAI總裁：人機(jī)合作還得加強(qiáng)

據(jù)紐約時(shí)報(bào)說，面對(duì)這一結(jié)果，參與實(shí)驗(yàn)的內(nèi)科專家Adam Rodman博士表示非常震驚。

有人評(píng)價(jià)，在這樣的案例中，人類的干預(yù)，反而是給大模型的表現(xiàn)“拖了后腿”。

ChatGPT擊敗50名人類醫(yī)生！疾病診斷準(zhǔn)確率達(dá)90%，OpenAI總裁：人機(jī)合作還得加強(qiáng)

OpenAI總裁Brockman也轉(zhuǎn)發(fā)了這則消息，表示看來AI還有巨大的潛力，但在和人類合作這件事上，還需要再加強(qiáng)。

ChatGPT擊敗50名人類醫(yī)生！疾病診斷準(zhǔn)確率達(dá)90%，OpenAI總裁：人機(jī)合作還得加強(qiáng)

50名醫(yī)生挑戰(zhàn)經(jīng)典病例

研究團(tuán)隊(duì)隨機(jī)從斯坦福大學(xué)、弗吉尼亞大學(xué)等機(jī)構(gòu)招募到了50名醫(yī)生，其中包括44名內(nèi)科醫(yī)生、5名急診醫(yī)生和1名家庭醫(yī)生。

如果按照職稱劃分，這50名醫(yī)生包括26名主治醫(yī)生和24名住院醫(yī)生，工作年限中位數(shù)為3年。

主治醫(yī)生和住院醫(yī)生分別被隨機(jī)分配到實(shí)驗(yàn)組和對(duì)照組，區(qū)別是在診斷中是否允許使用ChatGPT。

ChatGPT擊敗50名人類醫(yī)生！疾病診斷準(zhǔn)確率達(dá)90%，OpenAI總裁：人機(jī)合作還得加強(qiáng)

另外，研究人員還對(duì)參與者的大模型使用經(jīng)驗(yàn)進(jìn)行了統(tǒng)計(jì)。

結(jié)果有8人從未使用過ChatGPT，6人只用過一次，15人使用頻率少于每月一次，13人每月多于一次但少于每周一次，8人每周至少使用一次。

ChatGPT擊敗50名人類醫(yī)生！疾病診斷準(zhǔn)確率達(dá)90%，OpenAI總裁：人機(jī)合作還得加強(qiáng)

病例方面，研究團(tuán)隊(duì)從上世紀(jì)90年代以來的105個(gè)經(jīng)典病例中進(jìn)行了選擇和改編。

所有病例均來源于真實(shí)病人，包含病史、體檢和實(shí)驗(yàn)室檢查結(jié)果等初步診斷評(píng)估信息，但最終診斷結(jié)果從未公開。

這意味著，人類醫(yī)生無法預(yù)先知曉答案，ChatGPT的訓(xùn)練數(shù)據(jù)中也沒有相應(yīng)的診斷結(jié)果。

四名專業(yè)醫(yī)生每人獨(dú)立審閱其中至少50個(gè)病例，確定至少10個(gè)滿足納入標(biāo)準(zhǔn)的候選病例，需要排除過于簡(jiǎn)單或過于罕見的病例。

最終四人小組討論達(dá)成一致，確定6個(gè)最終入選病例，預(yù)計(jì)受試者完成時(shí)間為1個(gè)小時(shí)。

入選的病例還要經(jīng)過編輯，改寫成現(xiàn)代化實(shí)驗(yàn)室數(shù)據(jù)報(bào)告的格式，并用將專業(yè)術(shù)語替換為通俗描述（如將“網(wǎng)狀青斑”替換為“紫色、紅色、蕾絲狀皮疹”）。

ChatGPT擊敗50名人類醫(yī)生！疾病診斷準(zhǔn)確率達(dá)90%，OpenAI總裁：人機(jī)合作還得加強(qiáng)

在評(píng)估方法上，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)基于“結(jié)構(gòu)化反思”的評(píng)估工具。

具體來說，參與者需要填寫一個(gè)結(jié)構(gòu)化的表格，其中包含以下關(guān)鍵要素：

最可能的三個(gè)鑒別診斷（3分）：參與者需要根據(jù)病例信息，列出他們認(rèn)為最有可能的三個(gè)診斷，每個(gè)正確的診斷可以獲得1分，最多3分；
支持和反對(duì)每個(gè)診斷的因素（12分）：對(duì)于每個(gè)鑒別診斷，參與者需要列出病例中支持和反對(duì)該診斷的具體證據(jù)。每個(gè)因素的評(píng)分采用0-2分的等級(jí)，0分表示錯(cuò)誤或缺失，1分表示部分正確，2分表示完全正確；
最終診斷（2分）：在綜合考慮各鑒別診斷的支持和反對(duì)證據(jù)后，參與者需要給出最終診斷。最佳診斷得2分，次佳但合理的診斷得1分，錯(cuò)誤診斷不得分；
后續(xù)步驟（2分）：參與者需要列出最多三個(gè)他們認(rèn)為必要的后續(xù)診斷措施,以進(jìn)一步確認(rèn)或排除某些診斷。每個(gè)步驟的評(píng)分也采用0-2分的等級(jí)，0分表示錯(cuò)誤，1分表示部分正確，2分表示完全正確。

在正式實(shí)驗(yàn)之前，研究團(tuán)隊(duì)招募了13名醫(yī)生，收集了共65個(gè)試點(diǎn)病例的結(jié)構(gòu)化反思表格，并邀請(qǐng)3名臨床評(píng)估專家進(jìn)行盲評(píng)，從而對(duì)評(píng)分量表進(jìn)行了優(yōu)化。

最終，50名參與者需要在1個(gè)小時(shí)時(shí)間內(nèi)，完成6個(gè)病例的結(jié)構(gòu)化反思表格。

ChatGPT擊敗50名人類醫(yī)生！疾病診斷準(zhǔn)確率達(dá)90%，OpenAI總裁：人機(jī)合作還得加強(qiáng)

每個(gè)病例會(huì)被2名評(píng)分員獨(dú)立盲評(píng)，如果兩名評(píng)審員評(píng)分相差不超過10%，則直接取平均值；

如果差異超過10%，則認(rèn)為兩名評(píng)審員存在分歧，需要進(jìn)行討論直至達(dá)成共識(shí)。

ChatGPT表現(xiàn)超過人類

為了更清晰地展示研究的內(nèi)容，研究人員公布了六個(gè)病例中的一個(gè)，以及對(duì)應(yīng)得分高和得分低的醫(yī)生的答案。

一名76歲的男性患者，走路時(shí)腰部、臀部和小腿劇烈疼痛。在他接受球囊血管成形術(shù)以擴(kuò)大冠狀動(dòng)脈后幾天，疼痛開始出現(xiàn)。手術(shù)后，他接受了48小時(shí)的血液稀釋劑肝素治療。
該男子稱他感到發(fā)燒和疲倦。他的心臟病醫(yī)生所做的實(shí)驗(yàn)室研究表明，他的貧血癥再次發(fā)作，并且氮和其他腎臟廢物在血液中積聚。該男子十年前曾因心臟病接受搭橋手術(shù)。

案例中還包括該男子體檢的詳細(xì)信息以及他的實(shí)驗(yàn)室測(cè)試結(jié)果，正確的診斷是“膽固醇栓塞”，兩名醫(yī)生以及GPT-4給出的回答如下（中間理由和后續(xù)操作略）。

ChatGPT擊敗50名人類醫(yī)生！疾病診斷準(zhǔn)確率達(dá)90%，OpenAI總裁：人機(jī)合作還得加強(qiáng)

最終，實(shí)驗(yàn)組（使用ChatGPT）的診斷得分中位數(shù)為76%，對(duì)照組為74%。

由于每個(gè)參與者完成了多個(gè)病例，因此病例之間可能存在相關(guān)性，所以為了妥善處理這種嵌套結(jié)構(gòu)，作者使用了混合效應(yīng)模型。

這類模型不僅考慮了干預(yù)的固定效應(yīng)（即是否使用大模型的影響），還考慮了參與者和病例的隨機(jī)效應(yīng)。

根據(jù)混合效應(yīng)模型估計(jì)，兩組的差異為2個(gè)百分點(diǎn)，95%置信區(qū)間為-4到8個(gè)百分點(diǎn)，p值為0.60。

這意味著，盡管實(shí)驗(yàn)組的得分略高于對(duì)照組，但這種差異可能僅僅是由于隨機(jī)誤差所致，不具有統(tǒng)計(jì)學(xué)意義。

ChatGPT擊敗50名人類醫(yī)生！疾病診斷準(zhǔn)確率達(dá)90%，OpenAI總裁：人機(jī)合作還得加強(qiáng)

如果單純看最終診斷結(jié)果，以及完成測(cè)試所花費(fèi)的時(shí)間，兩組之間同樣沒有體現(xiàn)出明顯的差別。

除此之外，作者還補(bǔ)充了單獨(dú)使用ChatGPT進(jìn)行診斷的實(shí)驗(yàn)。

研究團(tuán)隊(duì)使用近期提出的提示工程框架，迭代開發(fā)了一個(gè)最優(yōu)的0樣本提示。

其中包含了任務(wù)細(xì)節(jié)、背景、指令等關(guān)鍵要素，且每個(gè)病例使用相同的提示。

一名研究者會(huì)將優(yōu)化后的提示，連同病例內(nèi)容輸入ChatGPT，每個(gè)病例獨(dú)立運(yùn)行三次。

ChatGPT擊敗50名人類醫(yī)生！疾病診斷準(zhǔn)確率達(dá)90%，OpenAI總裁：人機(jī)合作還得加強(qiáng)

研究者會(huì)不對(duì)ChatGPT的輸出做任何人工修改，直接交給評(píng)分者一同盲評(píng)，而且評(píng)分員也不知道哪些結(jié)果由ChatGPT生成。

結(jié)果，單獨(dú)使用ChatGPT得到的診斷得分，中位數(shù)高達(dá)92%，明顯高于對(duì)照組，且p值為0.03，具有統(tǒng)計(jì)學(xué)意義。

需要注意的是，這些病例是經(jīng)過人類臨床醫(yī)生精心篩選和總結(jié)的，人類已經(jīng)對(duì)其中的關(guān)鍵信息進(jìn)行過提取。

實(shí)際臨床工作中，從病人那里獲取信息、收集數(shù)據(jù)的過程更加復(fù)雜，因此實(shí)驗(yàn)結(jié)果并不代表大模型能在臨床場(chǎng)景中取代人類。

但同時(shí)，“人類+ChatGPT”與ChatGPT“自由發(fā)揮”結(jié)果之間的巨大差異，也說明了人類的使用方式，還遠(yuǎn)遠(yuǎn)不能發(fā)揮出大模型的最大效能。

所以，就像開頭Brockman說的一樣，這個(gè)實(shí)驗(yàn)預(yù)示著，人類和AI之間，還需要進(jìn)一步加強(qiáng)合作。

論文地址：
https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2825395
參考鏈接：
[1]https://www.nytimes.com/2024/11/17/health/chatgpt-ai-doctors-diagnosis.html
[2]https://x.com/gdb/status/1858337346514485362

— 完 —

定檔12月11日

「MEET2025智能未來大會(huì)」開啟報(bào)名

李開復(fù)博士、周志華教授、智源研究院王仲遠(yuǎn)院長(zhǎng)都來量子位MEET2025智能未來大會(huì)探討行業(yè)破局之道了！

首批嘉賓陣容在此，觀眾報(bào)名通道已開啟！歡迎來到MEET智能未來大會(huì)，期待與您一起預(yù)見智能科技新未來！

科技前沿進(jìn)展日日相見 ~