97国产精品一区二区视频_国产午夜毛片色哟哟_惠民福利国产91精品看黄网站在线观看_搡老熟女老女人一区二区三区_国产做a∨在线视频观看免费_日韩 综合 婷婷 图_成人黄色一级毛片片_萧山本地第一网络媒体_亚洲国产精品无码久久久曰_亚洲欧美日韩岛国色图

快捷導(dǎo)航

OpenAI最新研究:當(dāng)前AI模型仍無法媲美人類程序員

2025-2-25 11:21| 發(fā)布者: admin| 查看: 118| 評(píng)論: 0
摘要: IT之家 2 月 24 日消息,盡管 OpenAI 首席執(zhí)行官薩姆?奧爾特曼(Sam Altman)堅(jiān)稱,到今年年底,人工智能模型將能夠超越“低級(jí)別”軟件工程師,但該公司研究人員的最新研究卻表明,即使是目前最先進(jìn)的 AI 模型,仍 ...
IT之家 2 月 24 日消息,盡管 OpenAI 首席執(zhí)行官薩姆?奧爾特曼(Sam Altman)堅(jiān)稱,到今年年底,人工智能模型將能夠超越“低級(jí)別”軟件工程師,但該公司研究人員的最新研究卻表明,即使是目前最先進(jìn)的 AI 模型,仍無法與人類程序員相媲美。

OpenAI最新研究:當(dāng)前AI模型仍無法媲美人類程序員


研究人員在一篇新論文中指出,即使是前沿模型 —— 即那些最具創(chuàng)新性和突破性的 AI 系統(tǒng) ——“仍然無法解決大多數(shù)”編程任務(wù)。為此,研究人員開發(fā)了一個(gè)名為 SWE-Lancer 的新基準(zhǔn)測試工具,該工具基于自由職業(yè)者網(wǎng)站 Upwork 上的 1400 多個(gè)軟件工程任務(wù)。通過這一基準(zhǔn)測試,OpenAI 對(duì)三款大型語言模型(LLMs)進(jìn)行了測試,分別是其自身的 o1 推理模型、旗艦產(chǎn)品 GPT-4o,以及 Anthropic 公司的 Claude 3.5 Sonnet。

OpenAI最新研究:當(dāng)前AI模型仍無法媲美人類程序員


具體而言,這一新基準(zhǔn)測試評(píng)估了這些 LLMs 在處理 Upwork 上的兩類任務(wù)時(shí)的表現(xiàn):一類是個(gè)體任務(wù),涉及修復(fù)漏洞并實(shí)施修復(fù)措施;另一類是管理任務(wù),要求模型從更宏觀的角度做出更高層次的決策。值得注意的是,在測試過程中,這些模型被禁止訪問互聯(lián)網(wǎng),因此它們無法直接抄襲網(wǎng)上已有的類似答案。

這些模型所承擔(dān)的任務(wù)在 Upwork 上的價(jià)值累計(jì)可達(dá)數(shù)十萬美元,但它們僅能解決一些表面的軟件問題,卻無法在大型項(xiàng)目中真正找到漏洞及其根源。這種“半成品”的解決方案,對(duì)于與 AI 有過合作經(jīng)驗(yàn)的人來說并不陌生 ——AI 擅長輸出聽起來自信滿滿的信息,但在仔細(xì)審查時(shí)往往漏洞百出。

盡管論文指出,這三款 LLMs 通常能夠“遠(yuǎn)快于人類”地完成任務(wù),但它們卻無法理解漏洞的廣泛性及其背景,從而導(dǎo)致解決方案“錯(cuò)誤或不夠全面”。

研究人員解釋稱,Claude 3.5 Sonnet 的表現(xiàn)優(yōu)于另外兩款 OpenAI 模型,并且在測試中“賺取”的金額也超過了 o1 和 GPT-4o。然而,其大多數(shù)答案仍然是錯(cuò)誤的。研究人員指出,任何模型若想被真正用于實(shí)際編程任務(wù),都需要具備“更高的可靠性”。

簡而言之,該論文似乎表明,盡管這些前沿模型能夠快速地處理一些細(xì)節(jié)任務(wù),但它們?cè)谔幚磉@些任務(wù)時(shí)的技能水平,仍遠(yuǎn)遠(yuǎn)不及人類工程師。

盡管近年來這些大型語言模型取得了快速的發(fā)展,并且未來還會(huì)繼續(xù)進(jìn)步,但它們目前在軟件工程領(lǐng)域的技能水平仍不足以取代人類。然而IT之家注意到,這似乎并未阻止一些首席執(zhí)行官解雇人類程序員,轉(zhuǎn)而使用這些尚未成熟的 AI 模型。

路過

雷人

握手

鮮花

雞蛋

關(guān)注我們:東遠(yuǎn)物聯(lián)

抖音

微信咨詢

咨詢電話:

199-2833-9866

D-Think | 廣州東遠(yuǎn)智能科技有限公司

地址:廣州市白云區(qū)北太路1633號(hào)廣州民營科技園科創(chuàng)中心2棟16樓

電話:+86 020-87227952 Email:[email protected]

Copyright  ©2020  東遠(yuǎn)科技  粵ICP備2024254589號(hào)

免責(zé)申明:部分圖文表述來自于網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系作者刪除!