2024 年預(yù)期的 AI 應(yīng)用爆發(fā)并沒(méi)有到來(lái),但是編程領(lǐng)域卻是個(gè)特例。AI 編程工具正在引領(lǐng)大模型落地的浪潮,展現(xiàn)出明顯的產(chǎn)品市場(chǎng)契合度(Product Market Fit,PMF)。 從市場(chǎng)表現(xiàn)看,編程領(lǐng)域的 AI 發(fā)展最為迅猛,一批估值增長(zhǎng)最快的 AI 初創(chuàng)公司,比如 Cursor、Windsurf、Devin 等主營(yíng)業(yè)務(wù)都是構(gòu)建編程智能體。在 2024 年 12 月,Cursor 的開(kāi)發(fā)商 Anysphere 宣布完成了超過(guò) 1 億美元的 B 輪融資,投后估值高達(dá) 26 億美元。孵化自北京大學(xué)軟件工程研究所的硅心科技,專(zhuān)注于企業(yè)私有大模型部署,也于今年 1 月宣布成功完成 B 輪融資。 圖|Cursor 融資信息(來(lái)源:Cursor 官網(wǎng)) 在實(shí)際應(yīng)用方面,AI 編程的滲透率已經(jīng)達(dá)到了一個(gè)驚人的水平。據(jù)谷歌透露,超過(guò) 25% 的新代碼是由人工智能生成。Github 表示他們目前新寫(xiě)的代碼中由 30% 都是在 Github Copilot 輔助下完成的。除了大型科技公司,個(gè)人開(kāi)發(fā)者也借助 AI 工具也實(shí)現(xiàn)了開(kāi)發(fā)效率的顯著提升,編程能力得到全面增強(qiáng)。仿佛一夜之間,所有程序員都用 AI 武裝上了自己。 與此同時(shí),模型性能也在持續(xù)突破,在軟件風(fēng)格基準(zhǔn)測(cè)試 SWE-bench verified 中,GPT-o3 模型準(zhǔn)確率達(dá)到 71.7%,相比 GPT-o1 模型提升超過(guò) 20%。在 CodeForces 競(jìng)賽中,GPT-o3 模型更是達(dá)到 2727 ELO 分,遠(yuǎn)超 O1 的 1891 分,展現(xiàn)出強(qiáng)勁的技術(shù)進(jìn)步勢(shì)頭。似乎模型的進(jìn)化仍在狂飆。 那么,為什么是編程領(lǐng)域率先實(shí)現(xiàn)了 AI 的有效落地? AI 跑通了 PMF 是一個(gè)結(jié)果,而非原因。其背后的根本原因是編程領(lǐng)域獨(dú)特的“可信驗(yàn)證”機(jī)制。 而要理清這一問(wèn)題,我們不妨先從 AI 編程的發(fā)展現(xiàn)狀入手。 AI 編程工具的發(fā)展歷程 AI 編程工具的發(fā)展呈現(xiàn)出明顯的自動(dòng)化演進(jìn)路徑,目前按照自動(dòng)化程度大致可分為三類(lèi): 首先是以早期的 Github Copilot 為代表的代碼補(bǔ)全工具。這類(lèi)工具主要提供實(shí)時(shí)代碼提示和自動(dòng)補(bǔ)全功能,并不能主動(dòng)編寫(xiě)代碼。自動(dòng)化程度相對(duì)較低。隨著技術(shù)發(fā)展,這類(lèi)工具正在向更高級(jí)的智能編程助手演進(jìn),逐步融入更多自動(dòng)化特性。 第二類(lèi)是以 Cursor、MarsCode 為代表的半自動(dòng)編程工具,標(biāo)志著 AI 編程邁入了更高級(jí)的發(fā)展階段。這類(lèi)產(chǎn)品不僅提供代碼補(bǔ)全功能,還創(chuàng)新性地引入了“Apply(應(yīng)用)”機(jī)制,讓 AI 生成的代碼可以一鍵直接集成到目標(biāo)文件中。用戶不需要再把代碼復(fù)制過(guò)去,自己進(jìn)行調(diào)整修改。雖然自動(dòng)化程度有所提升,但仍需要開(kāi)發(fā)者的持續(xù)參與和判斷,體現(xiàn)了“人機(jī)協(xié)作”的特點(diǎn)。 第三類(lèi)則是以 Devin 為代表的全自動(dòng)編程工具。這類(lèi)工具自動(dòng)化程度最高,Devin 被稱(chēng)為全球首個(gè) AI 程序員,可以自主調(diào)試部署。構(gòu)建部署應(yīng)用、自主調(diào)試等多項(xiàng)能力。支持使用 AI 規(guī)劃進(jìn)行任務(wù)分解,并自動(dòng)部署代碼。用戶只需下達(dá)任務(wù)指令,靜待結(jié)果即可,就像與真實(shí)程序員協(xié)作一樣。 AI 編程工具的發(fā)展歷程清晰展現(xiàn)了一條從輔助到自主的演進(jìn)路徑。第一代代碼補(bǔ)全工具專(zhuān)注于提升專(zhuān)業(yè)程序員的編碼效率,通過(guò)智能補(bǔ)全實(shí)現(xiàn)段落級(jí)別的開(kāi)發(fā)加速。隨后,以 Cursor 為代表的半自動(dòng)工具將 AI 能力進(jìn)一步擴(kuò)展,通過(guò)代碼直接應(yīng)用等功能,在保持人工把控的同時(shí)顯著提升了開(kāi)發(fā)效率。而 Devin 的出現(xiàn)則開(kāi)創(chuàng)了全自動(dòng)編程的新范式,實(shí)現(xiàn)了從需求理解到部署的端到端自主開(kāi)發(fā)。 這一演進(jìn)過(guò)程本質(zhì)上反映了 AI 編程范式的重要轉(zhuǎn)變:從“實(shí)時(shí)交互”走向“批量處理”。這不僅降低了用戶參與的頻率,更重要的是大幅降低了編程門(mén)檻,使得 AI 編程工具的受眾群體得到顯著擴(kuò)展。 代碼生成其實(shí)更難? “代碼的關(guān)鍵詞少,規(guī)則固定,所以更容易生成?!边@是一種常見(jiàn)的評(píng)論。乍看似乎很有道理,相比自然語(yǔ)言浩如煙海的詞匯量,編程語(yǔ)言的關(guān)鍵字確實(shí)少得多,采樣空間相比自然語(yǔ)言小太多了。 但這種“詞少就容易”的邏輯其實(shí)經(jīng)不起推敲。如果按這個(gè)邏輯,數(shù)學(xué)問(wèn)題應(yīng)該是最容易的才對(duì)——數(shù)學(xué)符號(hào)更少,規(guī)則更嚴(yán)格。但現(xiàn)實(shí)恰好相反,大模型在數(shù)學(xué)領(lǐng)域的表現(xiàn)并不理想。 這種誤解的根源在于混淆了“生成”和“應(yīng)用”兩個(gè)截然不同的階段。在生成階段,編程語(yǔ)言的有限詞匯讓模型的選擇空間大大縮小。但在實(shí)際應(yīng)用階段,代碼的難度遠(yuǎn)超自然語(yǔ)言。 在對(duì)話時(shí),用戶對(duì)大模型的容忍度很高。它可以犯語(yǔ)法錯(cuò)誤,可以前后矛盾,可以邏輯混亂,我們依然能從中提取有價(jià)值的信息,甚至我們自己都發(fā)現(xiàn)不了他有語(yǔ)法錯(cuò)誤。但代碼生成完全是另一個(gè)維度的挑戰(zhàn)——它就像數(shù)學(xué)題,代碼要么能跑通, 要么跑不通,不存在“基本正確”或“大致可用”的中間狀態(tài)。每一個(gè)分號(hào)、每一處縮進(jìn)、每一個(gè)變量名,都必須精確無(wú)誤。這種對(duì)精確性的嚴(yán)格要求,也注定了代碼任務(wù)的難度其實(shí)要更高的。 可信驗(yàn)證機(jī)制 AI 編程成功的核心原因,在于它具有一種可信驗(yàn)證機(jī)制。 什么是可信驗(yàn)證?簡(jiǎn)單而言,就是一種能夠快速、客觀地判斷 AI 輸出結(jié)果的可用性的驗(yàn)證模式,具備三個(gè)關(guān)鍵特征: 1. 客觀性:驗(yàn)證結(jié)果不依賴人或者 AI 模型的主觀判斷; 2. 即時(shí)性:能夠立刻得到驗(yàn)證結(jié)果; 3. 確定性:驗(yàn)證結(jié)果是非黑即白的; 這種可信驗(yàn)證機(jī)制對(duì) AI 編程領(lǐng)域產(chǎn)生了兩個(gè)方向的影響。使其達(dá)到了“能用且好用”的狀態(tài)。 從應(yīng)用端來(lái)說(shuō),編程領(lǐng)域的可信驗(yàn)證機(jī)制,為 AI 應(yīng)用創(chuàng)造了一個(gè)近乎完美的用戶體驗(yàn)閉環(huán)。 代碼編寫(xiě)后,需要使用編譯器將其翻譯成機(jī)器可執(zhí)行的程序。同一種語(yǔ)言會(huì)使用統(tǒng)一的編譯器,會(huì)基于嚴(yán)格設(shè)定的語(yǔ)法規(guī)則,這有效保證了客觀性。 編譯后的結(jié)果也是二元的,只有“能運(yùn)行”和“不能運(yùn)行”兩種狀態(tài),不存在模棱兩可的情況。讓用戶不需要主觀判斷,可以完全依據(jù)客觀結(jié)果來(lái)做決策。此外,編譯過(guò)程通常時(shí)間較短,可以讓用戶及時(shí)知道 AI 生成的代碼是否可用。 這種依賴編譯器的可信驗(yàn)證,幾乎不需要用戶的專(zhuān)業(yè)知識(shí),只要他能點(diǎn)“運(yùn)行”按鈕就夠了。這極大擴(kuò)展了 AI 編程工具的受眾群體。這也解釋了為什么現(xiàn)在很多零知識(shí)用戶都在嘗試使用 AI 來(lái)寫(xiě)程序。 所謂“零知識(shí)用戶”,指的是那些不懂編程但想開(kāi)發(fā)應(yīng)用的人。這類(lèi)用戶對(duì)可信驗(yàn)證的需求最為迫切,因?yàn)樗麄儫o(wú)法自行處理異常情況。這個(gè)概念同樣可以推廣到 AI 的其他應(yīng)用領(lǐng)域。 在所有 AI 應(yīng)用場(chǎng)景中,很少有哪個(gè)領(lǐng)域能像編程這樣擁有如此理想的驗(yàn)證機(jī)制。這也解釋了為什么 AI 編程工具能夠率先實(shí)現(xiàn)規(guī)模化應(yīng)用——它為用戶提供了一個(gè)可靠、高效、低門(mén)檻的使用環(huán)境。 再?gòu)哪P投藖?lái)說(shuō),為什么大模型在編程領(lǐng)域的進(jìn)步如此顯著?答案可能會(huì)讓人意外:在當(dāng)前訓(xùn)練數(shù)據(jù)普遍枯竭的背景下,編程或許是大模型為數(shù)不多可以持續(xù)進(jìn)步的領(lǐng)域。原因還是在于可信驗(yàn)證。 讓我們先看看大模型訓(xùn)練的困境。業(yè)界頻繁強(qiáng)調(diào)自家模型在代碼和數(shù)學(xué)方面的突破,卻很少宣稱(chēng)“AI 說(shuō)話更像人了”。這背后是一個(gè)公開(kāi)的秘密:自然語(yǔ)言訓(xùn)練數(shù)據(jù)正面臨枯竭危機(jī)。在大模型訓(xùn)練中,數(shù)據(jù)質(zhì)量與模型架構(gòu)同等重要。數(shù)據(jù)的枯竭,就意味著模型能力提升也在放緩。 面對(duì)這個(gè)困境,大模型廠商通常采取兩種應(yīng)對(duì)策略:一是人工生產(chǎn)新數(shù)據(jù),通過(guò)網(wǎng)絡(luò)爬取或人工編寫(xiě);二是使用更高級(jí)的模型合成數(shù)據(jù)。但這兩種方案都存在明顯缺陷:人工生產(chǎn)成本高昂,而合成數(shù)據(jù)則可能導(dǎo)致模型崩潰。大量研究表明,質(zhì)量差的合成數(shù)據(jù)會(huì)讓模型輸出逐漸偏離人類(lèi)表達(dá)方式,加重模型幻覺(jué)問(wèn)題。 圖|合成數(shù)據(jù)會(huì)導(dǎo)致模型訓(xùn)練崩潰(來(lái)源:Nature) 業(yè)界主要依賴兩種方式來(lái)判斷合成數(shù)據(jù)質(zhì)量:用更強(qiáng)大的模型篩選,或依靠人工來(lái)主觀判斷。這不僅成本高昂,還難以規(guī)模化,且可靠性無(wú)法保證。一旦涉及到主觀意識(shí),它就很難設(shè)置統(tǒng)一標(biāo)準(zhǔn)。會(huì)導(dǎo)致數(shù)據(jù)質(zhì)量參差不齊。 可信驗(yàn)證機(jī)制有效保證了代碼合成數(shù)據(jù)質(zhì)量的下限。 人類(lèi)和 AI 寫(xiě)的代碼都只有正確性這一客觀評(píng)判標(biāo)準(zhǔn)。只要代碼能通過(guò)編譯和運(yùn)行,兩者代碼就可以看作等價(jià)的。無(wú)非是誰(shuí)寫(xiě)的質(zhì)量更高的問(wèn)題。但這保證了合成數(shù)據(jù)具備基本的訓(xùn)練價(jià)值。這等價(jià)于有成千上萬(wàn)個(gè)不知疲倦的初級(jí)程序員在持續(xù)產(chǎn)出數(shù)據(jù)。 可信驗(yàn)證機(jī)制讓合成數(shù)據(jù)形成良性循環(huán):模型生成代碼,驗(yàn)證機(jī)制篩選,有效代碼反饋回訓(xùn)練集。有趣的是,通過(guò)這種方式生成的代碼,質(zhì)量要高于 GitHub 上很多代碼。這種低成本的質(zhì)量保證機(jī)制,確保了模型在代碼領(lǐng)域能持續(xù)提升。 應(yīng)用端和模型端的雙向價(jià)值完美解答了 AI 商業(yè)化的兩大難題:用戶敢不敢用,模型怎么持續(xù)進(jìn)步。特別是在企業(yè)級(jí)市場(chǎng),可靠性一直是最大的痛點(diǎn)。而可信驗(yàn)證提供了一個(gè)完整的解決方案:輸出結(jié)果可控可驗(yàn)證,配合自動(dòng)化測(cè)試框架和現(xiàn)有的代碼審查機(jī)制,極大降低了應(yīng)用風(fēng)險(xiǎn)。此外,對(duì)零知識(shí)用戶的友好讓 AI 編程迅速破圈。如此也就不難理解為什么 AI 編程普及率那么高了。 AI 編程存在的問(wèn)題 盡管 AI 編程擁有獨(dú)特的可信驗(yàn)證機(jī)制,但它依然存在很多問(wèn)題。 第一,AI 生成的代碼生成質(zhì)量有待提高??尚膨?yàn)證機(jī)制確實(shí)為代碼質(zhì)量提供了一個(gè)基本保障——能運(yùn)行的代碼至少是“可用的”。但“可用”并不等于“好用”。當(dāng)前 AI 生成的代碼仍然面臨著多個(gè)層面的質(zhì)量問(wèn)題:比如代碼風(fēng)格不一致、代碼性能不穩(wěn)定、在面對(duì)復(fù)雜工程時(shí)無(wú)法處理復(fù)雜的依賴關(guān)系。 大語(yǔ)言模型在代碼生成中依然存在幻覺(jué)問(wèn)題和不穩(wěn)定性,這可能導(dǎo)致代碼風(fēng)格和命名規(guī)范的不一致,甚至出現(xiàn)歧義名稱(chēng)。雖然可以通過(guò)提示詞進(jìn)行一定程度的約束,但效果有限。這種代碼風(fēng)格的問(wèn)題表面上看對(duì)程序運(yùn)行影響不大,但到后期人類(lèi)的閱讀難度增大、甚至連 AI 都會(huì)被自己的代碼搞混。嚴(yán)重時(shí)可能導(dǎo)致程序難以繼續(xù)開(kāi)發(fā)。 可信驗(yàn)證可以保證程序的最低運(yùn)行標(biāo)準(zhǔn),但現(xiàn)實(shí)中的軟件往往需要根據(jù)具體場(chǎng)景進(jìn)行優(yōu)化。當(dāng)前的大語(yǔ)言模型在場(chǎng)景評(píng)估和針對(duì)性優(yōu)化方面仍顯不足。這一局限性在復(fù)雜工程中尤為明顯:當(dāng)對(duì)軟件進(jìn)行優(yōu)化時(shí)軟件架構(gòu)的權(quán)衡和優(yōu)化往往需要基于實(shí)際環(huán)境作出決策,才能找到它的問(wèn)題。而 AI 目前并不具備這樣的分析能力。 這也解釋了為什么零基礎(chǔ)用戶通常只能借助 AI 完成一些基礎(chǔ)程序開(kāi)發(fā),比如快速搭建簡(jiǎn)單的網(wǎng)站或小程序。但當(dāng)需要擴(kuò)展功能或深化開(kāi)發(fā)時(shí),往往會(huì)遇到瓶頸。當(dāng)用戶缺乏對(duì)軟件結(jié)構(gòu)的深入理解時(shí),而僅依賴 AI 目前還無(wú)法有效構(gòu)建和優(yōu)化復(fù)雜的軟件架構(gòu)。雖然 AI 能夠快速實(shí)現(xiàn)一個(gè)框架,但對(duì)于核心功能的開(kāi)發(fā)往往需要大量重構(gòu)和優(yōu)化工作。 第二,AI 編程對(duì)語(yǔ)言支持并不平衡。對(duì)于較為靈活的編程語(yǔ)言,容錯(cuò)率較高的語(yǔ)言支持效果更好(如 Python)這里主要有兩點(diǎn)原因: 首先是訓(xùn)練數(shù)據(jù)量的差異。Python 作為 AI 時(shí)代最火的編程語(yǔ)言,開(kāi)源社區(qū)為其提供了海量的高質(zhì)量訓(xùn)練數(shù)據(jù)。而其他語(yǔ)言的數(shù)據(jù)量相比較少。 圖|Python 已經(jīng)成為了開(kāi)源社區(qū)最受歡迎的語(yǔ)言(來(lái)源:Github) 其次是語(yǔ)言特性的影響。Python 的語(yǔ)法相對(duì)靈活,容錯(cuò)性更高,這使得 AI 更容易生成可用的代碼。相比之下,Java 等強(qiáng)類(lèi)型語(yǔ)言的語(yǔ)法約束更嚴(yán)格,對(duì)代碼生成的要求也更高。所以成功率也會(huì)低一些。 第三個(gè)問(wèn)題,雖然 AI 編程工具都在追求更高程度的自動(dòng)化,但“批處理”式的開(kāi)發(fā)模式未必是最優(yōu)解。這種模式雖然效率看似提高了,卻削弱了用戶對(duì)代碼變更的實(shí)時(shí)把控,反而可能增加認(rèn)知負(fù)擔(dān)。Devin 在這個(gè)問(wèn)題上表現(xiàn)的淋漓盡致。 (來(lái)源:Devin 官網(wǎng)) 以 Devin 為例,這個(gè)被譽(yù)為全球首個(gè) AI 程序員,號(hào)稱(chēng)具備全棧開(kāi)發(fā)、自學(xué)新技術(shù)、構(gòu)建部署應(yīng)用、自主調(diào)試等多項(xiàng)能力。初次體驗(yàn)時(shí),這種全自動(dòng)的開(kāi)發(fā)體驗(yàn)確實(shí)令人驚艷。就像擁有了一個(gè) AI 實(shí)習(xí)生,可以獨(dú)立完成任務(wù),讓我能專(zhuān)注于其他工作。 但實(shí)際體驗(yàn)下來(lái),相比 Cursor 等半自動(dòng) AI 編程工具,存在兩個(gè)致命問(wèn)題:一是反饋周期過(guò)長(zhǎng),用戶需要等待較長(zhǎng)時(shí)間才能知道結(jié)果是否正確。如果指令有誤或思路錯(cuò)誤,前期的等待就成了純粹的時(shí)間浪費(fèi),沉沒(méi)成本顯著提高。二是調(diào)試成本的劇增。AI 生成的代碼量越大,理解成本就越高,調(diào)試時(shí)常常難以判斷到底是代碼生成的問(wèn)題,還是操作出了偏差。這對(duì)零知識(shí)用戶來(lái)說(shuō)尤其困難。 在軟件開(kāi)發(fā)生命周期中,缺陷修復(fù)的成本與發(fā)現(xiàn)時(shí)間呈指數(shù)級(jí)關(guān)系。越晚發(fā)現(xiàn)問(wèn)題,修復(fù)成本就越高。軟件開(kāi)發(fā)從需求分析、系統(tǒng)設(shè)計(jì)、代碼實(shí)現(xiàn)到測(cè)試驗(yàn)證、運(yùn)行維護(hù),是一個(gè)環(huán)環(huán)相扣的過(guò)程。當(dāng) AI 接管的越多,就導(dǎo)致發(fā)現(xiàn)問(wèn)題的環(huán)節(jié)推后。而此時(shí)的修復(fù)不僅涉及單個(gè)函數(shù),還可能引發(fā)連鎖反應(yīng),甚至出現(xiàn)架構(gòu)設(shè)計(jì)層面的缺陷,需要整體上重新設(shè)計(jì)。開(kāi)發(fā)人員在此時(shí)往往需要深入理解 AI 生成的代碼,才能進(jìn)行有效修復(fù)。 圖|在不同階段修復(fù) Bug 時(shí)的成本(來(lái)源:Functionize) 筆者專(zhuān)門(mén)做了個(gè)實(shí)驗(yàn):完全以零知識(shí)用戶的身份,讓 Devin 寫(xiě)代碼,再用 Claude 來(lái) debug。實(shí)際體驗(yàn)下來(lái),Devin 寫(xiě)了 20 多分鐘的程序,Claude 修了一個(gè)小時(shí),核心功能依然沒(méi)能跑通。只能選擇重做。 與自動(dòng)駕駛不同,開(kāi)車(chē)時(shí)你可以隨時(shí)接管,因?yàn)檐?chē)輛的當(dāng)前狀態(tài)是顯而易見(jiàn)的。但在編程中,如果 AI 走錯(cuò)了方向,之前的工作就全部作廢了。那幾十分鐘的等待,就真的變成了純粹的時(shí)間浪費(fèi)。得到的是你和 AI 都處理不了的一大堆代碼。 AI 編程的未來(lái)發(fā)展:更高級(jí)的可信驗(yàn)證 目前應(yīng)用端的可信驗(yàn)證還很初級(jí),主要是看代碼“能不能跑”,考慮的是終端輸出結(jié)果。但隨著技術(shù)發(fā)展,會(huì)出現(xiàn)更高級(jí)的可信驗(yàn)證方法,考慮更多的因素。 例如現(xiàn)代 IDE 已經(jīng)能夠自動(dòng)檢測(cè)性能隱患和安全漏洞。這些自動(dòng)化的質(zhì)量評(píng)估機(jī)制同樣可以傳遞給大模型——它們同樣具備客觀性和即時(shí)性,只是驗(yàn)證維度更加豐富。 將 DevOps 實(shí)踐等現(xiàn)代化的軟件工程實(shí)踐方案引入 AI 輔助開(kāi)發(fā)流程,建立更完善的代碼質(zhì)量保障體系,確保 AI 生成的代碼不僅能夠運(yùn)行,更能夠滿足現(xiàn)代軟件工程的高標(biāo)準(zhǔn)要求。及時(shí)測(cè)試并反饋。自動(dòng)化測(cè)試框架能夠生成測(cè)試用例、檢查邊界條件、驗(yàn)證業(yè)務(wù)邏輯,包括對(duì)代碼性能進(jìn)行檢測(cè),提供了另一層次的可信驗(yàn)證。 這些客觀的質(zhì)量指標(biāo)同樣可以反饋到模型。隨著驗(yàn)證機(jī)制的不斷完善,AI 編程將會(huì)從“基本可用”進(jìn)化到“高質(zhì)量”,而像 Devin 這樣的全自動(dòng)編程工具也將迎來(lái)更廣闊的應(yīng)用空間。因?yàn)樗砹?AI 編程的未來(lái)方向:真正實(shí)現(xiàn)開(kāi)發(fā)者的解放,讓人類(lèi)專(zhuān)注于更具創(chuàng)造性的工作。盡管我們不知道它什么時(shí)候能被實(shí)現(xiàn)。 但是筆者認(rèn)為這種 AI 編程可能依然不適合零知識(shí)用戶,它的未來(lái)或許就是極大的增加程序員的生產(chǎn)力。對(duì)于零知識(shí)用戶,或許零代碼平臺(tái)(比如 Dify)更可靠。因?yàn)樗恍枰獡?dān)心“能不能跑起來(lái)”的問(wèn)題。 AI 編程領(lǐng)域的成功經(jīng)驗(yàn)給我們一個(gè)重要啟示:任何領(lǐng)域要想成功應(yīng)用 AI,都必須建立起有效的可信驗(yàn)證機(jī)制。 雖然不是每個(gè)領(lǐng)域都能像編程那樣擁有編譯器這種精確的驗(yàn)證工具,但我們可以借鑒這一思路,建立適合各自領(lǐng)域特點(diǎn)的驗(yàn)證體系。這個(gè)驗(yàn)證機(jī)制無(wú)需一開(kāi)始就做到完美,但至少要能給出基本的可用性判斷。模型的上限很重要,但是對(duì)于大模型的應(yīng)用,模型的下限同樣重要。可信驗(yàn)證不僅能降低 AI 應(yīng)用的使用門(mén)檻,還能為模型優(yōu)化提供可靠的反饋數(shù)據(jù)。AI 領(lǐng)域最理想的場(chǎng)景,應(yīng)該同時(shí)具備“用戶友好”和“模型可進(jìn)化”這兩個(gè)特質(zhì)。 參考文獻(xiàn) 1.https://www.nature.com/articles/s41586-024-07566-y 2.https://github.blog/news-insights/octoverse/octoverse-2024/ 運(yùn)營(yíng)/排版:何晨龍 |
19款電子扎帶
電路板識(shí)別電子標(biāo)簽