97国产精品一区二区视频_国产午夜毛片色哟哟_惠民福利国产91精品看黄网站在线观看_搡老熟女老女人一区二区三区_国产做a∨在线视频观看免费_日韩综合婷婷图_成人黄色一级毛片片_萧山本地第一网络媒体_亚洲国产精品无码久久久曰_亚洲欧美日韩岛国色图

東遠網(wǎng)|淘寶| 支付

打開支付寶
掃一掃打賞支付

您好，請登錄注冊

快捷導航

D-Think | 東遠科技-廣州東遠智能科技有限公司- › 首頁 ›資訊› 科技頭條 › 查看內(nèi)容

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

2025-2-19 13:40| 發(fā)布者: admin| 查看: 146| 評論: 0

摘要: 西風發(fā)自凹非寺量子位 | 公眾號 QbitAI離開OpenAI后，他們倆把ChatGPT后訓練方法做成了PPT，還公開了～正如網(wǎng)友所言，可能沒有人比他倆更了解ChatGPT后訓練的事兒。畢竟，一位是OpenAI聯(lián)合創(chuàng)始人，曾經(jīng)也是OpenAI ...

西風發(fā)自凹非寺
量子位 | 公眾號 QbitAI

離開OpenAI后，他們倆把ChatGPT后訓練方法做成了PPT，還公開了～

正如網(wǎng)友所言，可能沒有人比他倆更了解ChatGPT后訓練的事兒。

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

畢竟，一位是OpenAI聯(lián)合創(chuàng)始人，曾經(jīng)也是OpenAI后訓練共同負責人的John Schulman，另一位是曾經(jīng)在OpenAI當后訓練研究VP的Barret Zoph。

John Schulman發(fā)推文稱：

啊，我和Barret Zoph最近在斯坦福做了一場關(guān)于后訓練以及分享開發(fā)ChatGPT經(jīng)驗的演講，可惜沒被錄下來，但我們有PPT。

順便又全網(wǎng)尋錄音/視頻“如果你有錄音，請告訴我！”

網(wǎng)友不語，只是一味點贊收藏。

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

有曾在現(xiàn)場的網(wǎng)友親證，演講質(zhì)量真不戳。

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

還有網(wǎng)友在感謝完倆人后想要更多：

如果能分享更多關(guān)于訓練后階段的最新進展，比如推理模型、DeepSeek RL等，那就太好了。

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

這次先來看看PPT長啥樣～

ChatGPT后訓練方法PPT版

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

先是自我介紹。

Barret Zoph和John Schulman曾在OpenAI共同擔任后訓練聯(lián)合負責人，從2022年9月開始合作，主要目標是開發(fā)一個對齊的聊天機器人，最初的團隊被稱為“RL”，只有少數(shù)幾個人。

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

接著介紹了后訓練（Post-Training）階段是什么：

后訓練階段是模型開發(fā)的最后一步，目的是讓模型更像一個助手，遵循特定格式，并確保其適合實際生產(chǎn)環(huán)境，這一階段通常與產(chǎn)品團隊緊密合作。

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

用幾個具體例子，對比基礎(chǔ)模型和后訓練模型的區(qū)別：

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

后訓練VS預訓練總的來說：

計算資源需求更低，迭代周期更快；使用基于人類反饋的強化學習（RLHF）；教模型使用工具；塑造模型個性；引入拒絕/安全行為；行為嚴重依賴預訓練階段的泛化能力。

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

后訓練包含三個主要組成部分：監(jiān)督微調(diào)（SFT）、獎勵模型（RM）訓練、強化學習（RL）。

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

以下是三個組成部分的具體介紹：

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

隨后回顧了ChatGPT和OpenAI后訓練的早期發(fā)展歷程。

包括GPT-3、GPT-3.5的發(fā)布、RL團隊的工作、GPT-4的準備過程、決定發(fā)布ChatGPT的細節(jié)以及發(fā)布后意外成功，實現(xiàn)病毒式傳播。

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

ChatGPT曾一度被大批涌來的用戶擠崩：

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

隨時間推移，ChatGPT模型和功能逐漸更加復雜和多樣化：

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

2022年12月最初版本和2025年1月版本的對比：

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

添加了許多功能：

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

然后講了在功能擴展和公司規(guī)模增長的背景下，如何通過主線模型（mainline model）設置來整合變化并降低風險，包括在較小規(guī)模上測試；在頻繁的更新中逐步整合更改，如果發(fā)現(xiàn)問題能夠迅速回滾到之前的版本。

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

在這當中也出現(xiàn)了一些失誤和挑戰(zhàn)……

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

比如模型在生成文本時出現(xiàn)了很多拼寫錯誤。

強化學習（RL）后發(fā)現(xiàn)拼寫錯誤率有所上升，在監(jiān)督微調(diào)（SFT）數(shù)據(jù)集中發(fā)現(xiàn)了拼寫錯誤的提示。

最終通過對比過程改進，將兩個生成的文本（completion 1和completion 2）進行比較，選擇改進后的版本，專家會對比這兩個文本，有時會寫出改進后的版本。

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

此外還有過度拒絕的情況。

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

早期的拒絕行為過于冗長：

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

有一些方法比如通過改變時態(tài)，可以繞過模型的拒絕機制。

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

倆人隨后講解了為何拒絕行為難以處理，有邊界問題和人類數(shù)據(jù)問題。

解決方案包括配對數(shù)據(jù)、有針對性的邊界示例、對標注數(shù)據(jù)進行分層處理。

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

另外，模型還會出現(xiàn)偏見。

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

還可能會生成虛假或誤導性的內(nèi)容。

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

在涉及品味、主觀性和高投入的任務中，如何獲取高質(zhì)量人類反饋也是一大挑戰(zhàn)。

通過人類與AI團隊協(xié)作進行標注是解決方案之一。

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

他們還探討了不同來源的人類反饋在提示多樣性、標簽質(zhì)量、領(lǐng)域、正確性、意圖和合規(guī)性等方面的優(yōu)缺點，并提出了如何利用它們各自優(yōu)勢問題。

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

而要讓模型按照我們的意愿行事，第一步是弄清楚我們想要什么。

倆人表示這一步出乎意料的難，要明確規(guī)范。

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

OpenAI2024年5月發(fā)布了模型規(guī)范。

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

還有一個開放性問題，如何保持模型多樣性和趣味性。

兩人提到通過后訓練迭代和模型蒸餾來保持或強化這些特性。

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

總結(jié)了以InstructGPT、Llama 3.1等為代表的“兩個時代”的模型訓練流程，包括從基礎(chǔ)模型到對齊模型的訓練步驟，最終目標是生成一個經(jīng)過多次優(yōu)化的對齊模型。

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

提出了一個開放性問題，探討如何在模型訓練和優(yōu)化過程中恢復并保持基礎(chǔ)模型中的多樣性和趣味性，包括不同的風格和世界觀。

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

最后他們推薦了一些關(guān)于后訓練的論文和blog：

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

倆人都被OpenAI前CTO挖走了

John Schulman和Barret Zoph離開OpenAI后，現(xiàn)在都在干什么——

被曝雙雙加入了OpenAI前CTO Mira Murati的新創(chuàng)業(yè)團隊Thinking Machines Lab。

Mira Murati去年9月官宣離職OpenAI，離職后不久，就在10月份，她被曝籌備新公司/AI實驗室，吸金超1億美元。

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

Mira Murati已經(jīng)挖到了20多位頂尖研究員和工程師投奔，都是來自OpenAI、谷歌、Anthropic等巨頭。

這其中就包括Jonathan Lachman和Barret Zoph。

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

John Schulman去年8月離開的OpenAI，先是加入了OpenAI競爭對手Anthropic，致力于LLM的對齊工作，短短六個月后再次離職，加入了Murati的創(chuàng)業(yè)項目，擔任首席科學家。

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

至于Barret Zoph，去年9月份和Mira Murati幾乎同時離職，隨后就加入了Mira Murati的團隊，擔任CTO。

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開，PPT全網(wǎng)轉(zhuǎn)～

參考鏈接：
[1]https://x.com/johnschulman2/status/1891539960743743756
[2]https://www.businessinsider.com/openai-employees-joining-mira-murati-new-startup-2025-2#john-schulman-1

— 完 —

量子位 QbitAI · 頭條號簽約

關(guān)注我們，第一時間獲知前沿科技動態(tài)

上一篇：2030年自動駕駛能否統(tǒng)治道路？拆解萬億市場的"登頂之路" ？下一篇：AI時代到來：什么是AI

相關(guān)分類

技術(shù)專題更多

解決方案更多

RFID電動車小區(qū)防盜解決方案

RFID技術(shù)應用在電動車防盜系統(tǒng)中，一方面可以實現(xiàn)電動自行車身份信息的自動

特價更多

19款電子扎帶

19款電子扎帶，支持多種RFID芯片定制 ...

電路板識別電子標簽

電路板識別電子標簽 ...

產(chǎn)品中心更多

翅標，超高頻芯

通用耳標鉗

D-Think_C10U電

D-Think_C04電子

了解東遠
東遠簡介產(chǎn)品中心技術(shù)方案科研中心聯(lián)系我們
活動及狀態(tài)
最新消息新品推薦招標中心線上直銷 ChatGPT
常見問題
購買渠道項目合作開票資料支付方式法律聲明

關(guān)注我們：東遠物聯(lián)

抖音

微信咨詢

咨詢電話：

199-2833-9866

D-Think | 廣州東遠智能科技有限公司

地址：廣州市白云區(qū)北太路1633號廣州民營科技園科創(chuàng)中心2棟16樓

電話：+86 020-87227952 Email：[email protected]

Copyright ©2020 東遠科技粵ICP備2024254589號

免責申明：部分圖文表述來自于網(wǎng)絡，如有侵權(quán)請聯(lián)系作者刪除！