97国产精品一区二区视频_国产午夜毛片色哟哟_惠民福利国产91精品看黄网站在线观看_搡老熟女老女人一区二区三区_国产做a∨在线视频观看免费_日韩 综合 婷婷 图_成人黄色一级毛片片_萧山本地第一网络媒体_亚洲国产精品无码久久久曰_亚洲欧美日韩岛国色图

快捷導航

ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~

2025-2-19 13:40| 發(fā)布者: admin| 查看: 146| 評論: 0
摘要: 西風 發(fā)自 凹非寺量子位 | 公眾號 QbitAI離開OpenAI后,他們倆把ChatGPT后訓練方法做成了PPT,還公開了~正如網(wǎng)友所言,可能沒有人比他倆更了解ChatGPT后訓練的事兒。畢竟,一位是OpenAI聯(lián)合創(chuàng)始人,曾經(jīng)也是OpenAI ...

西風 發(fā)自 凹非寺

量子位 | 公眾號 QbitAI

離開OpenAI后,他們倆把ChatGPT后訓練方法做成了PPT,還公開了~

正如網(wǎng)友所言,可能沒有人比他倆更了解ChatGPT后訓練的事兒。


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~

畢竟,一位是OpenAI聯(lián)合創(chuàng)始人,曾經(jīng)也是OpenAI后訓練共同負責人的John Schulman,另一位是曾經(jīng)在OpenAI當后訓練研究VP的Barret Zoph。

John Schulman發(fā)推文稱:

啊,我和Barret Zoph最近在斯坦福做了一場關(guān)于后訓練以及分享開發(fā)ChatGPT經(jīng)驗的演講,可惜沒被錄下來,但我們有PPT。

順便又全網(wǎng)尋錄音/視頻“如果你有錄音,請告訴我!”

網(wǎng)友不語,只是一味點贊收藏。


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~

有曾在現(xiàn)場的網(wǎng)友親證,演講質(zhì)量真不戳。


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~

還有網(wǎng)友在感謝完倆人后想要更多:

如果能分享更多關(guān)于訓練后階段的最新進展,比如推理模型、DeepSeek RL等,那就太好了。


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~

這次先來看看PPT長啥樣~

ChatGPT后訓練方法PPT版


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~

先是自我介紹。

Barret Zoph和John Schulman曾在OpenAI共同擔任后訓練聯(lián)合負責人,從2022年9月開始合作,主要目標是開發(fā)一個對齊的聊天機器人,最初的團隊被稱為“RL”,只有少數(shù)幾個人。


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~

接著介紹了后訓練(Post-Training)階段是什么:

后訓練階段是模型開發(fā)的最后一步,目的是讓模型更像一個助手,遵循特定格式,并確保其適合實際生產(chǎn)環(huán)境,這一階段通常與產(chǎn)品團隊緊密合作。


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~

用幾個具體例子,對比基礎(chǔ)模型和后訓練模型的區(qū)別:


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~

后訓練VS預訓練總的來說:

計算資源需求更低,迭代周期更快;使用基于人類反饋的強化學習(RLHF);教模型使用工具;塑造模型個性;引入拒絕/安全行為;行為嚴重依賴預訓練階段的泛化能力。


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~

后訓練包含三個主要組成部分:監(jiān)督微調(diào)(SFT)、獎勵模型(RM)訓練、強化學習(RL)。


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~

以下是三個組成部分的具體介紹:


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~

隨后回顧了ChatGPT和OpenAI后訓練的早期發(fā)展歷程。

包括GPT-3、GPT-3.5的發(fā)布、RL團隊的工作、GPT-4的準備過程、決定發(fā)布ChatGPT的細節(jié)以及發(fā)布后意外成功,實現(xiàn)病毒式傳播。


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~

ChatGPT曾一度被大批涌來的用戶擠崩:


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~

隨時間推移,ChatGPT模型和功能逐漸更加復雜和多樣化:


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~

2022年12月最初版本和2025年1月版本的對比:


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~

添加了許多功能:


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~

然后講了在功能擴展和公司規(guī)模增長的背景下,如何通過主線模型(mainline model)設置來整合變化并降低風險,包括在較小規(guī)模上測試;在頻繁的更新中逐步整合更改,如果發(fā)現(xiàn)問題能夠迅速回滾到之前的版本。


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~

在這當中也出現(xiàn)了一些失誤和挑戰(zhàn)……


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~

比如模型在生成文本時出現(xiàn)了很多拼寫錯誤。

強化學習(RL)后發(fā)現(xiàn)拼寫錯誤率有所上升,在監(jiān)督微調(diào)(SFT)數(shù)據(jù)集中發(fā)現(xiàn)了拼寫錯誤的提示。

最終通過對比過程改進,將兩個生成的文本(completion 1和completion 2)進行比較,選擇改進后的版本,專家會對比這兩個文本,有時會寫出改進后的版本。


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~

此外還有過度拒絕的情況。


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~

早期的拒絕行為過于冗長:


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~

有一些方法比如通過改變時態(tài),可以繞過模型的拒絕機制。


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~

倆人隨后講解了為何拒絕行為難以處理,有邊界問題和人類數(shù)據(jù)問題。

解決方案包括配對數(shù)據(jù)、有針對性的邊界示例、對標注數(shù)據(jù)進行分層處理。


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~

另外,模型還會出現(xiàn)偏見。


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~

還可能會生成虛假或誤導性的內(nèi)容。


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~

在涉及品味、主觀性和高投入的任務中,如何獲取高質(zhì)量人類反饋也是一大挑戰(zhàn)。

通過人類與AI團隊協(xié)作進行標注是解決方案之一。


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~

他們還探討了不同來源的人類反饋在提示多樣性、標簽質(zhì)量、領(lǐng)域、正確性、意圖和合規(guī)性等方面的優(yōu)缺點,并提出了如何利用它們各自優(yōu)勢問題。


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~

而要讓模型按照我們的意愿行事,第一步是弄清楚我們想要什么。

倆人表示這一步出乎意料的難,要明確規(guī)范。


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~

OpenAI2024年5月發(fā)布了模型規(guī)范。


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~

還有一個開放性問題,如何保持模型多樣性和趣味性。

兩人提到通過后訓練迭代和模型蒸餾來保持或強化這些特性。


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~

總結(jié)了以InstructGPT、Llama 3.1等為代表的“兩個時代”的模型訓練流程,包括從基礎(chǔ)模型到對齊模型的訓練步驟,最終目標是生成一個經(jīng)過多次優(yōu)化的對齊模型。


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~

提出了一個開放性問題,探討如何在模型訓練和優(yōu)化過程中恢復并保持基礎(chǔ)模型中的多樣性和趣味性,包括不同的風格和世界觀。


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~

最后他們推薦了一些關(guān)于后訓練的論文和blog:


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~

倆人都被OpenAI前CTO挖走了

John Schulman和Barret Zoph離開OpenAI后,現(xiàn)在都在干什么——

被曝雙雙加入了OpenAI前CTO Mira Murati的新創(chuàng)業(yè)團隊Thinking Machines Lab。

Mira Murati去年9月官宣離職OpenAI,離職后不久,就在10月份,她被曝籌備新公司/AI實驗室,吸金超1億美元。


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~

Mira Murati已經(jīng)挖到了20多位頂尖研究員和工程師投奔,都是來自OpenAI、谷歌、Anthropic等巨頭。

這其中就包括Jonathan Lachman和Barret Zoph。


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~

John Schulman去年8月離開的OpenAI,先是加入了OpenAI競爭對手Anthropic,致力于LLM的對齊工作,短短六個月后再次離職,加入了Murati的創(chuàng)業(yè)項目,擔任首席科學家。


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~

至于Barret Zoph,去年9月份和Mira Murati幾乎同時離職,隨后就加入了Mira Murati的團隊,擔任CTO。


ChatGPT后訓練方法被OpenAI離職聯(lián)創(chuàng)公開,PPT全網(wǎng)轉(zhuǎn)~

參考鏈接:
[1]https://x.com/johnschulman2/status/1891539960743743756
[2]https://www.businessinsider.com/openai-employees-joining-mira-murati-new-startup-2025-2#john-schulman-1

— 完 —

量子位 QbitAI · 頭條號簽約

關(guān)注我們,第一時間獲知前沿科技動態(tài)


路過

雷人

握手

鮮花

雞蛋

關(guān)注我們:東遠物聯(lián)

抖音

微信咨詢

咨詢電話:

199-2833-9866

D-Think | 廣州東遠智能科技有限公司

地址:廣州市白云區(qū)北太路1633號廣州民營科技園科創(chuàng)中心2棟16樓

電話:+86 020-87227952 Email:[email protected]

Copyright  ©2020  東遠科技  粵ICP備2024254589號

免責申明:部分圖文表述來自于網(wǎng)絡,如有侵權(quán)請聯(lián)系作者刪除!