与上司出轨的漂亮人妻日本少妇诱惑在线观看|日韩欧美视频二区|久碰人妻人妻人妻人妻人掠|丰满人妻三级黄片|出轨丈母娘电影|深夜人妻中文字幕|丰满人妻av午夜|清纯校花被奸日常|av人妻在线视频|丰满少妇喷潮,女的达到高潮,国产欧美在线观看一区二区,久久人妻少妇嫩草影院

剛剛,,OpenAI震撼發(fā)布o(jì)1大模型,!強(qiáng)化學(xué)習(xí)突破LLM推理極限

剛剛,,OpenAI震撼發(fā)布o(jì)1大模型,!強(qiáng)化學(xué)習(xí)突破LLM推理極限

linshuhui 2025-03-27 知乎 94 次瀏覽 0個評論

大模型領(lǐng)域的技術(shù)發(fā)展,今天起再次「從 1 開始」了,。

大語言模型還能向上突破,,OpenAI 再次證明了自己的實力。

北京時間 9 月 13 日午夜,,OpenAI 正式公開一系列全新 AI 大模型,,旨在專門解決難題,。這是一個重大突破,新模型可以實現(xiàn)復(fù)雜推理,,一個通用模型解決比此前的科學(xué),、代碼和數(shù)學(xué)模型能做到的更難的問題。

OpenAI 稱,,今天在 ChatGPT 和大模型 API 中新發(fā)布的是該系列中的第一款模型,,而且還只是預(yù)覽版 ——o1-preview。除了 o1,,OpenAI 還展示了目前正在開發(fā)的下次更新的評估,。

o1 模型一舉創(chuàng)造了很多歷史記錄。

首先,,o1 就是此前 OpenAI 從山姆?奧特曼到科學(xué)家們一直在「高調(diào)宣傳」的草莓大模型,。它擁有真正的通用推理能力。在一系列高難基準(zhǔn)測試中展現(xiàn)出了超強(qiáng)實力,,相比 GPT-4o 有巨大提升,,讓大模型的上限從「沒法看」直接上升到優(yōu)秀水平,不專門訓(xùn)練直接數(shù)學(xué)奧賽金牌,,甚至能在博士級別的科學(xué)問答環(huán)節(jié)上超越人類專家,。

奧特曼表示,雖然 o1 的表現(xiàn)仍然存在缺陷,,不過你在第一次使用它的時候仍然會感到震撼,。

其次,o1 給大模型規(guī)模擴(kuò)展 vs 性能的曲線帶來了一次上翹,。它在大模型領(lǐng)域重現(xiàn)了當(dāng)年 AlphaGo 強(qiáng)化學(xué)習(xí)的成功 —— 給越多算力,,就輸出越多智能,一直到超越人類水平,。

也就是從方法上,,o1 大模型首次證明了語言模型可以進(jìn)行真正的強(qiáng)化學(xué)習(xí)。

開發(fā)出首個 AI 軟件工程師 Devin 的 Cognition AI 表示,,過去幾周一直與 OpenAI 密切合作,,使用 Devin 評估 o1 的推理能力。結(jié)果發(fā)現(xiàn),, 與 GPT-4o 相比,,o1 系列模型對于處理代碼的智能體系統(tǒng)來說是一個重大進(jìn)步。

最后在實踐中,,o1 上線之后,,現(xiàn)在 ChatGPT 可以在回答問題前先仔細(xì)思考,而不是立即脫口而出答案。就像人類大腦的系統(tǒng) 1 和系統(tǒng) 2,,ChatGPT 已經(jīng)從僅使用系統(tǒng) 1(快速,、自動、直觀,、易出錯)進(jìn)化到了可使用系統(tǒng) 2 思維(緩慢,、深思熟慮、有意識,、可靠)。這讓它能夠解決以前無法解決的問題,。

從今天 ChatGPT 的用戶體驗來看,,這是向前邁進(jìn)一小步。在簡單的 Prompt 下,,用戶可能不會注意到太大的差異,,但如果問一些棘手的數(shù)學(xué)或者代碼問題,區(qū)別就開始明顯了,。更重要的是,,未來發(fā)展的道路已經(jīng)開始顯現(xiàn)。

總而言之,,今晚 OpenAI 丟出的這個重磅炸彈,,已經(jīng)讓整個 AI 社區(qū)震撼,紛紛表示 tql,、睡不著覺,,深夜已經(jīng)開始抓緊學(xué)習(xí)。接下來,,就讓我們看下 OpenAI o1 大模型的技術(shù)細(xì)節(jié),。

OpenAI o1 工作原理

在技術(shù)博客《Learning to Reason with LLMs》中,OpenAI 對 o1 系列語言模型做了詳細(xì)的技術(shù)介紹,。

OpenAI o1 是經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練來執(zhí)行復(fù)雜推理任務(wù)的新型語言模型,。特點(diǎn)就是,o1 在回答之前會思考 —— 它可以在響應(yīng)用戶之前產(chǎn)生一個很長的內(nèi)部思維鏈,。

也就是該模型在作出反應(yīng)之前,,需要像人類一樣,花更多時間思考問題,。通過訓(xùn)練,,它們學(xué)會完善自己的思維過程,嘗試不同的策略,,并認(rèn)識到自己的錯誤,。

在 OpenAI 的測試中,該系列后續(xù)更新的模型在物理,、化學(xué)和生物學(xué)這些具有挑戰(zhàn)性的基準(zhǔn)任務(wù)上的表現(xiàn)與博士生相似,。OpenAI 還發(fā)現(xiàn)它在數(shù)學(xué)和編碼方面表現(xiàn)出色,。

在國際數(shù)學(xué)奧林匹克(IMO)資格考試中,GPT-4o 僅正確解答了 13% 的問題,,而 o1 模型正確解答了 83% 的問題,。

模型的編碼能力也在比賽中得到了評估,在 Codeforces 比賽中排名 89%,。

OpenAI 表示,,作為早期模型,它還不具備 ChatGPT 的許多實用功能,,例如瀏覽網(wǎng)頁獲取信息以及上傳文件和圖片,。

但對于復(fù)雜的推理任務(wù)來說,這是一個重大進(jìn)步,,代表了人工智能能力的新水平,。鑒于此,OpenAI 將計數(shù)器重置為 1,,并將該系列模型命名為 OpenAI o1,。

重點(diǎn)在于,OpenAI 的大規(guī)模強(qiáng)化學(xué)習(xí)算法,,教會模型如何在數(shù)據(jù)高度有效的訓(xùn)練過程中利用其思想鏈進(jìn)行高效思考,。換言之,類似于強(qiáng)化學(xué)習(xí)的 Scaling Law,。

OpenAI 發(fā)現(xiàn),,隨著更多的強(qiáng)化學(xué)習(xí)(訓(xùn)練時計算)和更多的思考時間(測試時計算),o1 的性能持續(xù)提高,。而且擴(kuò)展這種方法的限制與大模型預(yù)訓(xùn)練的限制有很大不同,,OpenAI 也還在繼續(xù)研究。

評估

為了突出相對于 GPT-4o 的推理性能改進(jìn),,OpenAI 在一系列不同的人類考試和機(jī)器學(xué)習(xí)基準(zhǔn)測試中測試了 o1 模型,。實驗結(jié)果表明,在絕大多數(shù)推理任務(wù)中,,o1 的表現(xiàn)明顯優(yōu)于 GPT-4o,。

                                   o1 在具有挑戰(zhàn)性的推理基準(zhǔn)上比 GPT-4o 有了很大的改進(jìn)。

                                  o1 在廣泛的基準(zhǔn)測試上比 GPT-4o 有所改進(jìn),,包括 54/57 MMLU 子類別,,圖示出了 7 個以供說明。

在許多推理密集型基準(zhǔn)測試中,,o1 的表現(xiàn)可與人類專家相媲美,。最近的前沿模型在 MATH 和 GSM8K 上表現(xiàn)得非常好,以至于這些基準(zhǔn)測試在區(qū)分模型方面不再有效。因此,,OpenAI 在 AIME 上評估了數(shù)學(xué)成績,,這是一項旨在測試美國最聰明高中數(shù)學(xué)學(xué)生的考試。

在一個官方演示中,,o1-preview 解答了一個非常困難的推理問題:當(dāng)公主的年齡是王子的兩倍時,,公主的年齡與王子一樣大,而公主的年齡是他們現(xiàn)在年齡總和的一半,。王子和公主的年齡是多少,?提供這個問題的所有解。

在 2024 年 AIME 考試中,,GPT-4o 平均只解決了 12% (1.8/15) 的問題,,而 o1 在每個問題只有一個樣本的情況下平均為 74% (11.1/15),在 64 個樣本之間達(dá)成一致的情況下為 83% (12.5/15),,在使用學(xué)習(xí)的評分函數(shù)對 1000 個樣本重新排序時為 93% (13.9/15)。13.9 分可以躋身全美前 500 名,,并且高于美國數(shù)學(xué)奧林匹克競賽分?jǐn)?shù)線,。

OpenAI 還在 GPQA Diamond 基準(zhǔn)上評估了 o1,這是一個困難的智力基準(zhǔn),,用于測試化學(xué),、物理和生物學(xué)方面的專業(yè)知識。為了將模型與人類進(jìn)行比較,,OpenAI 聘請了擁有博士學(xué)位的專家來回答 GPQA Diamond 基準(zhǔn)問題,。

實驗結(jié)果表明:o1 超越了人類專家的表現(xiàn),成為第一個在該基準(zhǔn)測試中做到這一點(diǎn)的模型,。

這些結(jié)果并不意味著 o1 在所有方面都比博士更有能力 —— 只是該模型更擅長解決一些博士應(yīng)該解決的問題,。在其他幾個 ML 基準(zhǔn)測試中,o1 實現(xiàn)了新的 SOTA,。

啟用視覺感知能力后,,o1 在 MMMU 基準(zhǔn)上得分為 78.2%,成為第一個與人類專家相當(dāng)?shù)哪P?。o1 還在 57 個 MMLU 子類別中的 54 個上優(yōu)于 GPT-4o,。

思維鏈(CoT)

與人類在回答難題之前會長時間思考類似,o1 在嘗試解決問題時會使用思維鏈,。通過強(qiáng)化學(xué)習(xí),,o1 學(xué)會磨練其思維鏈并改進(jìn)其使用的策略。o1 學(xué)會了識別和糾正錯誤,,并可以將棘手的步驟分解為更簡單的步驟,。o1 還學(xué)會了在當(dāng)前方法不起作用時嘗試不同的方法。這個過程極大地提高了模型的推理能力。

編程能力

基于 o1 進(jìn)行了初始化并進(jìn)一步訓(xùn)練了其編程技能后,,OpenAI 訓(xùn)練得到了一個非常強(qiáng)大的編程模型(o1-ioi),。該模型在 2024 年國際信息學(xué)奧林匹克競賽(IOI)賽題上得到了 213 分,達(dá)到了排名前 49% 的水平,。并且該模型參與競賽的條件與 2024 IOI 的人類參賽者一樣:需要在 10 個小時內(nèi)解答 6 個高難度算法問題,,并且每個問題僅能提交 50 次答案。

針對每個問題,,這個經(jīng)過專門訓(xùn)練的 o1 模型會采樣許多候選答案,,然后基于一個測試時選取策略提交其中 50 個答案。選取標(biāo)準(zhǔn)包括在 IOI 公共測試案例,、模型生成的測試案例以及一個學(xué)習(xí)得到的評分函數(shù)上的性能,。

研究表明,這個策略是有效的,。因為如果直接隨機(jī)提交一個答案,,則平均得分僅有 156。這說明在該競賽條件下,,這個策略至少值 60 分,。

OpenAI 發(fā)現(xiàn),如果放寬提交限制條件,,則模型性能更是能大幅提升,。如果每個問題允許提交 1 萬次答案,即使不使用上述測試時選取策略,,該模型也能得到 362.14 分——可以得金牌了,。

最后,OpenAI 模擬了 Codeforces 主辦的競爭性編程競賽,,以展示該模型的編碼技能,。采用的評估與競賽規(guī)則非常接近,允許提交 10 份代碼,。GPT-4o 的 Elo 評分為 808,,在人類競爭對手中處于前 11% 的水平。該模型遠(yuǎn)遠(yuǎn)超過了 GPT-4o 和 o1——它的 Elo 評分為 1807,,表現(xiàn)優(yōu)于 93% 的競爭對手,。

                                   在編程競賽上進(jìn)一步微調(diào)使得 o1 能力又增,并在 2024 年國際信息學(xué)奧林匹克競賽(IOI)規(guī)則下排名前 49%,。

下面這個官方示例直觀地展示了 o1-preview 的編程能力:一段提示詞就讓其寫出了一個完整可運(yùn)行的游戲,。

人類偏好評估

除了考試和學(xué)術(shù)基準(zhǔn)之外,OpenAI 還在更多領(lǐng)域的具有挑戰(zhàn)性的開放式提示上評估了人類對 o1-preview 和 GPT-4o 的偏好,。

在這次評估中,,人類訓(xùn)練者對 o1-preview 和 GPT-4o 的提示進(jìn)行匿名回答,,并投票選出他們更喜歡的回答。在數(shù)據(jù)分析,、編程和數(shù)學(xué)等推理能力較強(qiáng)的類別中,,o1-preview 的受歡迎程度遠(yuǎn)遠(yuǎn)高于 GPT-4o。然而,,o1-preview 在某些自然語言任務(wù)上并不受歡迎,,這表明它并不適合所有用例。

                                 在需要更強(qiáng)大推理能力的領(lǐng)域,,人們更青睞 o1-preview,。

安全

思維鏈(CoT)推理為安全和對齊提供了新的思路。OpenAI 發(fā)現(xiàn),,將模型行為策略整合到推理模型的思維鏈中,,可以高效、穩(wěn)健地教導(dǎo)人類價值觀和原則,。通過向模型教導(dǎo)自己的安全規(guī)則以及如何在上下文中推理它們,,OpenAI 發(fā)現(xiàn)推理能力直接有利于模型穩(wěn)健性的證據(jù):o1-preview 在關(guān)鍵越獄評估和用于評估模型安全拒絕邊界的最嚴(yán)格內(nèi)部基準(zhǔn)上取得了顯著的改進(jìn)。

OpenAI 認(rèn)為,,使用思維鏈可以為安全和對齊帶來重大進(jìn)步,,因為 1)它能夠以清晰的方式觀察模型思維,并且 2)關(guān)于安全規(guī)則的模型推理對于分布外場景更具穩(wěn)健性,。

為了對自己的改進(jìn)進(jìn)行壓力測試, OpenAI 在部署之前根據(jù)自己的安全準(zhǔn)備框架進(jìn)行了一系列安全測試和紅隊測試,。結(jié)果發(fā)現(xiàn),,思維鏈推理有助于在整個評估過程中提高能力。尤其值得注意的是,,OpenAI 觀察到了有趣的獎勵黑客攻擊實例,。

安全準(zhǔn)備框架鏈接:https://openai.com/safety/

隱藏思維鏈

OpenAI 認(rèn)為隱藏思維鏈為監(jiān)控模型提供了獨(dú)特的機(jī)會。假設(shè)它是忠實且清晰的,,隱藏思維鏈?zhǔn)沟媚軌颉缸x懂」模型的思想并了解其思維過程,。例如,人們將來可能希望監(jiān)控思維鏈以尋找操控用戶的跡象,。

但要做到這一點(diǎn),,模型必須能夠自由地以未改變的形式表達(dá)其思想,因此不能在思維鏈方面訓(xùn)練進(jìn)行任何政策合規(guī)性或用戶偏好性訓(xùn)練,。OpenAI 也不想讓用戶直接看到不一致的思維鏈,。

因此,在權(quán)衡用戶體驗,、競爭優(yōu)勢和追求思維鏈監(jiān)控的選項等多種因素后,,OpenAI 決定不向用戶展示原始的思維鏈,。OpenAI 承認(rèn)這個決定有不好的地方,因此努力通過教導(dǎo)模型在答案中重現(xiàn)思維鏈中的任何有用想法來部分彌補(bǔ),。同時,,對于 o1 模型系列,OpenAI 展示了模型生成的思維鏈摘要,。

可以說,,o1 顯著提升了 AI 推理的最新水平。OpenAI 計劃在不斷迭代的過程中發(fā)布此模型的改進(jìn)版本,,并期望這些新的推理能力將提高將模型與人類價值觀和原則相結(jié)合的能力,。OpenAI 相信 o1 及其后續(xù)產(chǎn)品將在科學(xué)、編程,、數(shù)學(xué)和相關(guān)領(lǐng)域為 AI 解鎖更多新用例,。

OpenAI o1-mini

o1 是一個系列模型。這次 OpenAI 還一并發(fā)布了一個 mini 版 OpenAI o1-mini,。該公司在博客中給出了 preview 和 mini 版的不同定義:「為了給開發(fā)者提供更高效的解決方案,,我們也發(fā)布了 OpenAI o1-mini,這是一個尤其擅長編程的更快,、更便宜的推理模型,。」整體來看,,o1-mini 的成本比 o1-preview 低 80%,。

由于 o1 等大型語言模型是在大量文本數(shù)據(jù)集上預(yù)訓(xùn)練,雖然具有廣泛世界知識,,但對于實際應(yīng)用來說,,可能成本高昂且速度慢。

相比之下,,o1-mini 是一個較小的模型,,在預(yù)訓(xùn)練期間針對 STEM 推理進(jìn)行了優(yōu)化。在使用與 o1 相同的高計算強(qiáng)化學(xué)習(xí) (RL) pipeline 進(jìn)行訓(xùn)練后,, o1-mini 在許多有用的推理任務(wù)上實現(xiàn)了相媲美的性能,,同時成本效率顯著提高。

比如在需要智能和推理的基準(zhǔn)測試中,,與 o1-preview 和 o1 相比,,o1-mini 表現(xiàn)良好。但它在需要非 STEM 事實知識的任務(wù)上表現(xiàn)較差,。

數(shù)學(xué)能力:在高中 AIME 數(shù)學(xué)競賽中,,o1-mini (70.0%) 與 o1 (74.4%) 不相上下,但價格卻便宜很多,,并且優(yōu)于 o1-preview (44.6%),。o1-mini 的得分(約 11/15 個問題)大約位于美國前 500 名高中生之列,。

編碼能力:在 Codeforces 競賽網(wǎng)站上,o1-mini 的 Elo 得分為 1650,,與 o1 (1673) 不相上下,,并且高于 o1-preview (1258)。此外,,o1-mini 在 HumanEval 編碼基準(zhǔn)和高中網(wǎng)絡(luò)安全奪旗挑戰(zhàn) (CTF) 中也表現(xiàn)出色,。

STEM:在一些需要推理的學(xué)術(shù)基準(zhǔn)上,例如 GPQA(科學(xué))和 MATH-500,,o1-mini 的表現(xiàn)優(yōu)于 GPT-4o,。o1-mini 在 MMLU 等任務(wù)上的表現(xiàn)則不如 GPT-4o,并且由于缺乏廣泛的世界知識而在 GPQA 基準(zhǔn)上落后于 o1-preview,。

人類偏好評估:OpenAI 讓人類評分員在各個領(lǐng)域具有挑戰(zhàn)性的開放式提示上比較 o1-mini 和 GPT-4o,。與 o1-preview 類似,在推理密集型領(lǐng)域,,o1-mini 比 GPT-4o 更受歡迎,;但在以語言為中心的領(lǐng)域,o1-mini 并不比 GPT-4o 更受歡迎,。

在速度層面,,OpenAI 比較了 GPT-4o、o1-mini 和 o1-preview 對一個單詞推理問題的回答,。結(jié)果顯示,,GPT-4o 回答不正確,而 o1-mini 和 o1-preview 均回答正確,,并且 o1-mini 得出答案的速度快了大約 3-5 倍,。

如何使用 OpenAI o1?

ChatGPT Plus 和 Team(個人付費(fèi)版與團(tuán)隊版)用戶馬上就可以在該公司的聊天機(jī)器人產(chǎn)品 ChatGPT 中開始使用 o1 模型了,。你可以手動選取使用 o1-preview 或 o1-mini。不過,,用戶的使用量有限,。

目前,每位用戶每周僅能給 o1-preview 發(fā)送 30 條消息,,給 o1-mini 發(fā)送 50 條消息,。

是的,很少,!不過 OpenAI 表示正在努力提升用戶的可使用次數(shù),,并讓 ChatGPT 能自動針對給定提示詞選擇使用合適的模型。

至于企業(yè)版和教育版用戶,,要到下周才能開始使用這兩個模型,。

至于通過 API 訪問的用戶,,OpenAI 表示達(dá)到了 5 級 API 使用量的開發(fā)者可以即刻開始使用這兩個模型開始開發(fā)應(yīng)用原型,但同樣也被限了速:20 RPM,。什么是 5 級 API 使用量,?簡單來說,就是已經(jīng)消費(fèi)了 1000 美元以上并且已經(jīng)是超過 1 個月的付費(fèi)用戶,。請看下圖:

OpenAI 表示對這兩個模型的 API 調(diào)用并不包含函數(shù)調(diào)用,、流式傳輸(streaming)、系統(tǒng)支持消息等功能,。同樣,,OpenAI 表示正在努力提升這些限制。

未來

剛剛,OpenAI震撼發(fā)布o(jì)1大模型,!強(qiáng)化學(xué)習(xí)突破LLM推理極限

OpenAI 表示,,未來除了模型更新之外,還將增加網(wǎng)絡(luò)瀏覽,、文件和圖像上傳等功能,,以讓這些模型變得更加有用。

「除了新的 o1 系列模型,,我們計劃繼續(xù)開發(fā)和發(fā)布我們的 GPT 系列模型,。」

參考內(nèi)容:

https://openai.com/index/introducing-openai-o1-preview/

https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

https://openai.com/index/learning-to-reason-with-llms/

https://x.com/sama/status/1834283100639297910

轉(zhuǎn)載請注明來自浙江中液機(jī)械設(shè)備有限公司 ,,本文標(biāo)題:《剛剛,,OpenAI震撼發(fā)布o(jì)1大模型,!強(qiáng)化學(xué)習(xí)突破LLM推理極限》

百度分享代碼,如果開啟HTTPS請參考李洋個人博客
每一天,,每一秒,,你所做的決定都會改變你的人生!

發(fā)表評論

快捷回復(fù):

驗證碼

評論列表 (暫無評論,,94人圍觀)參與討論

還沒有評論,,來說兩句吧...

Top