与上司出轨的漂亮人妻日本少妇诱惑在线观看|日韩欧美视频二区|久碰人妻人妻人妻人妻人掠|丰满人妻三级黄片|出轨丈母娘电影|深夜人妻中文字幕|丰满人妻av午夜|清纯校花被奸日常|av人妻在线视频|丰满少妇喷潮,女的达到高潮,国产欧美在线观看一区二区,久久人妻少妇嫩草影院

國(guó)產(chǎn) AI 最卷一夜!大模型黑馬 DeepSeek、Kimi 硬剛 OpenAI o1,,實(shí)測(cè)體驗(yàn)到底有多強(qiáng)

國(guó)產(chǎn) AI 最卷一夜!大模型黑馬 DeepSeek,、Kimi 硬剛 OpenAI o1,,實(shí)測(cè)體驗(yàn)到底有多強(qiáng)

chushichang 2025-03-17 快播 42 次瀏覽 0個(gè)評(píng)論

趕在放假前,支棱起來的國(guó)產(chǎn) AI 大模型廠商井噴式發(fā)布了一大堆春節(jié)禮物,。

前腳 DeepSeek-R1 正式發(fā)布,,號(hào)稱性能對(duì)標(biāo) OpenAI o1 正式版,后腳 k1.5 新模型也正式登場(chǎng),,表示性能做到滿血版多模態(tài) o1 水平,。

如果再加上此前強(qiáng)勢(shì)登場(chǎng)的智譜 GLM-Zero,階躍星辰推理模型 Step R-mini,,星火深度推理模型 X1,,年末上大分的國(guó)產(chǎn)大模型拉開了真刀真槍的帷幕,也給以 OpenAI 為代表的海外模型狠狠上了一波壓力,。

  • DeepSeek-R1 :在數(shù)學(xué),、代碼、自然語言推理等任務(wù)上,,性能比肩 OpenAI o1 正式版
  • 月之暗面 k1.5:數(shù)學(xué),、代碼、視覺多模態(tài)和通用能力全面超越 GPT-4o 和 Claude 3.5 Sonnet,。
  • 智譜 GLM-Zero:擅長(zhǎng)處理數(shù)理邏輯,、代碼和需要深度推理的復(fù)雜問題
  • 階躍 Step-2 mini:極速響應(yīng),平均首字時(shí)延僅 0.17 秒,,還有 Step-2 文學(xué)大師版
  • 星火 X1:數(shù)學(xué)能力亮眼,,有全面思考過程,,拿捏小學(xué)、初中,、高中,、大學(xué)全學(xué)段數(shù)學(xué)

井噴不是偶然的爆發(fā),而是積蓄已久的力量,,可以說,,國(guó)產(chǎn) AI 模型在春節(jié)前夕的突圍,將有望重新定義 AI 發(fā)展的世界坐標(biāo),。

昨晚率先發(fā)布的 DeepSeek-R1 現(xiàn)在已經(jīng)上架 DeepSeek 官網(wǎng)與 App,,打開就能用。

9.8 和 9.11 哪個(gè)大以及 Strawberry 里有幾個(gè) r 的難題在第一次測(cè)試中就順利過關(guān),,別看思維鏈略顯冗長(zhǎng),但正確答案事實(shí)勝于雄辯,。

國(guó)產(chǎn) AI 最卷一夜,!大模型黑馬 DeepSeek、Kimi 硬剛 OpenAI o1,,實(shí)測(cè)體驗(yàn)到底有多強(qiáng)

面對(duì)弱智吧難題「跳多高才能跳過手機(jī)上的廣告」的拷問,, 響應(yīng)速度極快的 DeepSeek-R1 不僅能夠避開語言陷阱,還提供了不少規(guī)避廣告的的建議,,十分人性化,。

國(guó)產(chǎn) AI 最卷一夜!大模型黑馬 DeepSeek,、Kimi 硬剛 OpenAI o1,,實(shí)測(cè)體驗(yàn)到底有多強(qiáng)

幾年前,有一道名為「如果昨天是明天,,今天就是星期五,,實(shí)際今天是星期幾」的邏輯推理題走紅網(wǎng)絡(luò),在面臨同樣問題的拷問后,,OpenAI o1 給出的答案是周日,,DeepSeek-R1 則是周三。

但就目前來看,,至少 DeepSeek-R1 更靠近答案,。

國(guó)產(chǎn) AI 最卷一夜,!大模型黑馬 DeepSeek、Kimi 硬剛 OpenAI o1,,實(shí)測(cè)體驗(yàn)到底有多強(qiáng)

據(jù)介紹,,DeepSeek-R1 在數(shù)學(xué)、代碼,、自然語言推理等任務(wù)上,,性能比肩 OpenAI o1 正式版,理論上更偏向于理科生,。

正好趕上小紅書上中美兩國(guó)網(wǎng)友在友好交流數(shù)學(xué)作業(yè),,我們也讓 DeepSeek-R1 幫忙解疑答惑。

插個(gè)冷知識(shí),,上回 DeepSeek 海外爆火時(shí)就有網(wǎng)友發(fā)現(xiàn),,其實(shí) DeepSeek 也支持圖片識(shí)別,我們可以直接讓模型分析美國(guó)網(wǎng)友上傳的試卷圖片,。

國(guó)產(chǎn) AI 最卷一夜,!大模型黑馬 DeepSeek、Kimi 硬剛 OpenAI o1,,實(shí)測(cè)體驗(yàn)到底有多強(qiáng)

攏共兩道題,,第一道題選 C,第二道題選 A,,并且,,「自信滿滿」的 DeepSeek-R1 推測(cè)第二道題原題的選項(xiàng)中無 18,結(jié)合選項(xiàng)推測(cè)原題可能存在筆誤(如方程應(yīng)為 r2=9cos?(2θ)r2=9cos(2θ)),。

在隨后的線性代數(shù)證明題中,,,DeepSeek-R1 提供的證明步驟邏輯嚴(yán)謹(jǐn),,同一道題目還提供了多種驗(yàn)證方法,,展現(xiàn)出深厚的數(shù)學(xué)功底。

國(guó)產(chǎn) AI 最卷一夜,!大模型黑馬 DeepSeek,、Kimi 硬剛 OpenAI o1,,實(shí)測(cè)體驗(yàn)到底有多強(qiáng)

始于性能,陷于成本,,忠于開源,。 DeepSeek-R1 正式發(fā)布之后,也同步開源模型權(quán)重,。我宣布,,來自中國(guó)東方的 DeepSeek 才是真正的 OpenAI。

據(jù)悉,,DeepSeek-R1 遵循 MIT License,,允許用戶通過蒸餾技術(shù)借助 R1 訓(xùn)練其他模型。DeepSeek-R1 上線 API,,對(duì)用戶開放思維鏈輸出,,通過設(shè)置 model=’deepseek-reasoner’ 即可調(diào)用。

并且,,DeepSeek-R1 訓(xùn)練技術(shù)全部公開,,論文鏈接指路?? https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

DeepSeek-R1 技術(shù)報(bào)告里提到一個(gè)值得關(guān)注的發(fā)現(xiàn),那就是 R1 zero 訓(xùn)練過程里出現(xiàn)的「aha moment(頓悟時(shí)刻)」,。

在模型的中期訓(xùn)練階段,DeepSeek-R1-Zero 開始主動(dòng)重新評(píng)估初始解題思路,,并分配更多時(shí)間優(yōu)化策略(如多次嘗試不同解法),。換句話說,通過 RL 框架,,AI 可能自發(fā)形成類人推理能力,,甚至超越預(yù)設(shè)規(guī)則的限制。

并且這也將有望為開發(fā)更自主,、自適應(yīng)的 AI 模型提供方向,,比如在復(fù)雜決策(醫(yī)療診斷、算法設(shè)計(jì))中動(dòng)態(tài)調(diào)整策略,。正如報(bào)告所說,,「這一時(shí)刻不僅是模型的『頓悟時(shí)刻』,也是研究人員觀察其行為時(shí)的『頓悟時(shí)刻』,?!?/p>

除了主打的大模型,DeepSeek 的小模型同樣實(shí)力不俗,。

DeepSeek 通過對(duì) DeepSeek-R1-Zero 和 DeepSeek-R1 這兩個(gè) 660B 模型的蒸餾,,開源了 6 個(gè)小模型。其中,,32B 和 70B 型號(hào)在多個(gè)領(lǐng)域達(dá)到了 OpenAI o1-mini 的水準(zhǔn),。

并且,,僅 1.5B 參數(shù)大小的 DeepSeek-R1-Distill-Qwen-1.5B 在數(shù)學(xué)基準(zhǔn)測(cè)試中超越了 GPT-4o 和 Claude-3.5-Sonnet,AIME 得分為 28.9%,,MATH 得分為 83.9%,。

HuggingFace鏈接:https://huggingface.co/deepseek-ai

在 API 服務(wù)定價(jià)方面,號(hào)稱 AI 屆拼多多的 DeepSeek 也采用了靈活的階梯定價(jià):每百萬輸入 tokens 根據(jù)緩存情況收費(fèi) 1-4 元,,輸出 tokens 統(tǒng)一 16 元,,再次大幅降低開發(fā)使用成本。

DeepSeek-R1 發(fā)布以后,,也再次在海外 AI 圈引起轟動(dòng),,收獲了大量「自來水」。其中,,博主 Bindu Reddy 更是給 Deepseek 冠上了開源 AGI 和文明的未來之稱,。

出色的評(píng)價(jià)源于模型在網(wǎng)友的實(shí)際應(yīng)用中出色的表現(xiàn)。從 30 秒詳細(xì)闡釋勾股定理,,到 9 分鐘深入淺出地講解量子電動(dòng)力學(xué)原理并提供可視化呈現(xiàn),。DeepSeek-R1 沒有任何差錯(cuò)。

國(guó)產(chǎn) AI 最卷一夜,!大模型黑馬 DeepSeek,、Kimi 硬剛 OpenAI o1,實(shí)測(cè)體驗(yàn)到底有多強(qiáng)

甚至也有網(wǎng)友特別欣賞 DeepSeek-R1 所展示的思維鏈,,認(rèn)為「像極了人類的內(nèi)心獨(dú)白,,既專業(yè)又可愛」。

英偉達(dá)高級(jí)研究科學(xué)家 Jim Fan 對(duì) DeepSeek-R1 給予了高度評(píng)價(jià),。他指出這代表著非美國(guó)公司正在踐行 OpenAI 最初的開放使命,,通過公開原始算法和學(xué)習(xí)曲線等方式實(shí)現(xiàn)影響力,順便還內(nèi)涵了一波 OpenAI,。

DeepSeek-R1 不僅開源了一系列模型,,還披露了所有訓(xùn)練秘密。它們可能是首個(gè)展示 RL 飛輪重大且持續(xù)增長(zhǎng)的開源項(xiàng)目,。
影響力既可以通過『ASI 內(nèi)部實(shí)現(xiàn)』或『草莓計(jì)劃』等傳說般的項(xiàng)目實(shí)現(xiàn),,也可以簡(jiǎn)單地通過公開原始算法和 matplotlib 學(xué)習(xí)曲線來達(dá)成。

在深入研究論文后,,Jim Fan 特別強(qiáng)調(diào)了幾個(gè)關(guān)鍵發(fā)現(xiàn):

完全由強(qiáng)化學(xué)習(xí)驅(qū)動(dòng),,沒有任何 SFT(監(jiān)督微調(diào))。讓人聯(lián)想到 AlphaZero——從零開始掌握圍棋,、將棋和國(guó)際象棋,,而不是先模仿人類大師的棋步,。這是論文中最關(guān)鍵的發(fā)現(xiàn)。 使用硬編碼規(guī)則計(jì)算的真實(shí)獎(jiǎng)勵(lì),。

避免使用強(qiáng)化學(xué)習(xí)容易破解的學(xué)習(xí)獎(jiǎng)勵(lì)模型,。 隨著訓(xùn)練進(jìn)展,模型的思考時(shí)間逐步增加——這不是預(yù)先編寫的程序,,而是一種涌現(xiàn)特性,! 自我反思和探索行為的涌現(xiàn)。

GRPO 替代了 PPO:它移除了 PPO 的評(píng)論網(wǎng)絡(luò),,改用多個(gè)樣本的平均獎(jiǎng)勵(lì),。這是一種減少內(nèi)存使用的簡(jiǎn)單方法。需要注意的是,,GRPO 是作者團(tuán)隊(duì)提出的一種創(chuàng)新方法,。

整體來看,這項(xiàng)工作展示了強(qiáng)化學(xué)習(xí)在大規(guī)模場(chǎng)景中實(shí)際應(yīng)用的開創(chuàng)性潛力,,并證明某些復(fù)雜行為可以通過更簡(jiǎn)單的算法結(jié)構(gòu)實(shí)現(xiàn),,而無需進(jìn)行繁瑣的調(diào)整或人工干預(yù)。

一圖勝千言,,更明顯的對(duì)比如下:

就這樣,,DeepSeek 再次在海內(nèi)外完成二次爆火,不僅是一次技術(shù)突破,,更是中國(guó)乃至世界的開源精神的勝利,,也因此收獲了不少海外忠實(shí)擁躉。

同一天上線的還有 Kimi v1.5 多模態(tài)思考模型,。

自去年 11 月 Kimi 推出 k0-math 數(shù)學(xué)模型,12 月發(fā)布 k1 視覺思考模型以來,,這是第三次 K 系列的重要上新,。

在短思考模式(short-CoT)的較量中,Kimi k1.5 展現(xiàn)出壓倒性優(yōu)勢(shì),,其數(shù)學(xué),、代碼、視覺多模態(tài)和通用能力全面超越了行業(yè)翹楚 GPT-4o 和 Claude 3.5 Sonnet,。

在長(zhǎng)思考模式(long-CoT)的競(jìng)爭(zhēng)中,,Kimi k1.5 的代碼和多模態(tài)推理能力已經(jīng)比肩 OpenAI o1 正式版,成為全球范圍內(nèi)首個(gè)在 OpenAI 之外實(shí)現(xiàn) o1 級(jí)別多模態(tài)推理性能的模型,。

伴隨著模型的重磅發(fā)布,,Kimi 還首次公開了完整的模型訓(xùn)練技術(shù)報(bào)告。

GitHub 鏈接:https://github.com/MoonshotAI/kimi-k1.5

據(jù)官方介紹,,k1.5 模型的核心技術(shù)突破主要體現(xiàn)在四個(gè)關(guān)鍵維度:

  • 長(zhǎng)上下文擴(kuò)展,。我們將 RL 的上下文窗口擴(kuò)展到 128k,,并觀察到隨著上下文長(zhǎng)度的增加,性能持續(xù)提升,。我們的方法背后的一個(gè)關(guān)鍵思想是,,使用部分展開(partial rollouts)來提高訓(xùn)練效率——即通過重用大量先前的軌跡來采樣新的軌跡,避免了從頭開始重新生成新軌跡的成本,。我們的觀察表明,,上下文長(zhǎng)度是通過 LLMs 持續(xù)擴(kuò)展RL的一個(gè)關(guān)鍵維度。
  • 改進(jìn)的策略優(yōu)化,。我們推導(dǎo)出了long-CoT的 RL 公式,,并采用在線鏡像下降的變體進(jìn)行穩(wěn)健的策略優(yōu)化。該算法通過我們的有效采樣策略,、長(zhǎng)度懲罰和數(shù)據(jù)配方的優(yōu)化進(jìn)一步得到改進(jìn),。
  • 簡(jiǎn)潔的框架。長(zhǎng)上下文擴(kuò)展與改進(jìn)的策略優(yōu)化方法相結(jié)合,,為通過LLMs學(xué)習(xí)建立了一個(gè)簡(jiǎn)潔的RL框架,。由于我們能夠擴(kuò)展上下文長(zhǎng)度,學(xué)習(xí)到的 CoTs 表現(xiàn)出規(guī)劃,、反思和修正的特性,。增加上下文長(zhǎng)度的效果是增加了搜索步驟的數(shù)量。因此,,我們展示了可以在不依賴更復(fù)雜技術(shù)(如蒙特卡洛樹搜索,、價(jià)值函數(shù)和過程獎(jiǎng)勵(lì)模型)的情況下實(shí)現(xiàn)強(qiáng)大的性能。
  • 多模態(tài)能力,。我們的模型在文本和視覺數(shù)據(jù)上聯(lián)合訓(xùn)練,,具有聯(lián)合推理兩種模態(tài)的能力。該模型數(shù)學(xué)能力出眾,,但由于主要支持LaTeX等格式的文本輸入,,依賴圖形理解能力的部分幾何圖形題則難以應(yīng)對(duì)。

k1.5 多模態(tài)思考模型的預(yù)覽版將陸續(xù)灰度上線官網(wǎng)和官方 App,。值得一提的是,,k1.5 的發(fā)布同樣在海外引起了巨大的反響。有網(wǎng)友對(duì)這個(gè)模型不吝贊美之詞,,讓海外見證了中國(guó) AI 實(shí)力的崛起,。

實(shí)際上,年末國(guó)內(nèi)推理模型的密集發(fā)布絕非偶然,,這是 OpenAI 去年 10 月發(fā)布 o1 模型在全球 AI 領(lǐng)域掀起的漣漪終于傳導(dǎo)至中國(guó)的顯著標(biāo)志,。短短數(shù)月從追趕到比肩,國(guó)產(chǎn)大模型用行動(dòng)證明了中國(guó)速度,。

菲爾茲獎(jiǎng)得主,、數(shù)學(xué)天才陶哲軒曾認(rèn)為這類推理模型或許只需再經(jīng)過一兩輪迭代與能力提升,,就能達(dá)到「合格研究生」的水準(zhǔn)。而 AI 發(fā)展的遠(yuǎn)景遠(yuǎn)不止于此,。

當(dāng)前,,我們正見證著 AI 智能體一個(gè)關(guān)鍵的轉(zhuǎn)型時(shí)刻。從單純的「知識(shí)增強(qiáng)」向「執(zhí)行增強(qiáng)」跨越,,開始主動(dòng)參與決策制定和任務(wù)執(zhí)行的過程,。與此同時(shí),AI 也在突破單一模態(tài)的限制,,向著多模態(tài)融合的方向快速演進(jìn),。當(dāng)執(zhí)行遇上思考,AI才真正具備了改變世界的力量,。

基于此,,像人一樣思考的模型正在為 AI 的實(shí)際落地開辟更多可能性。

表面上看,,年末這波國(guó)內(nèi)推理模型的密集涌現(xiàn),,表面上看或許帶有「中國(guó)式跟隨者創(chuàng)新」的影子,但深入觀察就會(huì)發(fā)現(xiàn),,無論是在開源策略的深度,,還是在技術(shù)細(xì)節(jié)的精確度上,中國(guó)廠商依然走出了一條獨(dú)具特色的發(fā)展道路,。

轉(zhuǎn)載請(qǐng)注明來自浙江中液機(jī)械設(shè)備有限公司 ,,本文標(biāo)題:《國(guó)產(chǎn) AI 最卷一夜!大模型黑馬 DeepSeek,、Kimi 硬剛 OpenAI o1,,實(shí)測(cè)體驗(yàn)到底有多強(qiáng)》

百度分享代碼,如果開啟HTTPS請(qǐng)參考李洋個(gè)人博客
每一天,,每一秒,你所做的決定都會(huì)改變你的人生,!

發(fā)表評(píng)論

快捷回復(fù):

驗(yàn)證碼

評(píng)論列表 (暫無評(píng)論,,42人圍觀)參與討論

還沒有評(píng)論,,來說兩句吧...

Top
 玉林湘大招聘信息最新  杭州男義工招聘最新信息  青島黃河最新房?jī)r(jià)信息  安慶涂層廠招聘信息最新  南充錦繡瀾庭最新信息  宜昌招洗碗工最新信息  疫情的最新匯報(bào)信息  綠塘消防招聘信息最新  淄博蒲先農(nóng)最新信息  阿克蘇船務(wù)最新招聘信息  盤龍城最新兼職信息群  邯鄲老舊房出售最新信息  沈陽世博園最新標(biāo)題信息  渭南越博招聘信息最新  南寧海員招聘信息最新  鄄城最新疫情信息數(shù)據(jù)  寶雞抗疫最新信息視頻  昆山臺(tái)坡招聘信息最新  美豪臨潼招聘信息最新  中央北路最新房?jī)r(jià)信息  襄陽美國(guó)大選最新信息  乘馳重工招聘信息最新  衢州龍游最新房?jī)r(jià)信息  廣漢鋁業(yè)招工信息最新  半鋼設(shè)計(jì)招聘信息最新  夏邑最新人員任免信息  一加邁凱倫最新信息報(bào)價(jià)  河南社保最新信息查詢  長(zhǎng)嶺最新招標(biāo)信息查詢  武城最新門頭房出租信息