通義千問(wèn)Qwen2開(kāi)源終于來(lái)了,我們立馬測(cè)試了,!
Qwen2實(shí)測(cè)反饋
此前,Qwen1.5就在各大權(quán)威榜單和大模型競(jìng)技場(chǎng)中,,超越了國(guó)內(nèi)幾乎所有大模型,,無(wú)論是開(kāi)源還是閉源。而這次發(fā)布的Qwen2,,據(jù)說(shuō)性能又有大幅提升,,其中,Qwen2-72B的性能尤其優(yōu)越,。本次發(fā)布的所有模型都能夠支持30多國(guó)語(yǔ)言,,除了中文、英文之外,,還增加了27種語(yǔ)言相關(guān)的高質(zhì)量數(shù)據(jù),,提升了模型的多語(yǔ)言能力,。
Qwen2所有尺寸模型都使用了GQA(分組查詢注意力)機(jī)制,以便讓用戶體驗(yàn)到GQA帶來(lái)的推理加速和顯存占用降低的優(yōu)勢(shì),。Qwen2還增大了上下文長(zhǎng)度支持,,Qwen2-72B-Instruct能夠完美處理128k上下文長(zhǎng)度內(nèi)的信息抽取任務(wù)。
國(guó)內(nèi)外的開(kāi)發(fā)者都熱情高漲,,更有網(wǎng)友實(shí)測(cè)Qwen2在醫(yī)學(xué)術(shù)語(yǔ),、翻譯方面更準(zhǔn)確,并且編程和推理能力更強(qiáng)
光說(shuō)不練假把式,,這里先幫大伙試試
首先試試Qwen2文本生成的能力,。
不得不說(shuō),這段確實(shí)很有《紅樓夢(mèng)》的味道,,妥妥的滿分作文,。
接下來(lái)再來(lái)試試他的文本創(chuàng)造
Qwen2不但寫(xiě)出了詩(shī),還對(duì)詩(shī)的含義進(jìn)行了解釋,。
自打大模型爆火以來(lái),,「弱智吧」就成了檢測(cè)大模型能力的一項(xiàng)重要指標(biāo)。下面測(cè)試一下Qwen2會(huì)不會(huì)被弱智吧的問(wèn)題給繞進(jìn)去,。
從上面圖片可以看出來(lái),,Qwen2不但給出了正確答案,還給出很棒的建議,。
前面說(shuō)了Qwen2在編程和推理能力很強(qiáng),,下面通過(guò)同一道題對(duì)Qwen2-72B-Instruct和Llama-3-70B-Instruct進(jìn)行了簡(jiǎn)單的對(duì)比測(cè)試
由上面的結(jié)果可以看出兩款模型回答都是正確的,但Qwen的中文能力更強(qiáng)一些,。
作為一名程序員,,少不了要請(qǐng)教一些代碼相關(guān)的問(wèn)題,只需要你提出需求,,喝口水的功夫就寫(xiě)完了,。
從結(jié)果可以看出,可以正確理解要求并生成代碼,。
更多關(guān)于常識(shí),、數(shù)學(xué)、編程等能力的效果,,家人們可以親自去體驗(yàn)一番了,。
這一年Qwen上的榜單
不到一年時(shí)間,通義先后開(kāi)源近10款不同尺寸的大語(yǔ)言模型,、兩款多模態(tài)模型,、一款混合專家模型、一款代碼大模型,,不僅開(kāi)源頻率和速度全球無(wú)二,,模型的性能也隨著版本迭代而肉眼可見(jiàn)地進(jìn)化,,從Qwen-72B開(kāi)始,逐漸步入全球大模型競(jìng)爭(zhēng)的核心腹地,,在權(quán)威榜單多次創(chuàng)造中國(guó)大模型的“首次”
其中Qwen-72B,、Qwen1.5-110B登頂過(guò)HuggingFace Open LLM LeaderBoard (HF開(kāi)源大模型排行榜)
Qwen-72B登頂上海人工智能實(shí)驗(yàn)室·OpenCompass開(kāi)源基座大模型榜單
Qwen1.5-0.5B、 Qwen1.5-1.8B,、 Qwen1.5-4B在基準(zhǔn)評(píng)測(cè)中與業(yè)界領(lǐng)先的小型模型相比,,具有很強(qiáng)的競(jìng)爭(zhēng)力
通義千問(wèn)Qwen2系列模型大幅提升了代碼、數(shù)學(xué),、推理,、指令遵循、多語(yǔ)言理解等能力,。在MMLU,、GPQA、HumanEval,、GSM8K,、BBH、MT-Bench,、Arena Hard,、LiveCodeBench等國(guó)際權(quán)威測(cè)評(píng)中,Qwen2-72B一舉斬獲十幾項(xiàng)世界冠軍,,超過(guò)美國(guó)的Llama3,。
阿里云開(kāi)源的意義
阿里云是全球唯一一家積極研發(fā)先進(jìn)AI 模型并且全方位開(kāi)源的云計(jì)算廠商。2023年8月,,阿里云成為國(guó)內(nèi)首個(gè)宣布開(kāi)源自研模型的科技企業(yè),,推出通義千問(wèn)第一代開(kāi)源模型;2024年2月,,1.5代開(kāi)源模型Qwen1.5發(fā)布,;不到4個(gè)月后,Qwen2開(kāi)源,。
可以說(shuō),,Qwen是國(guó)內(nèi)唯一出現(xiàn)在OpenAI視野里,可以參與國(guó)際競(jìng)爭(zhēng)的國(guó)產(chǎn)大模型,。
早些時(shí)候,還有人做了個(gè)LMSys榜單一年動(dòng)態(tài)變化視頻,。過(guò)去一年內(nèi),,國(guó)產(chǎn)大模型只有Qwen多次沖進(jìn)這份榜單,最早出現(xiàn)的是通義千問(wèn)14B開(kāi)源視頻Qwen-14B,,后來(lái),,Qwen系列的72B,、110B以及閉源版本Max接連進(jìn)榜,得分一個(gè)比一次高,,LMSys也曾官方發(fā)推認(rèn)證通義千問(wèn)開(kāi)源模型的實(shí)力,。在頂尖模型公司的競(jìng)爭(zhēng)中,目前為止中國(guó)模型只有通義千問(wèn)真正入局,,能與頭部廠商一較高下,。
此外,國(guó)內(nèi)外有海量開(kāi)發(fā)者都基于Qwen開(kāi)發(fā)了自己的模型和應(yīng)用,,尤其是企業(yè)級(jí)的模型和應(yīng)用,。Qwen的很多忠實(shí)擁躉是海外開(kāi)發(fā)者,他們時(shí)常在社交平臺(tái)發(fā)表“我們?yōu)槭裁礇](méi)有這種模型”的溢美之詞,。
通義大模型的快速迭代,,在很大程度上也源于全球開(kāi)發(fā)者的反饋,以及整個(gè)開(kāi)源社區(qū)的生態(tài)支持,。通義大模型用行動(dòng)證明了開(kāi)源開(kāi)放的力量,。所以我們也有理由相信,阿里在開(kāi)源方面一定會(huì)越走越好,!
對(duì)于我們個(gè)人來(lái)說(shuō),AI大模型是未來(lái)IT技術(shù)應(yīng)用和發(fā)展的核心驅(qū)動(dòng)力,,作為程序員的我們,,要緊跟時(shí)代,抓住機(jī)遇,!
在哪里體驗(yàn)Qwen2系列模型,?
Qwen2系列已上線魔搭社區(qū)ModelScope和阿里云百煉平臺(tái),開(kāi)發(fā)者可在魔搭社區(qū)體驗(yàn),、下載模型,,或通過(guò)阿里云百煉平臺(tái)調(diào)用模型API。
同時(shí),, Qwen2-72b-instruct 模型已經(jīng)上線中國(guó)大語(yǔ)言模型評(píng)測(cè)競(jìng)技場(chǎng)Compass Arena,,所有人都可以登錄體驗(yàn)Qwen2的性能,或者選擇Qwen2模型與其他大模型進(jìn)行對(duì)比測(cè)評(píng),。
測(cè)評(píng)地址:https://opencompass.org.cn/arena
好了,,今天就說(shuō)到這里。
轉(zhuǎn)載請(qǐng)注明來(lái)自浙江中液機(jī)械設(shè)備有限公司 ,,本文標(biāo)題:《通義千問(wèn)Qwen2開(kāi)源終于來(lái)了,我們立馬測(cè)試了,!》
還沒(méi)有評(píng)論,,來(lái)說(shuō)兩句吧...