首個國產音樂SOTA模型來了！專為中文優(yōu)化,，免費用,，不限曲風

xiaxunyi 2025-03-30 百度 116 次瀏覽 0個評論

在「天工」大模型發(fā)布一周年之際，昆侖萬維重磅宣布,，「天工 3.0」基座大模型與「天工 SkyMusic」音樂大模型正式開啟公測,。

自從 AI 讓人類實現(xiàn)音樂創(chuàng)作自由后，連吵架都變得有趣了起來。

前段時間,，X 平臺知名 AI 博主 Aran Komatsuzaki 自己寫了一首歌,，專門用來表達對另一位 AI 科學家 ——Gary Marcus 的不滿，還用當前大火的 Suno 把它生成了出來,。要知道,，過去，這些大佬們的口水戰(zhàn)主要就是發(fā)個帖子,，然后你來我往地跟帖,。這次，Aran Komatsuzaki 的做法可謂是玩出了新花樣,，不知道是不是從「謝帝謝帝我要 diss 你」得到的靈感,。

和 Aran Komatsuzaki 一樣，國內外很多懂音樂,、不懂音樂的人都在試玩 Suno 等 AI 音樂創(chuàng)作工具,，生成了很多非常有意思的音樂作品。

不過,，有很多網友反映,，Suno 有時生成中文不太穩(wěn)定，會出現(xiàn)中文歌曲帶有英文感,、生僻字唱錯等問題,。

^{B 站網友針對 Suno 生成的一首中文歌發(fā)表的評論,。視頻地址：https://b23.tv/gVqTUOu}

那么，有沒有一個 AI 音樂生成模型專門針對中文做過優(yōu)化呢,？

昆侖萬維今日面向全社會開放公測的「天工 SkyMusic」就是這樣一個模型,。它生成的中文人聲發(fā)音清晰、正宗,、無異響,，沒有出現(xiàn)「百老匯式中文歌」等水土不服的情況。而且,，它不僅針對普通話做了優(yōu)化,，粵語、成都話,、北京話等方言語種也照顧到了。

那么,，和 Suno 比,，天工 SkyMusic 表現(xiàn)如何呢？橫向測評的數(shù)據顯示,，在人聲和 BGM 音質,、人聲自然度、發(fā)音可懂度等幾個指標上,，天工 SkyMusic 都更勝一籌,，綜合性能超越 Suno V3，成為中國首個音樂 AIGC 的 SOTA 模型,，也讓中國的自研大模型技術第一次在 AIGC 領域領跑全球,。

如此優(yōu)異的表現(xiàn)自然離不開強大的基座模型,，即昆侖萬維在同一時間發(fā)布并開源的大模型「天工 3.0」。該模型擁有 4000 億參數(shù),，超越了 3140 億參數(shù)的 Grok-1,，是全球最大的開源 MoE 大模型。

在 MMBench 等多項權威多模態(tài)測評結果中,，「天工 3.0」超越 GPT-4V,，全球領先。

在這個基座模型的加持下,，天工 SkyMusic 對歌曲的理解更為深刻,。它能夠通過歌詞控制情緒變化，并實現(xiàn)如顫音,、歌劇,、吟唱等多種歌唱技巧，使生成的音樂作品情感更加豐富且貼合情境,。

那么,，這個模型具體怎么用？技術路線是怎樣的,？它背后的「天工 3.0」又有何創(chuàng)新之處,？我們一個一個來看,。

首個國產音樂 SOTA 模型的無限玩法

其實，用天工 SkyMusic 生成歌曲是非常簡單的：你只需要輸入歌名,、歌詞,，選擇參考曲目，它就能生成風格,、唱腔與之類似的歌,。

如果你不想自己寫歌詞，也可以試試輸入框右下角的「AI 寫詞」功能,。它可以從第一句開始寫,，每次只生成一句，不滿意的句子可以及時刪掉,，直至整首歌創(chuàng)作完成。

當然,，你也可以嘗試用「天工 3.0」來寫歌,，比如這首《機器之心》就是我們用「天工 3.0」寫出來的：

接下來就是選擇參考歌曲，這也是天工 SkyMusic 的獨特之處,，即能夠按照示例音源生成音樂,。

在這一步，天工 SkyMusic 提供了很多參考曲目,，你可以從中挑選,，也可以選擇上傳歌曲文件,。在這里，我們上傳了一首洛天依的歌曲,，看看生成效果如何：這種按照示例音源生成音樂的能力極大地豐富了天工 SkyMusic 的玩法,。在用戶作品展示區(qū)域，我們看到,，光是《新造的人》（電影《周處除三害》插曲）就有古風搖滾,、DJ 等五個版本。在試用過程中我們還發(fā)現(xiàn),，其實,，天工 SkyMusic 生成的音樂涵蓋了說唱、民謠,、放克,、古風、電子等多種曲風,。下一步,，團隊還計劃讓用戶根據哼出來的旋律生成歌曲，這將對專業(yè)人士有很大幫助,。

目前,，天工 SkyMusic 已全面開放，下載「天工」APP 就可以體驗,。這是國內目前唯一公開可用的 AI 音樂生成大模型,，它的出現(xiàn)填補了國內 AIGC 工具在這一領域的空白,。

雖然這個模型還處于起步階段，但已經讓很多人感受到了音樂創(chuàng)作的樂趣,。大家用它去改造神曲,、二創(chuàng)金曲、改寫古詩詞助力教育…… 開發(fā)出了各種音樂創(chuàng)作新方向,。

自研類 Sora 架構,，技術路線圖已公開

天工 SkyMusic 是一個端到端的音樂生成模型，因此我們用起來感覺非常簡單,。但是,，整個模型的開發(fā)卻沒有那么簡單。

首先從技術路線來說,，天工 SkyMusic 選擇了大模型音樂音頻生成路線,，這意味著它直接學習并生成音頻波形，而不是采用符號音樂生成路線（如 MIDI）來生成樂譜,。這種方法允許樂器,、人聲、旋律,、音量,、音符等元素的一體化端到端生成，從而提供更直接,、更高質量的音樂創(chuàng)作體驗,。但是，這個方向也更難,，需要高昂的算力和資金，因此做的人非常少,。

而且,，在這個方向中，下決心去攻克「人聲 Song」領域的人更少,，大部分研究集中于無人聲的 BGM 領域,，因為前者幾乎沒有任何開放的資料或開源模型可供參考。

頂著這些壓力,，昆侖萬維做了無數(shù)次研發(fā)實驗,，投入了大量算力，構建了包含 2000 萬首歌曲的數(shù)據集（人類有史以來最大的音樂數(shù)據集）,，終于探索出了一個效果好,、可復現(xiàn)的方案。而且,，他們還把這個方案的技術原理圖公開了,。

^{天工 SkyMusic 技術原理圖：Large-scale Transformer 負責譜曲,，來學習 Music Patches 的上下文依賴關系，同時完成音樂可控性,；Diffusion Transformer 負責演唱,，通過 LDM 讓 Music Patches 被還原成高質量音頻。這套模型架構在處理視頻,、音頻和音樂時效果極佳,。}

從圖中可以看出，天工 SkyMusic 的框架是類 Sora 的 DiT 技術路徑,，不過研發(fā)時間是在 Sora 問世之前,，因此不可避免地要踩很多坑。

對于產業(yè)來說,，這張原理圖非常寶貴,，因為市面上沒有任何可用的 AI 音樂大模型企業(yè)公開自己的技術路徑，包括 SUNO,，昆侖萬維是唯一一個,。

強大的背后基座 —— 天工 3.0

天工 SkyMusic 的成功離不開它背后的基座模型 —— 天工 3.0。它最核心的升級體現(xiàn)在「獨立思考」方面,。這在該模型新增的多輪搜索與綜合工具調用,、圖表繪制、研究模式,、增強模式等功能中均有所體現(xiàn),。

給定一個數(shù)據統(tǒng)計任務，它不僅能夠幫你把數(shù)據都收集齊全,，還能自己寫代碼,、調用各種函數(shù)來繪制圖表。各個中間步驟被拆解得條理清晰,，后續(xù)的執(zhí)行也基本不需要人去干預,，甚至連「避免標簽重疊」、「文本居中顯示」這類細節(jié)都被考慮到了,。這就是「獨立思考」能力的體現(xiàn),。

這種「獨立思考」能力的提升離不開「天工 3.0」在語義理解,、邏輯推理等方面的優(yōu)化。與上一代「天工 2.0」MoE 大模型相比,，「天工 3.0」在模型語義理解,、邏輯推理以及通用性、泛化性,、不確定性知識,、學習能力等領域擁有驚人的性能提升，其模型技術知識能力提升超過 20%,，數(shù)學 / 推理 / 代碼 / 文創(chuàng)能力提升超過 30%,。

以搜索任務為例。在「搜索增強」模式中,，給出一個簡單的搜索請求,，「天工 3.0」不僅會給出一段概括性的回答，還會把一些重要信息提煉成圖表,。

在「研究」模式中,，它還會提供一個「深入研究」模塊，去展開討論搜索 Query 中未提到的延伸問題,，讓你有一種在讀論文的感覺,。最后，它還把這些信息整理成了思維導圖,，方便迅速查閱。

在語義理解,、邏輯推理能力均大幅提升的基礎上,，「天工 3.0」還針對模型獨立規(guī)劃,、調用、組合外部工具及信息的能力進行了專項訓練,。通過獨立規(guī)劃以及調用,、組合外部工具及信息，它可以幫你精準高效地完成產業(yè)研究,、產品橫評,、信息分析等各類復雜需求。

這種獨立思考的能力對于人工智能大模型至關重要,。首先,，這種能力使得 AI 能夠在缺乏直接指令的情況下進行自主推理，提高其處理復雜問題的能力,；其次,，獨立思考的 AI 模型能夠進行創(chuàng)新性的解決方案設計，滿足個性化和場景化的需求,；最后,，這種能力促使 AI 在遇到新奇或變化的環(huán)境時，通過自我學習和適應來持續(xù)優(yōu)化其性能,。這三個方面的累積作用,，極大地推動了 AI 技術的應用廣度和深度，使其在多種實際應用中表現(xiàn)出更高的智能和效率,。

「天工 3.0」包含了 AI 音樂,、AI 搜索、AI 寫作,、AI 繪畫等多項大模型能力,，談到 4000 億參數(shù) MoE 大模型「天工 3.0」與天工 SkyMusic 背后的關系時，昆侖萬維董事長兼 CEO 方漢解釋說,，「大家知道 AI 底座大模型是 AIGC 堅實的基礎,，尤其是文本大模型。文生圖,、文生音樂和文生視頻（這些 AIGC 模型）的能力基礎都是文本大模型,。如果文本模型能力不夠強，AIGC 能力就會受到很大限制,?！?/p>

這種作用在「天工 3.0」的 AI 繪畫等能力上也有所體現(xiàn)?！柑旃?3.0」新增了圖片尺寸擴展,、圖片定向調整、墊圖生圖、墊圖進化,、墊圖擴圖等全新功能,，實測效果優(yōu)秀。

「我們的 4000 億大模型是給我們所有的面向 C 端的產品提供支撐的底座大模型,。我的底座大模型做得越好,，我的音樂、游戲,、視頻以及動漫產品就會做得更好,。所以我們做底座大模型是有非常強的動力的?！狗綕h說到,。

實現(xiàn)通用人工智能，

讓每個人更好地塑造和表達自我

在關于 AGI 的愿景中,，我們經常聽一些AI企業(yè)高管提到,，他們想要用 AI 工具來提高人類社會的生產力和效率。因此,，他們大多專注于模型智力的擴展和增強,。但在方漢看來，這其中忽略了一個重要問題,，即如何用 AI 幫助人們更好地理解和表達情感,。

在天工 SkyMusic 的音樂作品區(qū)，我們看到了很多這樣的例子：學生即將畢業(yè)的離愁,、青年愛而不得的神傷,、中年人養(yǎng)家糊口的疲憊都通過歌聲表達了出來。這是真正的「以歌明志」,。

而對于方言的支持則更像一種文化平權,，這是方漢非常看重的一點,。未來,，他們希望把更多語種加進去，讓每一個小語種人群都可以輕松創(chuàng)作出屬于自己的文化內容,。

「在 AIGC 領域,，我們宏偉的目標是希望全世界每一個人都能平等地去創(chuàng)作內容。我們想要降低所有人的創(chuàng)作門檻,，讓大家都能更好地塑造和表達自我,。」方漢表示,。

最近,，這些內容還被寫入了昆侖萬維的最新使命中。

其實,，這種做法在商業(yè)上也是有意義的,?！敢坏┤巳硕伎梢詣?chuàng)作音樂之后，我相信任何一個公共場所，比如說每個餐廳,、每個酒吧都可以創(chuàng)作出屬于自己的背景音樂，來滿足自己的業(yè)務需要,?！狗綕h解釋說,。

隨著未來持續(xù)的優(yōu)化完善，天工 SkyMusic 會逐漸演變成一個專業(yè)且易用的全民音樂創(chuàng)作平臺,。

當然,，昆侖萬維的發(fā)力方向不只是音樂。以「天工 3.0」為基礎,，他們已經形成了六大 AI 業(yè)務矩陣,。未來，這些矩陣將組成一個 AI UGC 平臺,。

這個平臺不僅能夠幫助普通人表達自我,，還能幫助那些想用 AI 創(chuàng)作內容的創(chuàng)作者完成 IP 創(chuàng)作的全閉環(huán)。這個閉環(huán)以「好的故事（IP）」為核心,，跨越文本,、漫畫、音樂和視頻等多種形式,，消費者的內容消費也都在這一個平臺上完成,，這是昆侖萬維構建的商業(yè)邏輯。

「我們的本質是讓更多人參加到創(chuàng)作者隊伍里面去,。前提是你要會講一個好的故事,。如果你能夠創(chuàng)作一個好的 IP，那么就能創(chuàng)作內容,?？梢灶A見到的是，所有內容行業(yè)都將被重做一遍,。創(chuàng)作者人數(shù)將以百倍擴充,，能夠消費的內容也是以百倍擴充。人類將進入一個新時代,，這也是我們提出『All in AGI 與 AIGC』戰(zhàn)略的邏輯,。」方漢說到,。

這個時代將被塑造成什么樣子,？我們拭目以待。

轉載請注明來自浙江中液機械設備有限公司 ,，本文標題：《首個國產音樂SOTA模型來了,！專為中文優(yōu)化,，免費用，不限曲風》

xiaxunyi 408篇文章站點微博

每一天，每一秒,，你所做的決定都會改變你的人生,！

2025正版資料免費大全_揭秘,警惕虛假宣傳-浙江中液機械設備有限公司
2025新年澳門天天彩免費大全_揭秘,警惕虛假宣傳-浙江中液機械設備有限公司
澳門天天彩期期精準_揭秘,警惕虛假宣傳-浙江中液機械設備有限公司
最準一碼一肖100%鳳凰網_揭秘,警惕虛假宣傳-浙江中液機械設備有限公司
澳門管家婆100中_揭秘,警惕虛假宣傳-浙江中液機械設備有限公司
2025新澳門精準免費大全2025_揭秘,警惕虛假宣傳-浙江中液機械設備有限公司
2025新澳今晚資料大全_揭秘,警惕虛假宣傳-浙江中液機械設備有限公司
2025澳門正版免費資料_揭秘,警惕虛假宣傳-浙江中液機械設備有限公司

發(fā)表評論取消回復

評論列表（暫無評論，116人圍觀）參與討論

super_admin管理員

最新文章

文章歸檔

網站收藏

首個國產音樂SOTA模型來了！專為中文優(yōu)化,，免費用,，不限曲風

發(fā)表評論取消回復

還沒有評論,，來說兩句吧...

最近發(fā)表

友情鏈接

文章目錄

? 2025年4月 ?
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

super_admin管理員

最新文章

文章歸檔

網站收藏

首個國產音樂SOTA模型來了！專為中文優(yōu)化,，免費用,，不限曲風

青港火災最新消息，全面解析事故原因及救援進展,，青港火災最新動態(tài),，事故原因解析與救援進展全面報告

佛山保潔招聘最新信息網,，全面解析與求職指南,，佛山保潔招聘最新信息及求職指南

北侖爛尾樓出租最新動態(tài)，房源信息一覽及投資建議,，北侖爛尾樓出租行情速遞,，房源詳情與投資攻略揭秘

釘釘消息只顯示最新的,，高效管理團隊溝通的秘訣,，釘釘消息高效管理，一鍵掌握最新動態(tài),，優(yōu)化團隊溝通

最新行情軟件大盤點,，帶你洞悉市場趨勢，最新行情軟件大盤點,，洞悉市場趨勢的必備工具

謝崗安培科最新招聘,，職業(yè)發(fā)展的理想選擇，謝崗安培科最新招聘,，職業(yè)發(fā)展的理想選擇門戶

王者基多拉最新消息，王者基多拉全新動態(tài)曝光,，神秘更新即將到來

三塘監(jiān)理招聘最新信息,，行業(yè)內的職業(yè)發(fā)展機遇與人才需求，三塘監(jiān)理招聘最新動態(tài),，行業(yè)職業(yè)發(fā)展機遇與人才需求解析

2025正版資料免費大全_揭秘,警惕虛假宣傳-浙江中液機械設備有限公司

2025新年澳門天天彩免費大全_揭秘,警惕虛假宣傳-浙江中液機械設備有限公司

澳門天天彩期期精準_揭秘,警惕虛假宣傳-浙江中液機械設備有限公司

最準一碼一肖100%鳳凰網_揭秘,警惕虛假宣傳-浙江中液機械設備有限公司

澳門管家婆100中_揭秘,警惕虛假宣傳-浙江中液機械設備有限公司

2025新澳門精準免費大全2025_揭秘,警惕虛假宣傳-浙江中液機械設備有限公司

2025新澳今晚資料大全_揭秘,警惕虛假宣傳-浙江中液機械設備有限公司

2025澳門正版免費資料_揭秘,警惕虛假宣傳-浙江中液機械設備有限公司

發(fā)表評論取消回復

還沒有評論,，來說兩句吧...

最近發(fā)表

友情鏈接

文章目錄