AI
AI-GitHub,分享GitHub上有趣,、實(shí)用的AI開(kāi)源項(xiàng)目,。
小編為大家梳理了本周最受大家歡迎的GitHub項(xiàng)目。
有生成視頻,、圖像,、音樂(lè)AI黑科技;有解放打工人的各種AI工具,,還有各種圖片處理的新技術(shù),,真是讓人目不暇接,一起來(lái)看看吧~
一,、創(chuàng)意生成系列
1,、真人視頻秒變動(dòng)漫臉!VToonify打破次元壁,!
上傳一個(gè)自拍視頻,,再選一個(gè)風(fēng)格畫(huà)的類型,就可以生成一個(gè)卡通化的人臉視頻。VToonify這個(gè)開(kāi)源項(xiàng)目目前已有多達(dá)數(shù)十種肖像風(fēng)格,,并且支持高分辨率,,是很多人喜歡的玩法。
該項(xiàng)目在風(fēng)格控制的靈活性,、生成視頻的質(zhì)量,、時(shí)間上的連貫性等方面都有著出色的表現(xiàn)。
體驗(yàn)地址:https://huggingface.co/spaces/PKUWilliamYang/VToonify?
開(kāi)源地址:https://github.com/williamyang1991/VToonify?
項(xiàng)目主頁(yè):https://www.mmlab-ntu.com/project/vtoonify
2,、Animate Anyone——讓照片起舞,!
Animate Anyone是阿里巴巴旗下研究院發(fā)布的動(dòng)畫(huà)制作AI軟件。
Animate Anyone能夠自動(dòng)生成角色,、場(chǎng)景,、動(dòng)作等動(dòng)畫(huà)元素,并將其組合成完整的動(dòng)畫(huà)作品,,用戶只需提供一些簡(jiǎn)單的參數(shù)即可,。這大大降低了動(dòng)畫(huà)制作的難度,讓動(dòng)畫(huà)制作變得更加簡(jiǎn)單,。
體驗(yàn)地址:https://humanaigc.github.io/animate-anyone/
github地址:https://github.com/HumanAIGC/AnimateAnyone
3,、擴(kuò)展文生圖模型生成動(dòng)畫(huà)的框架-AnimateDiff
AnimateDiff是由上海人工智能實(shí)驗(yàn)室、香港中文大學(xué)和斯坦福大學(xué)的研究人員推出的一款將個(gè)性化的文本到圖像模型擴(kuò)展為動(dòng)畫(huà)生成器的框架,,其核心在于它能夠利用從大規(guī)模視頻數(shù)據(jù)集中學(xué)習(xí)到的運(yùn)動(dòng)先驗(yàn)知識(shí),,可以作為 Stable Diffusion 文生圖模型的插件,允許用戶將靜態(tài)圖像轉(zhuǎn)換為動(dòng)態(tài)動(dòng)畫(huà),。該框架的目的是簡(jiǎn)化動(dòng)畫(huà)生成的過(guò)程,,使得用戶能夠通過(guò)文本描述來(lái)控制動(dòng)畫(huà)的內(nèi)容和風(fēng)格,而無(wú)需進(jìn)行特定的模型調(diào)優(yōu),。
體驗(yàn)地址:https://huggingface.co/spaces/guoyww/AnimateDiff?
開(kāi)源地址:https://github.com/guoyww/animatediff?
項(xiàng)目主頁(yè):https://animatediff.github.io
4,、AI Comic Factory——實(shí)現(xiàn)創(chuàng)作夢(mèng)想,小白也能成為漫畫(huà)大師,!
AI Comic Factory是一個(gè)基于Hugging Face平臺(tái)的免費(fèi)開(kāi)源在線AI漫畫(huà)生成工具,,使用LLM和SDXL開(kāi)發(fā)。
用戶只需輸入文字描述提示詞,,AI就能生成精美的漫畫(huà)作品,,包括角色和細(xì)膩的表情。它支持用戶設(shè)計(jì)漫畫(huà)書(shū)的頁(yè)面,,并提供了多種風(fēng)格選擇,。讓每個(gè)人都可以輕松創(chuàng)作出獨(dú)一無(wú)二的漫畫(huà)風(fēng)格照片。
如果你夢(mèng)想成為一名漫畫(huà)家,,卻缺乏繪畫(huà)能力?,F(xiàn)在,人工智能將為你輕松實(shí)現(xiàn)夢(mèng)想!
項(xiàng)目地址:https://huggingface.co/spaces/jbilcke-hf/ai-comic-factory
5,、 PixArt-Sigma——支持4K圖像生成!華為將DiT構(gòu)架引入開(kāi)源繪畫(huà),!
華為近日發(fā)布了一項(xiàng)名為 PixArt-Sigma 的圖像生成模型,,該模型采用了 DiT 架構(gòu),可以直接生成4K 分辨率的圖像,。
相比于其前身 PixArt-alpha,,PixArt-Sigma 的進(jìn)步主要體現(xiàn)在兩個(gè)方面:高質(zhì)量的訓(xùn)練數(shù)據(jù)和高效的 Token 壓縮。PixArt-Sigma 結(jié)合了更高質(zhì)量的圖像數(shù)據(jù),,配對(duì)更精確和詳細(xì)的圖像標(biāo)題,,同時(shí)在 DiT 框架內(nèi)提出了一個(gè)新的注意力模塊,可以壓縮鍵(Key)和值(Value),,顯著提高效率,,促進(jìn)超高分辨率圖像的生成。
PixArt-Sigma 生成 4K 圖像的能力支持創(chuàng)建高分辨率海報(bào)和壁紙,有效地增強(qiáng)了電影和游戲等行業(yè)中高質(zhì)量視覺(jué)內(nèi)容的制作,。
項(xiàng)目地址:https://pixart-alpha.github.io/PixArt-sigma-project/
論文地址:https://arxiv.org/pdf/2403.04692.pdf
6,、StickerBaker——一鍵百變貼紙!
StickerBaker 是一個(gè)開(kāi)源的AI貼紙制作工具,,利用人工智能技術(shù)來(lái)制作各種有趣的貼紙,。用戶只要輸入簡(jiǎn)單的文字提示,馬上可以生成一個(gè)精美的貼紙,,甚至可以批量生產(chǎn),。這個(gè)工具易于使用,適合那些希望在虛擬世界中創(chuàng)造和分享獨(dú)特圖像的用戶,。
體驗(yàn)地址1:https://stickerbaker.com?
體驗(yàn)地址2:https://replicate.com/fofr/sticker-maker?
開(kāi)源地址:https://github.com/cbh123/stickerbaker
7,、bark——開(kāi)源的文字轉(zhuǎn)語(yǔ)音的AI項(xiàng)目!
bark模型來(lái)自一家專門(mén)從事音頻人工智能研發(fā)的公司suno,,它能夠生成高度逼真的多語(yǔ)言語(yǔ)音以及其他音頻,,包括音樂(lè)、背景噪音和簡(jiǎn)單的音效。此外,,該模型還可以產(chǎn)生非語(yǔ)言交流,,例如笑聲、嘆息和哭泣等,,效果接近真人的表現(xiàn)。自推出以來(lái)備受關(guān)注,,目前已經(jīng)在GitHub上獲得了超過(guò)2.5萬(wàn)贊,。盡管試用過(guò)程中可能會(huì)有一些金屬音的問(wèn)題,但相對(duì)于其他音頻模型而言,其效果有了顯著提升,。
開(kāi)源地址:https://github.com/suno-ai/bark
8,、AutoPiano——在線開(kāi)音樂(lè)盲盒!鍵盤(pán)也能玩轉(zhuǎn)幾十種樂(lè)器,!
用電腦來(lái)彈鋼琴,,已經(jīng)不是新鮮事物了,但這個(gè)項(xiàng)目憑借新奇的技術(shù)和優(yōu)秀的體驗(yàn)殺出了,。
自由鋼琴(AutoPiano)是利用HTML5技術(shù)開(kāi)發(fā)的在線鋼琴應(yīng)用,,致力于為鋼琴愛(ài)好者、音樂(lè)愛(ài)好者提供一個(gè)優(yōu)雅,、簡(jiǎn)潔的平臺(tái),。高音立式鋼琴、原音鋼琴,、大鋼琴,、八音盒、木琴,、口琴,,各種音色靜待你的選擇。
可以自由發(fā)揮,,創(chuàng)作樂(lè)譜,;可以通過(guò)教學(xué)功能,根據(jù)曲譜來(lái)演奏,;即便不懂樂(lè)理知識(shí),,輸入文字亂彈也能發(fā)現(xiàn)盲盒驚喜。
項(xiàng)目地址:https://github.com/AutoPiano/AutoPiano
體驗(yàn)網(wǎng)址:http://www.autopiano.cn/
二,、實(shí)用工具系列
1,、Outfit Anyone——電商網(wǎng)購(gòu)好助手!
Outfit Anyone只需要一張人物照片和服裝照片,,就可以為不同的姿勢(shì)和身體形狀創(chuàng)建高質(zhì)量的虛擬試穿,。
這個(gè)模型可以自動(dòng)識(shí)別服裝和人物的特征,如形狀,、紋理,、顏色、光照等,,并且可以根據(jù)人物的姿勢(shì)和背景,,合理地調(diào)整服裝的位置和大小,使之與人物的身體完美地貼合,。
可以應(yīng)用的場(chǎng)景包括在線購(gòu)物,、社交媒體,、游戲、電影等,。
體驗(yàn)地址:https://humanaigc.github.io/outfit-anyone/
體驗(yàn)地址:https://huggingface.co/spaces/HumanAIGC/OutfitAnyone
github地址:https://github.com/HumanAIGC/OutfitAnyone
2,、AnyDoor——一鍵換衣!取代真人模特,!
AnyDoor是一款先進(jìn)的擴(kuò)散圖像生成器,,其核心能力在于能夠?qū)⑷魏螌?duì)象,無(wú)論是人物,、動(dòng)物還是物品,無(wú)縫集成到新的圖像或視頻場(chǎng)景中,。
點(diǎn)兩下鼠標(biāo),,就能把物體無(wú)縫「?jìng)魉汀沟秸掌瑘?chǎng)景中,光線角度和透視也能自動(dòng)適應(yīng),。有了它,,網(wǎng)購(gòu)衣服也可以直接看上身效果了。
開(kāi)源地址:https://github.com/ali-vilab/AnyDoor
3,、SalesGPT——最佳AI 銷售代理,!
SalesGPT能夠與潛在客戶進(jìn)行自然對(duì)話,模擬經(jīng)驗(yàn)豐富的銷售專業(yè)人員的話術(shù),,并根據(jù)談話內(nèi)容動(dòng)態(tài)調(diào)整,,并在合適的情況下外呼真人銷售。
該存儲(chǔ)庫(kù)使用 LLM 的上下文感知 AI Agent for Sales 實(shí)現(xiàn),,可以跨語(yǔ)音,、電子郵件和短信(SMS、WhatsApp,、微信,、微博、Telegram 等)工作,。
開(kāi)源地址:https://github.com/filip-michalsky/SalesGPT?tab=readme-ov-file
4,、Moondream——一鍵識(shí)圖!可以在任何地方運(yùn)行的微型視覺(jué)語(yǔ)言模型,!
Moondream是一個(gè)免費(fèi)開(kāi)源的小型的人工智能視覺(jué)語(yǔ)言模型,,該模型具有高性能的視覺(jué)處理能力,可以根據(jù)你的提問(wèn),,識(shí)別并推測(cè)圖片,,給出答案。該模型由開(kāi)發(fā)人員vikhyatk推出,,使用SigLP,、Phi-1.5和LLaVa訓(xùn)練數(shù)據(jù)集和模型權(quán)重初始化進(jìn)行構(gòu)建,。
Moondream具有驚人的小體量,可在本地計(jì)算機(jī)甚至移動(dòng)設(shè)備或 Raspberry Pi 上運(yùn)行,。
GitHub地址:https://github.com/vikhyat/moondream
5,、NotesGPT——簡(jiǎn)單免費(fèi)的語(yǔ)音筆記工具 !
NotesGPT利用最新的AI技術(shù)為筆記記錄,、學(xué)習(xí)和創(chuàng)作提供智能支持,。它的交互簡(jiǎn)單,提供一個(gè)語(yǔ)音輸入按鈕,,幾秒內(nèi)完成語(yǔ)音記錄,、轉(zhuǎn)寫(xiě)、內(nèi)容總結(jié)和任務(wù)生成等功能,。該工具可廣泛用于創(chuàng)意寫(xiě)作,、完成句子或提供建議等。既適合學(xué)習(xí)者,,也適合于提高工作與創(chuàng)造力效率的專業(yè)人士,。
官網(wǎng)地址:https://usenotesgpt.com/
Github地址:https://github.com/Nutlope/notesGPT
三、圖片處理系列
1,、RMBG v1.4——免費(fèi)一鍵摳圖,!商業(yè)級(jí)背景去除模型!
RMBG-1.4號(hào)稱開(kāi)源界最強(qiáng)大的一鍵摳圖,、去除背景模型,。它可以有效對(duì)前景與背景進(jìn)行分離。
這個(gè)模型經(jīng)過(guò)在精心挑選的數(shù)據(jù)集上的訓(xùn)練,,包括各種庫(kù)存圖像,、電子商務(wù)、游戲和廣告內(nèi)容,,所以非常適合用于支持大規(guī)模企業(yè)內(nèi)容創(chuàng)建的用途,。該方案達(dá)到了商業(yè)級(jí)性能,但僅限于非商業(yè)用途,。
體驗(yàn)地址:https://huggingface.co/spaces/briaai/BRIA-RMBG-1.4
開(kāi)源地址:https://huggingface.co/briaai/RMBG-1.4
2,、 PULSE——馬賽克“腦補(bǔ)”算法,助你圖片模糊變高清,!
PULSE是一種超分辨率算法,,通過(guò)潛在空間探索進(jìn)行照片上采樣,以生成高分辨率和超現(xiàn)實(shí)圖像,。
該算法可以在幾秒鐘內(nèi),,把 16x16 像素的低分辨率小圖,放大 64 倍,,變成 1024 x 1024 像素的高分辨率圖像,,并且會(huì)“想象”出一些原本不存在的特征,,即使是原本 LR 照片中無(wú)法看到的細(xì)節(jié),比如毛孔,、細(xì)紋,、睫毛和胡茬等。
說(shuō)白了,,PULSE 生成的高清圖片,,是「腦補(bǔ)」出來(lái)的,與真實(shí)的人臉照片可能存在差別,。
開(kāi)源地址:https://github.com/adamian98/pulse?tab=readme-ov-file
3,、Upscayl——一鍵放大!告別圖片模糊,,馬賽克,!
Upscayl同樣是一款開(kāi)源AI圖像處理軟件,它通過(guò)使用高級(jí)的AI 模型來(lái)升級(jí)低分辨率圖像,,使得模糊的圖片即使放大也同樣清晰,軟件采用 Linux-First 理念構(gòu)建,,易于操作,,支持批處理,提供多種放大類型,,包括REAL-ESRGAN和DIGITAL ART,。可在Windows,、Mac和Linux上運(yùn)用(但需GPU支持)
開(kāi)源地址:https://github.com/upscayl/upscayl
官網(wǎng)地址:https://upscayl.org
4,、Inpaint Anything ——重繪萬(wàn)物,一鍵物體移除,、內(nèi)容填補(bǔ),、場(chǎng)景替換!
Inpaint Anything 可以在圖像,、視頻和 3D 場(chǎng)景中繪制任何東西,!
用戶可以通過(guò)單擊圖像中的任何對(duì)象來(lái)選擇它。憑借強(qiáng)大的視覺(jué)模型,,例如 SAM,、LaMa 和穩(wěn)定擴(kuò)散 (SD),Inpaint Anything 能夠平滑地去除物體(即去除任何東西),。此外,,在用戶輸入文本的提示下,Inpaint Anything 可以用任何所需的內(nèi)容填充對(duì)象(即填充任何內(nèi)容)或任意替換對(duì)象的背景(即替換任何內(nèi)容),。
Inpaint Anything揭示了「可組合人工智能」(Composable AI)的無(wú)限潛力,,更多的功能正在路上,,敬請(qǐng)期待~
體驗(yàn)地址:https://huggingface.co/spaces/InpaintAI/Inpaint-Anything
開(kāi)源地址:https://github.com/geekyutao/Inpaint-Anything
以上就是本周的熱點(diǎn)匯總了,有你感興趣的項(xiàng)目嗎,?趕快去試試吧,!
你對(duì)哪些方面感興趣呢?歡迎在評(píng)論區(qū)留言噢~
關(guān)注AI-GitHub,,獲取前沿AI資訊,。
轉(zhuǎn)載請(qǐng)注明來(lái)自浙江中液機(jī)械設(shè)備有限公司 ,本文標(biāo)題:《AI》
還沒(méi)有評(píng)論,,來(lái)說(shuō)兩句吧...