在經(jīng)過上周的高層人事出走及超大型募集資金等爭議新聞后,OpenAI本周舉行開發(fā)者大會DevDay,,宣布包含GPT-4o圖片微調,、開發(fā)逼真對話功能的Realtime API等新功能,供開發(fā)人員開發(fā)結合GPT-4o,、4o mini模型的AI應用,。
DevDay上OpenAI宣布的新功能包括Realtime API、視覺微調,、提示緩存(Prompt Caching in the API)以及模型蒸餾,。其中Realtime API為beta版,,讓開發(fā)商得以將接近ChatGPT高端語音模式(Advanced Voice Mode)的對話能力集成在自己的AI助理。
Realtime API讓開發(fā)人員得以打造低延遲,、多模態(tài)的口語對話體驗,。目前支持文本、語音的輸出,、輸入,,也支持函數(shù)調用。Realtime API提供原生語音輸入,、語音輸出的生成,,無需文本轉換,意味輸出延遲更低,。此外,,其模型具有自然可操控的人聲表現(xiàn),能提供自然語調制化,,能表達和語氣一致化的笑,、低聲說話等聲音表情。
昨日OpenAI宣布正式推出視覺微調功能,。OpenAI在8月份推出GPT-4o微調服務時,,只支持上傳文本數(shù)據(jù)集微調,現(xiàn)在加入圖片支持,。這表示開發(fā)人員可以上傳圖片數(shù)據(jù)集,,以強化GPT-4o的圖像理解功能,用于開發(fā)具有高端視覺搜索應用,、自動駕駛汽車或智慧城市的對象偵測應用,,或是醫(yī)療形象分析。
OpenAI表示,,微調GPT-4o的圖像數(shù)據(jù)集不需太多,,最少只需上傳100張圖像。在公開前,,OpenAI已經(jīng)和一些伙伴合作測試,,包括東南亞最大餐食外賣及汽車共享平臺Grab、企業(yè)流程AI代理開發(fā)商Automat和網(wǎng)頁AI開發(fā)助理開發(fā)商Coframe等,。
視覺微調服務基礎模型為gpt-4o-2024-08-06,,在10月31日前提供每日100萬訓練字詞(token)免費。之后收費為每100萬字詞輸入25美元,。若想使用推論服務,,則費用為100萬字詞輸入3.75美元,100萬字詞輸出15美元,。圖片輸入會依圖片大小字詞化(tokenized)以用于計價,。
第三項則是API提示緩存服務,。許多開發(fā)人員在不同API調用會重復使用同一種操作,像是編輯codebase或設置聊天機器人多來回對話,。使用提示緩存可讓開發(fā)人員重復使用輸入字詞,,可減少50%開發(fā)成本及加速提示處理時間,降低延遲性,。
這項服務是將已運算過的提示的最長前綴字符(prefix)緩存在API中,,這功能會對1024字詞以上的提示提供緩存。只要重復使用到有共同前綴字符的,,就會自動適用折扣,,用戶不需設置。緩存的字符一般會在停用5到10分鐘內清除,,1小時內就會完全刪除,。
提示緩存服務已經(jīng)上線,提示緩存會自動適用在最新版GPT-4o,、GPT-4o mini,、OpenAI o1-mini或是這些模型的微調版本。經(jīng)過緩存的提示,,價格比未緩存的提示來得低,。例如以新的gpt-4o-2024-08-06模型為例,未緩存與緩存的費用各為2.50和1.25美元,,而經(jīng)過微調的模型則各為3.75和1.875美元,。
數(shù)據(jù)源/OpenAI
最后是模型蒸餾(model distillation)和評估,。模型蒸餾允許開發(fā)人員使用大型模型微調成較小模型的成果,使模型適用于單一任務,,有助于降低延遲性及降低成本,。使用這項功能的步驟是,先以completions API存儲(用store參數(shù))大模型的高品質成果,,再評估大小模型創(chuàng)建基準線,,之后選擇欲蒸餾的部分,用以微調小型模型,。最后,再比較大模型及微調后的小模型效果,。
轉載請注明來自浙江中液機械設備有限公司 ,,本文標題:《OpenAI公布Realtime API預覽版,、GPT-4o圖片微調等開發(fā)服務》
還沒有評論,來說兩句吧...