科技春晚!OpenAI發(fā)布GPT-4o,完全免費,真人語氣對話,響應僅需320毫秒
共 2756字,需瀏覽 6分鐘
·
2024-05-14 18:32
5月14日凌晨,OpenAI在其官方網(wǎng)站上正式推出了其最新旗艦模型GPT-4o,該模型能夠在視頻、音頻和文本之間進行實時推理,這無疑在全球生成式AI領(lǐng)域中標志著一個歷史性的時刻。
當各家科技公司還在追趕大模型多模態(tài)能力,把總結(jié)文本、P 圖等功能放進手機里的時候,遙遙領(lǐng)先的 OpenAI 直接開了大招,發(fā)布的產(chǎn)品連自家 CEO 奧特曼都驚嘆:就像電影里一樣。
11年后,GPT-4o將這部電影變成了現(xiàn)實,人人都可以擁有一個Her。
ChatGPT 的這次更新以后,大模型可以接收文本、音頻和圖像的任意組合作為輸入,并實時生成文本、音頻和圖像的任意組合輸出 —— 這才是屬于未來的交互方式。
GPT-4o功能展示
當員工說出這個發(fā)布會與“你”有關(guān)時,它的回答有點讓人覺得恐怖,居然會像人一樣表現(xiàn)出驚訝和停頓,這是以往任何語音助手都不具備的技術(shù)特征。
OpenAI總裁兼聯(lián)合創(chuàng)始人Greg Brockman讓兩個GPT-4o語音助手互相對話并唱歌。
一位父親希望GPT-4o能夠幫助他的兒子解答一道復雜的數(shù)學題。GPT-4o并沒有像之前的ChatGPT那樣直接給出所有答案,而是像一位家庭教師一樣,逐步引導他,告訴他應該如何去解答這道題。
看到這里時也為那些輔導老師捏了一把汗,估計在進化幾次連家教的飯碗也不保了。
和GPT-4o相處久了,應該向它介紹點朋友吧。這不OpenAI展示了GPT-4o社牛的一面,直接解讀了一條寵物狗。
當你需要與法國人、塞爾維亞人或匈牙利人交談時,怎么辦?傳統(tǒng)的翻譯軟件可能太慢,不適合實時交流。但現(xiàn)在,通過GPT-4o,你可以實現(xiàn)實時翻譯。當你說完一句話時,GPT-4o已經(jīng)幫你翻譯好了,并且是以語音的形式輸出。這無疑大大提升了跨語言交流的效率。
此外,GPT-4o 在理解和生成圖像方面的能力比任何現(xiàn)有模型都要好得多,此前很多不可能的任務都變得「易如反掌」。
比如,你可以讓它幫忙把 OpenAI 的 logo 印到杯墊上:
經(jīng)過這段時間的技術(shù)攻關(guān),OpenAI 應該已經(jīng)完美解決了 ChatGPT 生成字體的問題。
同時,GPT-4o 還擁有 3D 視覺內(nèi)容生成的能力,能夠從 6 個生成的圖像進行 3D 重建:
這是一首詩,GPT-4o 可以將其排版為手寫樣式:
更復雜的排版樣式也能搞定:
與 GPT-4o 合作,你只需要輸入幾段文字,就能得到一組連續(xù)的漫畫分鏡:
怎么樣,看完這幾個案例對GPT-4o有何感受,是不是和電影中的Her幾乎差不多了?
GPT-4o測試數(shù)據(jù)
GPT-4o是一個多模態(tài)模型,可以在一個神經(jīng)網(wǎng)絡中輸入和輸出文本、視頻、音頻3種數(shù)據(jù)格式。
根據(jù)OpenAI給出的官網(wǎng)評測顯示,GPT-4o的語音響應可以短至232毫秒,平均響應為320 毫秒。GPT-4o的英語文本和代碼能力和 GPT-4 Turbo 的性能差不多。
GPT-4o在MMLU的評測中創(chuàng)下了88.7% 的新高分,超過了Claude 3 Opus、Gemini Pro 1.5、Gemini Ultra 1.0等目前市面上著名大模型。
GPT-4o的音頻ASR性能比 Whisper-v3 顯著提高了對所有語言的語音識別能力,特別是對于那些非常稀少的小語種,并且音頻的翻譯能力超過了谷歌的Gemini。
推理提升:GPT-4o 在 5-shot MMLU(常識問題)上創(chuàng)下了 87.2% 的新高分。(注:Llama3 400b 還在訓練中)
音頻 ASR 性能:GPT-4o 相比 Whisper-v3 顯著提高了所有語言的語音識別性能,特別是對于資源匱乏的語言。
GPT-4o 在語音翻譯方面取得了新的 SOTA 水平,并且在 MLS 基準測試中優(yōu)于 Whisper-v3。
M3Exam 基準測試既是多語言評估基準也是視覺評估基準,由來自多個國家 / 地區(qū)的標準化測試多項選擇題組成,并包括圖形、圖表。在所有語言基準測試中,GPT-4o 都比 GPT-4 更強。
未來,模型能力的提升將實現(xiàn)更自然、實時的語音對話,并能夠通過實時視頻與 ChatGPT 進行對話。例如,用戶可以向 ChatGPT 展示一場現(xiàn)場體育比賽,并要求它解釋規(guī)則。
目前,GPT-4o的文本和圖像功能已經(jīng)在ChatGPT中開放使用,GPT-4o API已支持國內(nèi)網(wǎng)絡直接使用。
本文素材來源OpenAI官網(wǎng)
