1. 科技春晚!OpenAI發(fā)布GPT-4o,完全免費,真人語氣對話,響應僅需320毫秒

        共 2756字,需瀏覽 6分鐘

         ·

        2024-05-14 18:32

        5月14日凌晨,OpenAI在其官方網(wǎng)站上正式推出了其最新旗艦模型GPT-4o,該模型能夠在視頻、音頻和文本之間進行實時推理,這無疑在全球生成式AI領(lǐng)域中標志著一個歷史性的時刻。

        OpenAI利用GPT-4o打造的語音版ChatGPT助手,能夠與用戶在音頻和視頻中進行實時交互。例如,GPT-4o可以進行實時翻譯、歌唱、解答數(shù)學題目、講述笑話等。簡單地說,未來的家庭教師、翻譯員、秘書等職業(yè)可能會面臨巨大的挑戰(zhàn)。
        2013年,曾獲奧斯卡最佳原創(chuàng)劇本獎的電影《Her》向我們展示了一段人與AI的深情“戀愛”,其中Her的無所不能展示了AI的強大力量和可能帶來的恐怖。
        然而,僅僅11年后,GPT-4o就將這部電影的情節(jié)變?yōu)榱爽F(xiàn)實,每個人都有可能擁有一個自己的Her。


        當各家科技公司還在追趕大模型多模態(tài)能力,把總結(jié)文本、P 圖等功能放進手機里的時候,遙遙領(lǐng)先的 OpenAI 直接開了大招,發(fā)布的產(chǎn)品連自家 CEO 奧特曼都驚嘆:就像電影里一樣。

        11年后,GPT-4o將這部電影變成了現(xiàn)實,人人都可以擁有一個Her。

        ChatGPT 的這次更新以后,大模型可以接收文本、音頻和圖像的任意組合作為輸入,并實時生成文本、音頻和圖像的任意組合輸出 —— 這才是屬于未來的交互方式。

        GPT-4o功能展示


        OpenAI已經(jīng)對GPT-4o的功能進行了大量的演示,我們在此挑選幾個具有代表性的例子。比如,通過手機與GPT-4o進行視頻交流,讓其解讀你的想法。
        首先,OpenAI的一名員工使用手機拍攝了周圍的環(huán)境,GPT-4o很快就給出了對周圍環(huán)境的詳細描述。緊接著,當員工讓GPT-4o猜測他今天的計劃時,GPT-4o推測可能會涉及到OpenAI的相關(guān)工作,比如舉行一個新產(chǎn)品發(fā)布會等。

        當員工說出這個發(fā)布會與“你”有關(guān)時,它的回答有點讓人覺得恐怖,居然會像人一樣表現(xiàn)出驚訝和停頓,這是以往任何語音助手都不具備的技術(shù)特征。

        OpenAI總裁兼聯(lián)合創(chuàng)始人Greg Brockman讓兩個GPT-4o語音助手互相對話并唱歌。

        一位父親希望GPT-4o能夠幫助他的兒子解答一道復雜的數(shù)學題。GPT-4o并沒有像之前的ChatGPT那樣直接給出所有答案,而是像一位家庭教師一樣,逐步引導他,告訴他應該如何去解答這道題。

        看到這里時也為那些輔導老師捏了一把汗,估計在進化幾次連家教的飯碗也不保了。

        和GPT-4o相處久了,應該向它介紹點朋友吧。這不OpenAI展示了GPT-4o社牛的一面,直接解讀了一條寵物狗。

        當你需要與法國人、塞爾維亞人或匈牙利人交談時,怎么辦?傳統(tǒng)的翻譯軟件可能太慢,不適合實時交流。但現(xiàn)在,通過GPT-4o,你可以實現(xiàn)實時翻譯。當你說完一句話時,GPT-4o已經(jīng)幫你翻譯好了,并且是以語音的形式輸出。這無疑大大提升了跨語言交流的效率。

        此外,GPT-4o 在理解和生成圖像方面的能力比任何現(xiàn)有模型都要好得多,此前很多不可能的任務都變得「易如反掌」。

        比如,你可以讓它幫忙把 OpenAI 的 logo 印到杯墊上:

        經(jīng)過這段時間的技術(shù)攻關(guān),OpenAI 應該已經(jīng)完美解決了 ChatGPT 生成字體的問題。

        同時,GPT-4o 還擁有 3D 視覺內(nèi)容生成的能力,能夠從 6 個生成的圖像進行 3D 重建:

        這是一首詩,GPT-4o 可以將其排版為手寫樣式:

        更復雜的排版樣式也能搞定:

        與 GPT-4o 合作,你只需要輸入幾段文字,就能得到一組連續(xù)的漫畫分鏡:

        與 GPT-4o 合作,你只需要輸入幾段文字,就能得到一組連續(xù)的漫畫分鏡:


        而下面這些玩法,應該會讓很多設計師有點驚訝:


        這是一張由兩張生活照演變而來的風格化海報:


        還有一些小眾的功能,比如「文本轉(zhuǎn)藝術(shù)字」:


        怎么樣,看完這幾個案例對GPT-4o有何感受,是不是和電影中的Her幾乎差不多了?

        GPT-4o測試數(shù)據(jù)

        GPT-4o是一個多模態(tài)模型,可以在一個神經(jīng)網(wǎng)絡中輸入和輸出文本、視頻、音頻3種數(shù)據(jù)格式。

        根據(jù)OpenAI給出的官網(wǎng)評測顯示,GPT-4o的語音響應可以短至232毫秒,平均響應為320 毫秒。GPT-4o的英語文本和代碼能力和 GPT-4 Turbo 的性能差不多。

        GPT-4o在MMLU的評測中創(chuàng)下了88.7% 的新高分,超過了Claude 3 Opus、Gemini Pro 1.5、Gemini Ultra 1.0等目前市面上著名大模型。

        GPT-4o的音頻ASR性能比 Whisper-v3 顯著提高了對所有語言的語音識別能力,特別是對于那些非常稀少的小語種,并且音頻的翻譯能力超過了谷歌的Gemini。

        推理提升:GPT-4o 在 5-shot  MMLU(常識問題)上創(chuàng)下了 87.2% 的新高分。(注:Llama3 400b 還在訓練中)


        音頻 ASR 性能:GPT-4o 相比 Whisper-v3 顯著提高了所有語言的語音識別性能,特別是對于資源匱乏的語言。


        GPT-4o 在語音翻譯方面取得了新的 SOTA 水平,并且在 MLS 基準測試中優(yōu)于 Whisper-v3。


        M3Exam 基準測試既是多語言評估基準也是視覺評估基準,由來自多個國家 / 地區(qū)的標準化測試多項選擇題組成,并包括圖形、圖表。在所有語言基準測試中,GPT-4o 都比 GPT-4 更強。

        未來,模型能力的提升將實現(xiàn)更自然、實時的語音對話,并能夠通過實時視頻與 ChatGPT 進行對話。例如,用戶可以向 ChatGPT 展示一場現(xiàn)場體育比賽,并要求它解釋規(guī)則。

        目前,GPT-4o的文本和圖像功能已經(jīng)在ChatGPT中開放使用,GPT-4o API已支持國內(nèi)網(wǎng)絡直接使用。

        本文素材來源OpenAI官網(wǎng)

        瀏覽 83
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
          
          

            1. 美日韩操逼是频大全 | 男人和女人日b视频 | 欧美成在线观看 | 在线观看操逼视频 | 探花熟女视频 |