Google AI全家桶,打響大模型反擊戰(zhàn)
共 4482字,需瀏覽 9分鐘
·
2024-05-21 07:52
谷歌舉辦 2024 年 I/O 開發(fā)者大會,AI 成為絕對主角。在 2 小時主題演講中,AI 被提及了 121 次,涉及多款基礎大模型更新亮相、AI Agent 與多模態(tài)生成式 AI 發(fā)布、Gemini 入局谷歌全產(chǎn)品線以及新一代硬件展出等事項。
1. 谷歌進入 Gemini 時代,多款新模型更新亮相
在 2023 年谷歌 I/O 大會上,谷歌首次分享了 Gemini 計劃:一開始就構建原生多模態(tài)模型,能夠跨文本、圖像、視頻、代碼等多種數(shù)據(jù)類型進行推理。自此,谷歌在 2023 年 12 月發(fā)布 Gemini 1.0,今年 2 月升級的 Gemini 1.5 Pro 上下文長度可達 100 萬 tokens,4 月在模型中加入音頻理解、系統(tǒng)指令、JSON 模型等功能。此外,在開源的道路上,谷歌今年 2 月份推出 2B、7B 輕量級開源模型Gemma,該模型采用與創(chuàng)建 Gemini 模型相同的研究和技術構建,并在 4 月份推出了 Gemma 的變體模型 CodeGemma 和 RecurrentGemma。
今年 I/O 大會上,谷歌 AI 大模型已完成升級迭代,Gemini 與 Gemma 性能進一步提升,逐步進入 Gemini 時代。具體而言,谷歌更新了 Gemini 1.5 Pro 的長文本能力,并引入了新的 1.5Flash 輕量版型號,與此同時,Gemma 也升級至第二代并引入新的變體模型 PaliGemma。
1)Gemini 1.5 Pro 進階版,實現(xiàn) 200 萬 tokens 上下文,具備更強大的推理與理解能力。下個月 Gemini 1.5 Pro 還將在 API 層面推出新功能,包括視頻輸入、并行函數(shù)調用和文本緩存,以提高處理多個請求和問答文件時的效率。
2)Gemini 1.5 Flash 是為了滿足用戶對低延遲和低成本的需求而產(chǎn)生的輕量化模型。1.5 Flash 為 Gemini 家族的新成員,也是 API 中速度最快的 Gemini 模型。它針對大規(guī)模、大批量、高頻的任務進行了優(yōu)化,服務更具有成本效益,且依舊具有多模態(tài)推理能力和突破的上下文窗口。
3)開源大模型 Gemma 升級至第二代,參數(shù)從第一代 2B、7B 的提升至 27B,預計今年 6 月份發(fā)布。Gemma 2 采用全新架構,旨在實現(xiàn)突破性的性能和效率,它的性能優(yōu)于一些尺寸超過其兩倍的模型,并且可以在 GPU 或 Vertex AI 中的單個 TPU 主機上高效運行。此外,Gemma 推出第一個視覺語言開源模型PaliGemma,并針對圖像字幕、視覺問答和其他圖像標記任務進行了優(yōu)化。
4)此外,Gemini 家族中的 Nano 版本正在從純文本輸入擴展至圖像,未來將具有多模態(tài)能力。從 Pixel 開始,使用具有多模態(tài)功能的 Gemini Nano 的應用程序將能夠像人們一樣理解世界——它可以處理文本、圖像、音頻和語音,在保證存儲在設備上的信息私密性的同時解鎖新的體驗。
2. Astra 對標 GPT-4o,圖像、音樂、視頻多模態(tài)模型發(fā)布
在谷歌發(fā)布會的前一日,OpenAI 發(fā)布最新的旗艦型號大模型 GPT-4o,不僅提供與 GPT-4 同等的模型能力,推理速度還更快,還能提供同時理解文本、圖像、音頻等內(nèi)容的多模態(tài)能力。其中,GPT-4o 最大的亮點是可以實現(xiàn)即時語音對話以及具備先進的視覺和音頻理解能力,能夠智能感知語氣與語態(tài)。
谷歌推出 AI Agent 項目 Astra 模型,具備類似 GPT-4o 的能力,可以實現(xiàn)跨文本、音頻、視頻多模態(tài)實時推理。Astra 和 GPT-4o 的使用效果類似,用戶可以通過它和 AI 實時對話,以及視頻聊天。在發(fā)布會上,工作人員在演示視頻中將手機鏡頭對準身邊的物品,并向 Project Astra 提出一些疑問,它幾乎能做到零延時地準確回答。
AI Agent 具有廣泛用途,具體來看:1)健康管理與醫(yī)療咨詢:AI 健康代理助手可以通過分析用戶輸入的癥狀、健康記錄和生活習慣,提供個性化的健康建議和早期疾病預警;2)客戶服務自動化:AI 代理可以集成在客服系統(tǒng)中,提供7*24 小時無間斷服務。能夠理解和回應用戶查詢,提供賬戶信息、解決常見問題、處理交易等;3)個性化學習輔導:AI 學習代理可以根據(jù)學生的學習進度、興趣和難點定制個性化學習計劃。
1、面向辦公自動化領域的 AI Agent 建設思考與分享 2、AI Agent 在企業(yè)經(jīng)營分析場景的落地 3、LLM和Multi-Agent在運維領域的實驗探索
3. Gemini 賦能谷歌全產(chǎn)品線,打造 AI 生產(chǎn)力工具集合
目前,已有超過 150 萬個開發(fā)者正在使用谷歌各種工具 Gemini 模型,利用它調試代碼、獲取新的見解并打造下一代 AI 應用。谷歌力圖每個人都能從 Gemini的功能中受益,不斷將其突破性功能以強大的方式整合至自身產(chǎn)品體系中,其中包括搜索、Photos、Workspace 和安卓等產(chǎn)品中。
1)搜索:谷歌將 Gemini 融入搜索引擎,將支持多輪推理、規(guī)劃能力以及對視頻提問。具體來看,有如下亮點:a)AI 概述:用戶可以通過在搜索結果的頂部,獲取由 AI 大模型生成的摘要,以此簡化整個搜索過程,讓復雜問題的檢索過程,變得簡單;b)多步推理:對于復雜問題的搜索,可將其拆分為一個個小問題,然后自動對問題排序回答;3)擬定計劃:在多步推理加持下,AI 概述可為用戶提供計劃的方案;d)視頻提問:通過視頻對話進行搜索并逐步獲取答案。
2)Photos:推出了新功能——Ask Photos,可以一鍵從圖庫中幫用戶找到想要的照片和視頻。該功能將于今年夏天推出。
3)Workspace:提供的一套生產(chǎn)力和協(xié)作工具中,包括谷歌郵箱、谷歌 Docs、谷歌 Calendar 等,使得在這些工具間進行跨應用工作變得更加容易。例如,谷歌郵箱可自動分析郵件以及附件,識別整理好收據(jù),然后一鍵在 Drive 和 Sheets中處理。
4. AI 時代的基礎設施,新一代 TPU 性能最強能效最高
谷歌為 AI 大模型定制基礎設施 TPU,支撐 Gemini 及其他模型訓練與服務需求。據(jù)谷歌黑板報微信公眾號,訓練最先進的模型需要大量的計算能力。過去六年中,行業(yè)對機器學習計算能力的需求增長了 100 萬倍,而且每年都會以十倍的速度增長。谷歌25年以來致力于投資技術基礎設施,為AI進步提供定制的TPU。
Gemini 完全是在谷歌第四代和第五代 TPU 上進行訓練和服務,谷歌 TPU 還支持如 Anthropic 在內(nèi)的其他領先的 AI 公司訓練他們的大模型。
發(fā)布會上,谷歌推出第六代 TPU Trillium,在性能和能效上較上一代均有顯著提升。據(jù)量子位微信公眾號,與 TPU v5e 相比,Trillium 的峰值計算性能提高4.7 倍,HBM 和帶寬增加了 1 倍,芯片間互聯(lián)(ICI)帶寬也增加了 1 倍。另外,Trillium 的能效比 TPU v5e 高出了 67%以上,主要系公司采取先進的液冷技術。關于推出時間,谷歌計劃今年年底向 Cloud 用戶提供 Trillium。
除了 TPU,谷歌還推出了 CPU 和 GPU 來支持任何工作負載。CPU 方面,谷歌上個月宣布首款基于 Arm 定制的 CPU——Axion 處理器,可提供業(yè)界領先的性能和能效;GPU 方面,谷歌成為首批提供 Nvidia 尖端 Blackwell GPU 的 Cloud提供商之一,該 GPU 將于 2025 年初上市。
本號資料全部上傳至知識星球,更多內(nèi)容請登錄智能計算芯知識(知識星球)星球下載全部資料。
免責申明:本號聚焦相關技術分享,內(nèi)容觀點不代表本號立場,可追溯內(nèi)容均注明來源,發(fā)布文章若存在版權等問題,請留言聯(lián)系刪除,謝謝。
溫馨提示:
請搜索“AI_Architect”或“掃碼”關注公眾號實時掌握深度技術分享,點擊“閱讀原文”獲取更多原創(chuàng)技術干貨。
