阿里QWen2開(kāi)源,效果炸裂?。?!
共 4319字,需瀏覽 9分鐘
·
2024-06-07 15:33
就在剛剛,阿里Qwen2系列大模型宣布!在大量基準(zhǔn)評(píng)估中獲得 SOTA 性能。代碼和數(shù)學(xué)性能顯著提高,全面超越llama3!
發(fā)布Blog: https://https://qwenlm.github.io/blog/qwen2/wen2/
文檔: https://https://qwen.readthedocs.io/en/latest/latest/
Github: https://https://github.com/QwenLM/Qwen2
modelscope: https://modelscope.cn/organization/qwenion/qwen
Huggingface: https://https://huggingface.co/Qwen
Demo: https://huggingface.co/spaces/Qwen/Qwen2-72B-Instruct
以下為QWen2的具體介紹。
簡(jiǎn)介
Qwen系列模型從Qwen1.5升級(jí)到Qwen2, Qwen 2.0 主要內(nèi)容如下:
5 個(gè)尺寸的預(yù)訓(xùn)練和指令微調(diào)模型,包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 以及 Qwen2-72B
在中文英語(yǔ)的基礎(chǔ)上,訓(xùn)練數(shù)據(jù)中增加了 27 種語(yǔ)言相關(guān)的高質(zhì)量數(shù)據(jù);
多個(gè)評(píng)測(cè)基準(zhǔn)上的領(lǐng)先表現(xiàn);
代碼和數(shù)學(xué)能力顯著提升;
增大了上下文長(zhǎng)度支持,最高達(dá)到 128K tokens(Qwen2-72B-Instruct)。
目前,已在Hugging Face和ModelScope上同步開(kāi)源。
模型基礎(chǔ)信息
Qwen2 系列包含 5 個(gè)尺寸的預(yù)訓(xùn)練和指令微調(diào)模型,其中包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B。如下表所示:
在Qwen 1.5系列模型中,僅限于32B與110B型號(hào)應(yīng)用了GQA技術(shù)。而今,為全面展示GQA技術(shù)在推理加速及減少顯存消耗方面的優(yōu)越性,我們決定所有模型規(guī)格均采納GQA。特別地,針對(duì)小型模型中embedding參數(shù)較為繁重的問(wèn)題,研發(fā)團(tuán)隊(duì)采取了embedding綁定(tie embedding)策略,即輸入與輸出層參數(shù)共用,旨在提升非embedding參數(shù)的比例,從而優(yōu)化模型效率。
至于上下文長(zhǎng)度的處理,所有預(yù)訓(xùn)練模型統(tǒng)一接受了32K令牌的數(shù)據(jù)訓(xùn)練,并展現(xiàn)出即使在128K令牌的條件下,于PPL性能評(píng)估中依舊維持高水平的能力。然而,面向指令微調(diào)模型的評(píng)估則更為嚴(yán)苛,除卻PPL測(cè)試,還需通過(guò)如‘大海撈針’之類的長(zhǎng)序列理解挑戰(zhàn)。在此背景下,借助YARN等先進(jìn)技術(shù),Qwen2-7B-Instruct與Qwen2-72B-Instruct兩款指令優(yōu)化模型成功實(shí)現(xiàn)了對(duì)128K令牌上下文長(zhǎng)度的強(qiáng)大支持。
開(kāi)發(fā)團(tuán)隊(duì)投入了大量精力研究如何擴(kuò)展多語(yǔ)言預(yù)訓(xùn)練和指令微調(diào)數(shù)據(jù)的規(guī)模并提升其質(zhì)量,從而提升模型的多語(yǔ)言能力。他們還是針對(duì)性地對(duì)除中英文以外的27種語(yǔ)言進(jìn)行了增強(qiáng):
另外,開(kāi)發(fā)團(tuán)隊(duì)還專項(xiàng)優(yōu)化了解決多語(yǔ)言環(huán)境中常遇的語(yǔ)言切換(code switching)難題,有效抑制了模型意外進(jìn)行語(yǔ)言轉(zhuǎn)換的頻次。通過(guò)采用易誘發(fā)語(yǔ)言轉(zhuǎn)換的特定提示進(jìn)行測(cè)試,結(jié)果顯示Qwen2系列模型在這方面的能力有了顯著的進(jìn)步。
模型評(píng)測(cè)
與Qwen1.5相比,Qwen2在大型模型上取得了極為顯著的性能飛躍。開(kāi)發(fā)團(tuán)隊(duì)對(duì)Qwen2-72B展開(kāi)了深入全面的性能評(píng)估。在衡量預(yù)訓(xùn)練語(yǔ)言模型的標(biāo)準(zhǔn)測(cè)試中,Qwen2-72B在自然語(yǔ)言理解、知識(shí)整合、代碼理解、數(shù)學(xué)處理及多語(yǔ)言等多個(gè)維度上,均展現(xiàn)出了超越當(dāng)前頂尖開(kāi)源模型的卓越表現(xiàn),這些領(lǐng)先模型包括但不限于Llama-3-70B及Qwen1.5系列的最大型號(hào)Qwen1.5-110B。這一系列成就的取得,直接歸功于對(duì)預(yù)訓(xùn)練數(shù)據(jù)集及訓(xùn)練策略的精心改良與優(yōu)化。
完成大規(guī)模預(yù)訓(xùn)練后,Qwen2.0作者 對(duì)模型實(shí)施了精密的微調(diào)策略,旨在增強(qiáng)其智能性,促使其行為更加貼近人類。這一精細(xì)化調(diào)整過(guò)程,不僅鞏固并增強(qiáng)了模型在代碼理解、數(shù)學(xué)運(yùn)算、邏輯推理、指令遵從及跨語(yǔ)言交流等方面的能力,還確保了模型能夠更好地內(nèi)化人類價(jià)值觀,變得更為協(xié)助、誠(chéng)信且安全。
微調(diào)實(shí)踐中,Qwen2.0作者堅(jiān)持既追求訓(xùn)練規(guī)模的拓展,也力求減少對(duì)人工標(biāo)注的依賴。研發(fā)團(tuán)隊(duì)積極探尋多樣化的自動(dòng)化手段來(lái)搜集高質(zhì)量、高可信度及富含創(chuàng)新性的指令與偏好數(shù)據(jù)。具體措施涵蓋了:利用拒絕采樣技術(shù)優(yōu)化數(shù)學(xué)相關(guān)任務(wù)的數(shù)據(jù)質(zhì)量;通過(guò)代碼執(zhí)行的反饋機(jī)制強(qiáng)化代碼處理與指令執(zhí)行能力;借助回譯技巧提升創(chuàng)意寫作的多樣性與獨(dú)創(chuàng)性;實(shí)施可擴(kuò)展的監(jiān)督策略以優(yōu)化角色扮演等場(chǎng)景中的表現(xiàn)。這些方法共同促進(jìn)了模型效能的顯著躍升。
Qwen2-72B-Instruct在提升基礎(chǔ)能力以及對(duì)齊人類價(jià)值觀這兩方面取得了較好的平衡。相比Qwen1.5的72B模型,Qwen2-72B-Instruct在所有評(píng)測(cè)中均大幅超越,并且了取得了匹敵Llama-3-70B-Instruct的表現(xiàn)。
而在小模型方面,Qwen2系列模型基本能夠超越同等規(guī)模的最優(yōu)開(kāi)源模型甚至更大規(guī)模的模型。相比近期推出的最好的模型,Qwen2-7B-Instruct依然能在多個(gè)評(píng)測(cè)上取得顯著的優(yōu)勢(shì),尤其是代碼及中文理解上。
亮點(diǎn)
代碼 & 數(shù)學(xué)
在代碼方面,實(shí)現(xiàn)了在多種編程語(yǔ)言上的顯著效果提升。而在數(shù)學(xué)方面,大規(guī)模且高質(zhì)量的數(shù)據(jù)幫助Qwen2-72B-Instruct實(shí)現(xiàn)了數(shù)學(xué)解題能力的飛升。
長(zhǎng)文本處理
Qwen2系列中的所有Instruct模型,均在32k上下文長(zhǎng)度上進(jìn)行訓(xùn)練,并通過(guò)YARN或Dual Chunk Attention等技術(shù)擴(kuò)展至更長(zhǎng)的上下文長(zhǎng)度。
下圖展示了在Needle in a Haystack測(cè)試集上的結(jié)果。值得注意的是,Qwen2-72B-Instruct能夠完美處理128k上下文長(zhǎng)度內(nèi)的信息抽取任務(wù)。
此外,Qwen2系列中的其他模型的表現(xiàn)也十分突出:Qwen2-7B-Instruct幾乎完美地處理長(zhǎng)達(dá)128k的上下文;Qwen2-57B-A14B-Instruct則能處理64k的上下文長(zhǎng)度;而該系列中的兩個(gè)較小模型則支持32k的上下文長(zhǎng)度。
安全
下表展示了大型模型針對(duì)四類多語(yǔ)言不安全查詢(非法活動(dòng)、欺詐、色情、侵犯隱私)生成有害回復(fù)的比例。測(cè)試數(shù)據(jù)源自Jailbreak,并被翻譯成多種語(yǔ)言以進(jìn)行評(píng)估。我們發(fā)現(xiàn),Llama-3未能有效應(yīng)對(duì)多語(yǔ)言提示,因此未將其納入比較。通過(guò)顯著性檢驗(yàn)(P值),我們發(fā)現(xiàn)Qwen2-72B-Instruct模型在安全性方面與GPT-4表現(xiàn)相當(dāng),并且明顯優(yōu)于Mistral-8x22B模型。
使用Qwen2
目前,所有模型均已在全球知名的開(kāi)源平臺(tái)上公開(kāi),包括Hugging Face和ModelScope。Qwen2系列大模型深度融入了開(kāi)源生態(tài)系統(tǒng),涵蓋了廣泛的合作領(lǐng)域:
微調(diào)(精細(xì)化調(diào)整模型以適應(yīng)特定任務(wù)):與Axolotl、Llama-Factory、Firefly、Swift、XTuner等項(xiàng)目協(xié)作;
量化(模型壓縮技術(shù)以減少模型大小和提高推理速度):集成了AutoGPTQ、AutoAWQ、Neural Compressor等工具;
部署(模型在不同硬件或云平臺(tái)上的實(shí)施):支持vLLM、SGL、SkyPilot、TensorRT-LLM、OpenVino、TGI等部署方案;
本地運(yùn)行(用戶在個(gè)人設(shè)備上直接運(yùn)行模型的能力):可通過(guò)MLX、Llama.cpp、Ollama、LM Studio實(shí)現(xiàn);
Agent及RAG(檢索增強(qiáng)生成,結(jié)合信息檢索提升生成質(zhì)量)框架:與LlamaIndex、CrewAI、OpenDevin等框架整合;
評(píng)測(cè)(模型性能評(píng)估與對(duì)比):參與LMSys、OpenCompass、Open LLM Leaderboard等評(píng)測(cè)體系;
模型二次開(kāi)發(fā)(基于現(xiàn)有模型創(chuàng)建新應(yīng)用):促進(jìn)了Dolphin、Openbuddy等項(xiàng)目的誕生。
這一系列合作展現(xiàn)了Qwen2模型致力于推動(dòng)人工智能領(lǐng)域的開(kāi)放創(chuàng)新和廣泛應(yīng)用。
模型許可
這一次,我們對(duì)模型的授權(quán)許可進(jìn)行了調(diào)整。Qwen2-72B及其經(jīng)過(guò)指令微調(diào)的模型將繼續(xù)沿用原有的千問(wèn)許可,而所有其他模型——包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B以及Qwen2-57B-A14B——將改采Apache 2.0許可證!我們相信,通過(guò)增加模型對(duì)社區(qū)的開(kāi)放程度,可以加速Q(mào)wen2系列在全球范圍內(nèi)的應(yīng)用與商業(yè)化進(jìn)程。
Qwen2的下一步是什么?
我們正在訓(xùn)練更大的Qwen2模型,以便在最近數(shù)據(jù)擴(kuò)充的基礎(chǔ)上進(jìn)一步探索模型規(guī)模擴(kuò)增的潛力。同時(shí),我們正將Qwen2語(yǔ)言模型擴(kuò)展至多模態(tài)領(lǐng)域,使其能夠理解視覺(jué)及音頻信息。在不久的將來(lái),我們會(huì)繼續(xù)開(kāi)源新模型,以促進(jìn)開(kāi)源AI的發(fā)展。敬請(qǐng)期待!
Demo環(huán)境簡(jiǎn)單測(cè)試
Demo環(huán)境:https://https://huggingface.co/spaces/Qwen/Qwen2-72B-Instructwen/Qwen2-72B-Instruct
整體來(lái)開(kāi)效果都非常不錯(cuò)。
開(kāi)源軟件:
看了常用的幾個(gè)開(kāi)源軟件的支持情況,發(fā)現(xiàn)跟進(jìn)的都很快。
Ollama
Ollama已經(jīng)支持QWen2,連接(https://ollama.com/library/qwen2):
可以通過(guò) ollama run qwen2 下載運(yùn)行。
