關于大模型開源還是閉源,業界爭議已久。有認為同樣參數規模下,開源模型能力不如閉源的,堅定看好閉源路線的,也有認為只有開源才能在推動了技術的發展,促進產業整體繁榮的。
騰訊則又一次選擇了開源。在5月開源混元文生圖大模型后,11月5日,騰訊又開源了兩款大模型,分別是最新的MoE模型“混元Large“以及混元3D生成大模型“ Hunyuan3D-1.0”,支持企業及開發者精調、部署等不同場景的使用需求,可在HuggingFace、Github等技術社區直接下載,免費可商用。
騰訊機器學習技術總監,混元算法負責人康戰輝認為,不同的業務需求決定了是否采用開源或閉源策略。對于一些超級復雜的業務,閉源模型更能提供高效的解決方案,因為它能在成本和用戶能力的提升上做到更優。相比之下,開源模型則面向不同類型的開發者,尤其是中小企業和個人開發者,降低了他們的技術門檻,并且能夠通過廣泛的社區合作來推動技術的不斷發展。
他強調,騰訊的戰略是基于長期主義,不急功近利。盡管大模型的開源在市場上如火如荼,但騰訊并不認為開源有“早晚之分”。此次開源也是在經過一年多的探索,在閉源模式下,將產品和技術積累到一定程度后,才選擇了開源。他們的目標是深耕AI時代的基礎設施建設,將大模型打磨成熟后開放給開發者,并通過不斷完善與優化來增強社區的信任和認可。
開源Hunyuan-Large:最大參數的MoE架構模型
騰訊Hunyuan-Large(混元Large)模型總參數量 389B,激活參數量 52B ,上下文長度高達256K,公開測評結果顯示,在CMMLU、MMLU、CEval、MATH等多學科綜合評測集以及中英文NLP任務、代碼和數學等9大維度上,騰訊混元Large全面領先,超過Llama3.1、Mixtral等一流的開源大模型。
此外,混元Large模型,與騰訊混元Pro、混元Turbo等不同尺寸的模型共享基礎架構,源自騰訊同一技術體系。
混元Large 在各類測試集上得分領先現有主流開源模型|圖片來源:騰訊
混元Large在模型結構和訓練策略上進行了全面的技術突破。首先,在結構創新上,混元Large深入探索了MoE(混合專家)Scaling Law,推出了共享專家路由和回收路由等優化策略,并采用專家特化的學習率調整策略,顯著提升了不同專家的利用效率和模型的穩定性,從而帶來了效果上的提升。
MoE模型的優勢在于它通過專家路由機制,只激活部分專家進行計算,因此能夠以較低的計算成本處理更大規模的任務。與Dense模型相比,MoE在訓練和推理時的計算效率更高,同時可以通過增加專家數量,擴展模型的容量和智能水平。
雖然MoE有很多優勢,但它在業界應用不多,主要是因為實現起來很難。MoE也有一些挑戰,比如MoE的訓練穩定性較差,涉及多個專家時容易出現負載不均衡,訓練起來非常復雜。其次,由于專家之間的負載差異,某些專家可能訓練不足,導致模型收斂困難,最終影響預測準確性。
在模型后期訓練(Post-Train)中,混元Large也做了大量優化。它通過分類提升了數學、邏輯推理、代碼等方面的能力,應對了SFT(監督微調)領域多樣、數學和代碼高質量數據難獲取等挑戰,并在一階段離線DPO(離線偏好優化)基礎上,增設了二階段的在線強化策略,進一步優化了模型的表現。
數據方面,騰訊混元Large建立了涵蓋數十個類目、具備高質量和多樣性的中英文數據集,使模型在多方面的效果有明顯提升,尤其在數學和代碼處理方面,性能提高超過10%。為應對長文閱讀理解和多文檔總結等領域的測評難題,騰訊還基于公開數據開發了企鵝卷軸(PenguinScrolls)數據集,計劃對外開放,以支持長文方向的技術研究。
這些長文處理能力已應用到騰訊AI助手騰訊元寶中,支持最多256K長度的上下文處理,相當于整本《三國演義》的文字量。用戶可以一次上傳10個文檔,或解析多個微信公眾號鏈接與網址,讓元寶具備深度解析的獨特能力。
在工程平臺方面,騰訊自研的Angel機器學習平臺為混元Large提供了強大的訓練和推理支持。針對MoE模型的通信效率問題,AngelPTM框架進行了多項優化,使訓練速度達到了主流框架DeepSpeed的2.6倍。推理方面,騰訊還推出了AngelHCF-vLLM框架,在保證精度的前提下節省了50%以上的顯存,相較于BF16主流框架提升了1倍以上的吞吐量。
目前,混元Large模型已上架騰訊云的TI平臺。TI平臺不僅配備了大模型精調工具鏈,支持靈活的數據標注,還提供Angel加速能力,讓用戶可以便捷地啟動混元Large的精調,幫助企業快速訓練出符合業務需求的專屬大模型,顯著提升研發效率。
同時,騰訊還開放了混元大模型PaaS平臺,支持十余種API服務,涵蓋了文字生成、圖像生成、角色扮演、FunctionCall、代碼等多種需求,滿足不同場景下的模型應用。
經過在騰訊內部廣泛應用和驗證,混元大模型的能力已嵌入到包括騰訊元寶、微信公眾號、小程序、微信讀書、騰訊廣告、騰訊游戲、騰訊會議等近700個內部業務和場景中。
混元3D-1.0模型:3D生成開源先鋒
騰訊這次開源的混元3D生成大模型則是業界首個同時支持文字、圖像生成3D的開源大模型,可以幫助 3D 創作者和藝術家實現 3D 資產的自動化生成。
此前,Stability AI先后與VAST合作開源了快速3D物體重建模型TripoSR、與Tripo AI聯合開源了Stable Fast 3D模型,但整體而言,業界3D生成大模型的開源依舊較為稀缺,這主要是因為3D生成技術在計算資源、技術門檻和數據獲取方面的要求遠高于2D模型。
混元3D-1.0模型生成的3D資產|圖片來源:騰訊
3D生成大模型的開發對計算資源要求高,且技術和成本門檻遠超2D模型;同時,3D數據獲取難度大、數據稀缺,進一步限制了開源的可行性。此外,由于3D生成模型應用市場較窄,企業傾向于保留技術優勢,騰訊此次開源Hunyuan3D,成為了推動行業進步的一個重要突破。
此次首批開源模型包含輕量版和標準版,輕量版僅需10s即可生成高質量3D資產,現已在技術社區公開,包含模型權重、推理代碼、模型算法等完整模型,可供開發者、研究者等各類用戶免費使用。
此外,Hunyuan3D-1.0也已登陸騰訊云HAI平臺,利用其高性價比的GPU算力和一鍵部署功能,降低了模型的使用和部署門檻。通過HAI的可視化WebUI界面,用戶能夠更輕松地使用該模型,為3D資產創作提供了更多可能。
Hunyuan3D-1.0解決了現有3D生成模型在生成速度和泛化能力上的不足,能夠幫助3D創作者和藝術家自動化生產3D資產。該模型不僅具備強大的泛化能力和可控性,還能重建各種尺度的物體,從建筑到小型工具或花草都能輕松處理。根據定性和定量的多維度評估,Hunyuan3D-1.0的生成質量已達到開源模型中的領先水平。
在兩個公開的3D數據集——GSO和OmniObject3D上,Hunyuan3D-1.0的表現優于主流開源模型,整體能力屬于國際領先水平。從細節層面看,該模型在幾何、紋理、紋理-幾何一致性、3D合理性和指令遵循等方面的表現都非常出色。
在應用方面,3D生成技術已經開始在騰訊的多個業務中落地。例如,騰訊地圖基于混元3D大模型發布了自定義3D導航車標功能,用戶可以創作個性化的3D車標,相比傳統方案,生成速度提高了91%。此外,騰訊元寶APP也上線了“3D角色夢工廠”功能,支持個性化的UGC 3D人物生成。
之所以在這個時間點選擇開源3D生成大模型,騰訊混元3D模型負責人郭春超談到,一方面是因為騰訊業務非常豐富,從公司自身業務出發做3D生成是極其有必要的,畢竟動漫、游戲、影視這種偏娛樂類的項目都離不開3D資產,另一方面則是因為3D生成還處于前半程發展階段,它要進一步發展,需要社區一起努力,需要有更好的模型、更強的生成能力釋放出來,所以這次開源也是為了推動這一領域的進一步發展。
隨著騰訊在自研大模型技術上的不斷進步和應用經驗的積累,開源已成為混元大模型的戰略之一。可以看出,騰訊開源戰略的核心是從公司自身的業務需求出發,逐步開放具有核心競爭力的模型。開源的大模型首先要考慮的是騰訊的內部技術積累和業務需求,確保技術的可用性和商業價值。在確保核心模型得到充分應用后,會再逐步推出一些更為小型的模型,以適應多樣化的市場需求,并為更廣泛的開發者提供支持。
另外,此次大模型開源的是參數權重,并不涉及到數據和代碼,但是接下來混元會往前走一步,會把訓練的代碼開源出來,同時會把評估期開源出來, 康戰輝稱,「希望向業界展示更多的誠意」。
相關文章
傳統供應鏈企業轉型生態平臺實戰——內蒙古食全食美美通倉案例2025-03-14
共筑農業新生態 | 愛助農2025區域合伙人年會圓滿落幕,千萬元賦能開啟智能轉型新篇章2025-03-14
如何免費推廣自己的小程序2025-03-09
蕓傳奇 鹿鞭多寶丸 桑葚鹿鞭多寶丸2025-03-04
中啟未來國際教育集團 吉林省中啟未來教育科技集團有限公司2025-02-28
長春網站設計:以匠心勾勒數字藍圖,賦能城市未來2025-02-28
?Scratch編程啟蒙:讓孩子在玩樂中成為未來創造者2025-02-28
【安徽省合肥市400企業電話辦理——智慧通信,賦能企業騰飛新篇章】2025-02-28
?合肥400電話辦理全攻略:高效溝通助力企業騰飛2025-02-28
永久免費無代碼開發平臺網站:開啟全民開發新時代2025-02-28