TMT观察网_独特视角观察TMT行业

晉升業內新寵兒,MoE模型給了AI行業兩條關鍵出路互聯網+

智能相對論 2024-07-11 15:21
分享到:
導讀

MoE模型火爆的背后:全新的AI解題思路

文 | 智能相對論

作者 | 陳泊丞

今年以來,MoE模型成了AI行業的新寵兒。

一方面,越來越多的廠商在自家的閉源模型上采用了MoE架構。在海外,OpenAI的GPT-4、谷歌的Gemini、Mistral AI的Mistral、xAI的Grok-1等主流大模型都采用了MoE架構。

而在國內,昆侖萬維推出的天工3.0、浪潮信息發布的源2.0-M32、通義千問團隊發布的Qwen1.5-MoE-A2.7B、MiniMax全量發布的abab6、幻方量化旗下的DeepSeek發布的DeepSeek-MoE 16B等等也都屬于MoE模型。

另一方面,在MoE模型被廣泛應用的同時,也有部分廠商爭先開源了自家的MoE模型。前不久,昆侖萬維宣布開源2千億參數的Skywork-MoE。而在此之前,浪潮信息的源2.0-M32、DeepSeek的DeepSeek-MoE 16B等,也都紛紛開源。

為什么MoE模型如此火爆,備受各大廠商的青睞?在開源的背后,MoE模型又是以什么樣的優勢使各大主流廠商成為其擁躉,試圖作為改變AI行業的利器?

MoE模型火爆的背后:全新的AI解題思路

客觀來說,MoE模型的具體工作原理更接近中國的一句古語“術業有專攻”,通過把任務分門別類,然后分給多個特定的“專家”進行解決。

它的工作流程大致如此,首先數據會被分割為多個區塊(token),然后通過門控網絡技術(Gating Network)再把每組數據分配到特定的專家模型(Experts)進行處理,也就是讓專業的人處理專業的事,最終匯總所有專家的處理結果,根據關聯性加權輸出答案。

當然,這只是一個大致的思路,關于門控網絡的位置、模型、專家數量、以及MoE與Transformer架構的具體結合方案,各家方案都不盡相同,也逐漸成為各家競爭的方向——誰的算法更優,便能在這個流程上拉開MoE模型之間的差距。

像浪潮信息就提出了基于注意力機制的門控網絡(Attention Router),這種算法結構的亮點在于可以通過局部過濾增強的注意力機制(LFA, Localized Filtering-based Attention),率先學習相鄰詞之間的關聯性,然后再計算全局關聯性的方法,能夠更好地學習到自然語言的局部和全局的語言特征,對于自然語言的關聯語義理解更準確,從而更好地匹配專家模型,保證了專家之間協同處理數據的水平,促使模型精度得以提升。

基于注意力機制的門控網絡(Attention Router)

拋開目前各家廠商在算法結構上的創新與優化不談,MoE模型這種工作思路本身所帶來的性能提升就非常顯著——通過細粒度的數據分割和專家匹配,從而實現了更高的專家專業化和知識覆蓋。

這使得MoE模型在處理處理復雜任務時能夠更準確地捕捉和利用相關知識,提高了模型的性能和適用范圍。因此,「智能相對論」嘗試了去體驗天工3.0加持的AI搜索,就發現對于用戶較為籠統的問題,AI居然可以快速的完成拆解,并給出多個項目參數的詳細對比,屬實是強大。

天工AI搜索提問“對比一下小米su7和特斯拉model3”所得出的結果

由此我們可以看到,AI在對比兩款車型的過程中,巧妙地將這一問題拆解成了續航里程、動力性能、外觀設計、內飾設計、智能化與自動駕駛、市場表現與用戶口碑、價格等多個項目,分別處理得出較為完整且專業的答案。

這便是“術業有專攻”的優勢——MoE模型之所以受到越來越多廠商的關注,首要的關鍵就在于其所帶來的全新解決問題的思路促使模型的性能得到了較為顯著的提高。特別是伴隨著行業復雜問題的涌現,這一優勢將使得MoE模型得到更廣泛的應用。

各大廠商爭先開源MoE模型:解決AI算力荒的另一條路徑

開源的意義在于讓MoE模型更好的普及。那么,對于市場而言,為什么要選擇MoE模型?

拋開性能來說,MoE模型更突出的一點優勢則在于算力效率的提升。

DeepSeek-MoE 16B在保持與7B參數規模模型相當的性能的同時,只需要大約40%的計算量。而37億參數的源2.0-M32在取得與700億參數LLaMA3相當性能水平的同時,所消耗的算力也僅為LLaMA3的1/19。

也就意味著,同樣的智能水平,MoE模型可以用更少的計算量和內存需求來實現。這得益于MoE模型在應用中并非要完全激活所有專家網絡,而只需要激活部分專家網絡就可以解決相關問題,很好避免了過去“殺雞用牛刀”的尷尬局面。

舉個例子,盡管DeepSeek-MoE 16B的總參數量為16.4B,但每次推理只激活約2.8B的參數。與此同時,它的部署成本較低,可以在單卡40G GPU上進行部署,這使得它在實際應用中更加輕量化、靈活且經濟。

在當前算力資源越來越緊張的“算力荒”局面下,MoE模型的出現和應用可以說為行業提供了一個較為現實且理想的解決方案。

更值得一提的是,MoE模型還可以輕松擴展到成百上千個專家,使得模型容量極大增加,同時也允許在大型分布式系統上進行并行計算。由于各個專家只負責一部分數據處理,因此在保持模型性能的同時,又能顯著降低了單個節點的內存和計算需求。

如此一來,AI能力的普惠便有了非常可行的路徑。這樣的特性再加上廠商開源,將促使更多中小企業不需要重復投入大模型研發以及花費過多算力資源的情況下便能接入AI大模型,獲取相關的AI能力,促進技術普及和行業創新。

當然,在這個過程中,MoE模型廠商們在為市場提供開源技術的同時,也有機會吸引更多企業轉化成為付費用戶,進而走通商業化路徑。畢竟,MoE模型的優勢擺在眼前,接下來或許將有更多的企業斗都會嘗試新的架構來拓展AI能力,越早開源越能吸引更多市場主體接觸并參與其中。

但是,開源最關鍵的優勢還是在于MoE模型對當前算力問題的解決。或許,隨著MoE模型被越來越多的企業所接受并應用,行業在獲得相應AI能力的同時也不必困頓于算力資源緊張的問題了。

寫在最后

MoE大模型作為當前人工智能領域的技術熱點,其獨特的架構和卓越的性能為人工智能的發展帶來了新的機遇。不管是應用還是開源,隨著技術的不斷進步和應用場景的不斷拓展,MoE大模型有望在更多領域發揮巨大的潛力。

MoE模型的本質在于為AI行業的發展提供了兩條思路,一是解決應用上的性能問題,讓AI有了更強大的解題思路。二是解決算力上的欠缺問題,讓AI有了更全面的發展空間。由此來看MoE模型能成為行業各大廠商的寵兒,也是水到渠成的事情。

*本文圖片均來源于網絡

此內容為【智能相對論】原創,

僅代表個人觀點,未經授權,任何人不得以任何方式使用,包括轉載、摘編、復制或建立鏡像。

部分圖片來自網絡,且未核實版權歸屬,不作為商業用途,如有侵犯,請作者與我們聯系。

?AI產業新媒體;

?澎湃新聞科技榜單月度top5;

?文章長期“霸占”鈦媒體熱門文章排行榜TOP10;

?著有《人工智能 十萬個為什么》

?【重點關注領域】智能家電(含白電、黑電、智能手機、無人機等AIoT設備)、智能駕駛、AI+醫療、機器人、物聯網、AI+金融、AI+教育、AR/VR、云計算、開發者以及背后的芯片、算法等。


模型 MoE AI
分享到:

1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。


主站蜘蛛池模板: 北京浩云律师事务所-法律顾问_企业法务_律师顾问_公司顾问 | 招商帮-一站式网络营销服务|互联网整合营销|网络推广代运营|信息流推广|招商帮企业招商好帮手|搜索营销推广|短视视频营销推广 | 123悬赏网_发布悬赏任务_广告任务平台| 铁素体测量仪/检测仪/铁素体含量测试仪-苏州圣光仪器有限公司 | 篮球地板厂家_舞台木地板品牌_体育运动地板厂家_凯洁地板 | 双齿辊破碎机-大型狼牙破碎机视频-对辊破碎机价格/型号图片-金联机械设备生产厂家 | 保定市泰宏机械制造厂-河北铸件厂-铸造厂-铸件加工-河北大件加工 | 郑州水质检测中心_井水检测_河南废气检测_河南中环嘉创检测 | 屏蔽泵厂家,化工屏蔽泵_维修-淄博泵业 | SMC-SMC电磁阀-日本SMC气缸-SMC气动元件展示网 | 活动策划,舞台搭建,活动策划公司-首选美湖上海活动策划公司 | 流程管理|流程管理软件|企业流程管理|微宏科技-AlphaFlow_流程管理系统软件服务商 | 全自动过滤器_反冲洗过滤器_自清洗过滤器_量子除垢环_量子环除垢_量子除垢 - 安士睿(北京)过滤设备有限公司 | PVC地板|PVC塑胶地板|PVC地板厂家|地板胶|防静电地板-无锡腾方装饰材料有限公司-咨询热线:4008-798-128 | 避光流动池-带盖荧光比色皿-生化流动比色皿-宜兴市晶科光学仪器 东莞爱加真空科技有限公司-进口真空镀膜机|真空镀膜设备|Polycold维修厂家 | 丽陂特官网_手机信号屏蔽器_Wifi信号干扰器厂家_学校考场工厂会议室屏蔽仪 | 同学聚会纪念册制作_毕业相册制作-成都顺时针宣传画册设计公司 | 根系分析仪,大米外观品质检测仪,考种仪,藻类鉴定计数仪,叶面积仪,菌落计数仪,抑菌圈测量仪,抗生素效价测定仪,植物表型仪,冠层分析仪-杭州万深检测仪器网 | 塑料撕碎机_编织袋撕碎机_废纸撕碎机_生活垃圾撕碎机_废铁破碎机_河南鑫世昌机械制造有限公司 | 防渗土工膜|污水处理防渗膜|垃圾填埋场防渗膜-泰安佳路通工程材料有限公司 | 动物麻醉机-数显脑立体定位仪-北京易则佳科技有限公司 | 广东风淋室_广东风淋室厂家_广东风淋室价格_广州开源_传递窗_FFU-广州开源净化科技有限公司 | 数控专用机床,专用机床,自动线,组合机床,动力头,自动化加工生产线,江苏海鑫机床有限公司 | 干式变压器厂_干式变压器厂家_scb11/scb13/scb10/scb14/scb18干式变压器生产厂家-山东科锐变压器有限公司 | 上海冠顶工业设备有限公司-隧道炉,烘箱,UV固化机,涂装设备,高温炉,工业机器人生产厂家 | 护腰带生产厂家_磁石_医用_热压护腰_登山护膝_背姿矫正带_保健护具_医疗护具-衡水港盛 | 不锈钢电动球阀_气动高压闸阀_旋塞疏水调节阀_全立阀门-来自温州工业阀门巨头企业 | 氧化锆陶瓷_氧化锆陶瓷加工_氧化锆陶瓷生产厂家-康柏工业陶瓷有限公司 | 【北京写字楼出租_写字楼租赁_办公室出租网/出售】-远行地产官网 | 高尔夫球杆_高尔夫果岭_高尔夫用品-深圳市新高品体育用品有限公司 | 电杆荷载挠度测试仪-电杆荷载位移-管桩测试仪-北京绿野创能机电设备有限公司 | PCB设计,PCB抄板,电路板打样,PCBA加工-深圳市宏力捷电子有限公司 | 过跨车_过跨电瓶车_过跨转运车_横移电动平车_厂区转运车_无轨转运车 | ★济南领跃标识制作公司★济南标识制作,标牌制作,山东标识制作,济南标牌厂 | 英国雷迪地下管线探测仪-雷迪RD8100管线仪-多功能数字听漏仪-北京迪瑞进创科技有限公司 | 厦门网站建设_厦门网站设计_小程序开发_网站制作公司【麦格科技】 | 矿用履带式平板车|探水钻机|气动架柱式钻机|架柱式液压回转钻机|履带式钻机-启睿探水钻机厂家 | 光栅尺厂家_数显表维修-苏州泽升精密机械 | 油冷式_微型_TDY电动滚筒_外装_外置式电动滚筒厂家-淄博秉泓机械有限公司 | 临时厕所租赁_玻璃钢厕所租赁_蹲式|坐式厕所出租-北京慧海通 | 杭州代理记账多少钱-注册公司代办-公司注销流程及费用-杭州福道财务管理咨询有限公司 |