太平洋科技行业

AI圈水太深：OpenAI保密、Meta作弊！国产MoE却异军突起

新智元整合编辑：太平洋科技发布于：2025-07-16 16:18

由华为云驱动

AI领域新品发布：Meta公开Llama-4系列，其中Behemoth模型参数高达2万亿，引发争议。此前Mixtral-8x22B总参数量与GPT-3相当。DeepSeek V3 Base推出6710亿MoE参数、370亿激活参数，可能首个可自由下载使用的GPT-4水平模型。

从传统稠密架构到如今流行的稀疏专家模型（MoE），语言大模型发展突飞猛进：

最初参数量只有百亿级别，而现在即便仅激活的参数，也已达数百亿！

从百亿到万亿，参数膨胀的背后，是AI界对Scaling Law的「信仰」。

自2019年GPT-2发布以来，大语言模型（LLM）在参数规模、训练数据量和模型架构上不断实现飞跃。

大模型到底有多大？从2019年到现在，大模型到底经历了什么样的「体重暴涨」？

Github网友rain-1手动总结了基础模型趋势，「不含任何AI生成成分」。他还表示：

近年来，语言模型波澜壮阔，宏大深远。

所记述的不过是其中一个微小片段，如同管中窥豹，可见一斑。

本文旨在客观呈现大语言模型的规模信息。不涉及泄露信息或坊间传闻，仅聚焦基础模型（即原始文本续写引擎，而非ChatBot）。

AI模型参数量呈指数级增长

大模型来时路之GPT系列

OpenAI走向「CloseAI」

主要分为2大阶段：早期密集模型和中期转型与保密期。

早期密集模型（2019-2020）：

GPT-2家族：参数从137M到1.61B，训练数据约10B tokens。

GPT-3（175B）：首个真正意义上的「大模型」。

中期转型与保密期（2022-2023）：

GPT-3.5和GPT-4：未公布参数或数据规模，信息高度保密。

具体而言，GPT-2（2019年）参数规模：

GPT-2-small：1.37亿参数

GPT-2-medium：3.8亿参数

GPT-2-large：8.12亿参数

GPT-2-xl：16.1亿参数

训练数据基于未公开的WebText数据集，约40GB互联网文本，估计约100亿token。

2020年，OpenAI发布GPT-3，代号davinci/davinci-002，参数规模为1750亿（175.0B）。

链接：https://www.lesswrong.com/posts/3duR8CrvcHywrnhLo/how-does-gpt-3-spend-its-175b-parameters

训练数据约4000亿token，来源包括CommonCrawl、WebText2、Books1、Books2和Wikipedia。

具体数据来源信息，参考下列论文。

论文链接:https://arxiv.org/abs/2005.14165

GPT-3训练耗时数月，动用了数万块A100 GPU的数据中心算力。

2022-2023年，GPT-3.5&GPT-4官方未公开架构细节、训练数据规模等信息。

之后。OpenAI一度成为高度保密的「黑箱」。而开源模型，特别是LLaMA家族「水涨船高」：

从7B到65B，其中65B使用1.4T tokens训练；

LLaMA 3.1达到405B参数、3.67T tokens数据，是开源领域的一个转折点。

大模型来时路之Llama系列

Llama初代版本规模7B、13B、33B、65B参数。

训练数据方面，官方确认采用了Books3数据集。65B版本预训练使用了1.4万亿（1.4T）token的数据集。

2024年，Meta开源Llama-3.1 405B，参数规模高达4050亿，采用密集Transformer架构（即推理时所有参数均参与计算）。

训练数据方面，Meta未详细披露数据源，仅模糊表述为「来自多种知识来源的混合数据」，共消耗了约3.67万亿token：

初始预训练：2.87万亿token

长上下文训练：8000亿token

退火训练（Annealing）：4000万token

论文链接：https://arxiv.org/abs/2407.21783

他们还有项关键发现：

实验表明，在核心基准测试中，对小规模高质量代码和数学数据进行退火训练（Annealing），可显著提升预训练模型的表现。

但网友本人对当前流行的「Benchmax退火预训练」趋势表示遗憾——

它使得基础语言模型逐渐偏离了「初心」——纯粹的文本续写引擎定位。

这种优化本该属于后训练阶段（即让模型扮演「AI聊天助手」角色的过程），但企业显然更看重benchmark分数的短期提升。

2025，Meta推出Llama-4系列，其中2万亿参数巨兽「Behemoth」，或永不面世。

Llama4系列中的旗舰大模型Behemoth，是参数总量达2万亿的稀疏专家模型（MoE），架构为A288B 16E——即具备2880亿激活参数、共计16个专家模块，但尚未公开发布

Llama4的Maverick和Scout模型都是从这款大模型中蒸馏而来。然而，围绕这些轻量版本，却爆发了一场丑闻——

Meta（原facebook）被曝在lmarena基准测试平台上「作弊」：

他们上传了Llama4 Maverick「定制版」用于跑分，却发布了另一个不同的版本。

此举被外界视为学术不端，严重打击了外界对Llama团队的信任。此后，Llama团队似乎迅速陷入瓦解，至今不明这款2T模型是否还有问世的可能。

至于已经发布的Llama4小模型，尽管打着「继承大模型精华」的旗号，但目前普遍评价是：智能水平较低，难堪大用。

大模型荒原时代

曾经，AI界一度陷入「大模型荒原」——其他模型无法与GPT-3匹敌。

大家只能反复微调LLaMA等小模型，试图追赶GPT-3留下的庞大身影。

但这种「用AI训练AI」的做法，也让模型性能陷入恶性循环。

Llama 405B模型的发布堪称转折点。在此之前，Mistral发布了2款混合专家模型：

2023年12月，推出Mixtral 8x7B（混合专家模型）。

2024年4月，升级发布Mixtral-8x22B（总参数量141B，实际激活参数39B的稀疏混合专家模型）。

Mixtral-8x22B尽管不是GPT-3那样的密集模型，但总参数量级已与GPT-3（175B）相当。

混合专家MoE架构的革命性在于，它让普通研究者也能训练和使用超大规模的模型——不再需要动用成千上万张GPU组成的计算集群。

2023末，稀疏MoE架构的兴起：Deepseek V3等接踵而来。

在参数总量远超GPT-3的同时，MoE模型激活参数维持在几十B级别，从而降低推理成本。

这些LLM支持多语言、多模态，并采用更大上下文窗口（32K~256K tokens）。有的新模型还采用「退火」式后训练，提升特定基准测试上的表现。

MoE热潮来袭

群雄并起，谁主沉浮？

2024年圣诞节次日，DeepSeek发布了震撼之作—— V3 Base。官网如此描述：

V3新特性

6710亿MoE参数

370亿激活参数

基于14.8万亿高质量token训练

这不仅实现了模型规模的巨大飞跃，衍生的R1推理模型更让业界惊艳——

R1可能是首个真正达到GPT-4水平，而且可自由下载使用的模型。

稀疏的不是能力，是让计算更精准地对焦。

有趣的是，R1发布竟导致英伟达股价短暂下挫。

此次突破掀起了MoE大模型的训练热潮，尤其在中国市场。值得注意的是，这些新模型普遍具备多模态、多语言能力，训练数据维度大幅拓展。

代表性模型巡礼：

1. Databricks DBRX（2024年3月）

架构：1320亿总参/360亿激活/12万亿token训练

创新点：采用16选4的细粒度专家系统（相较Mixtral-8x7B的8选2架构更精细）

2. Minimax-Text-01（2025年1月）

架构：4560亿总参/459亿激活

特色：创新性融合注意力机制与MoE架构

质量控制：采用前代60亿参数MoE模型进行数据标注

3. Dots.llm1（2025年6月）

亮点：128选6超细粒度专家系统+2个常驻专家

成就：不使用合成数据即达到Qwen2.5-72B水平

技术：引入QK-Norm注意力层优化

4. 混元（2025年6月）

突破：20万亿token训练/256K上下文窗口

架构：8专家动态激活+1个常驻共享专家

5. 文心4.5（2025年6月）

规模：4240亿总参/470亿激活

特点：多模态基座模型

训练：基于「数万亿」token（具体数据未披露）

尾声

未来在哪里？

在很长一段时间内，市面上几乎没有与GPT-3规模相同的LLM可供使用。

由于缺乏可下载的同等级模型，人们很难复现GPT-3的性能。

而且坦率地说，人们当时并没有真正意识到：要想要达到GPT-3的表现，模型的规模必须接近1750亿参数。

当时能拿来用的，最多也只是LLaMA系列中参数不超过700亿的模型，大家也只能靠这些凑合着用。

而目前，网友rain所知的最新、最大的可用稠密基础模型有4050亿参数。在预训练中，它使用了更近时段的数据（包括人们讨论大语言模型、分享模型对话记录的内容），而且模型本身也经过「退火」（annealing）处理。

因此相比以往那些基础模型，它更像已经初步具备助手特性的系统。

最近一批稀疏专家模型（MoE）也有类似的问题，并且这些模型在训练数据中还融入了一些中文文化元素。

要怎么公平地比较稀疏模型（MoE）和致密模型，目前还没有明确标准。

也许大语言模型的一些高级能力，只有在模型足够深、结构足够密集时才会显现出来。而现有的自动评测指标，可能并不能很好地捕捉这些能力。所以现在很多人索性一头扎进了MoE模型的研发中。

一些新模型也在尝试采用新的网络架构（比如RWKV、byte-latent、bitnet）或者使用合成数据生成的新方法。

不过，要打造一个优秀的文本生成引擎，目前还不清楚这些新技术到底有多大帮助。

网友rain说得直接：文本生成引擎才是一切的基础。

没有优秀的文本续写能力，后续的微调、角色扮演都只是空中楼阁。

在「助手化」狂潮之外，也许是时候重新思考——

我们真的理解基础模型的本质了吗？

本文来源：新智元

大模型稀疏专家模型（MoE）开源

新智元

原创栏目

一款为不妥协而生的游戏显示器

换个视角看世界这台小相机有点东西

手机中暑急救指南：9款散热背夹横评

百元预算逆天改命大学宿舍精致生活这样搞！

IT百科

更多 >

抖音网页版怎么进入

iPhone12外观实锤！这2个问题还会重演吗？

AI大数据教你把妹儿？都是送人头的低俗趣味

我在双11买杜X斯的秘密怎么全网都知道？

收藏！买买买之后最该看的网购维权指南

比炒鞋更狂的炒盲盒

还去淘宝买iPhone有锁机？华强北的卖家都哭了

终于！AI开始对这届大学生们“下手了”

网友评论

聚超值•精选

更多>

推荐手机 笔记本 影像硬件家居商用企业出行未来

太平洋科技 行业