- Published on
New OpenAI —— DeepSeek-V3 与 R1 的关键技术与认知
- Authors
- Name
- Jason Huang
- @zesenhhh
Table of Contents
本文根据个人第一遍粗读 DeepSeek 论文的大致了解与认知(DeepSeek 的论文只读一遍是完全不够的。),结合近期网上一些 AI 大牛的观点与见解,旨在从技术角度提供一个对 DeepSeek-V3 与 R1 相对完整的全局认知,局部的技术细节在此不做过多深入。
DeepSeek 来硅谷只办三件事,开源!开源!还是 TMD 开源!
在我有限的阅历与认知里面,DeepSeek-V3 与 R1 的这两篇论文是我目前读到 AI 领域里最充满自信与开源精神的论文,字里行间几乎无时不刻不在强调开源。
V3 论文一共出现 28 次 “open-source”,61 次 “open”;
R1 论文一共出现 6 次 “open-source”,9 次 “community”(research/open community),39 次 “OpenAI”,53 次 “open”。
CloseAI 与 DeepOpen,开源与闭源路线之争,不仅关乎技术路线的选择,更反映出两种截然不同的商业模式、生态策略以及对 AI 未来发展的理念之争。
V3 的技术关键词主要是 DeepSeekMoE、Multi-head Latent Attention (MLA) 和Multi-Token Prediction(MTP);
R1 的技术关键词主要是 Reinforcement Learning(RL)与 Distillation,技术上比起 R1,更值得关注的是 R1-Zero。
DeepSeek-V3
DeepSeek-V3 的最大贡献在于便宜大碗且开源:
- 在开放源代码模型中实现的顶级性能:DeepSeek-V3 在多个基准测试中展现了开源模型的最佳性能,并在某些任务上与闭源模型竞争相当,缩小了开源和闭源模型之间的性能差距。
- 成本效益的训练方法:DeepSeek-V3 的训练方法具有高度的成本效益,通过优化算法、训练框架和硬件资源的使用,大幅降低了训练成本。
成本效益
SemiAnalysis 1相信 DeepSeek 拥有大约 10,000 台 H800 和约 10,000 台 H100。此外,他们还订购了更多的 H 20。另外,据说幻方(DeepSeek 母公司)在 2021 年美国对英伟达芯片进行出口管制前投资了 10,000 个 A100 GPU。
总体看来,DeepSeek 拥有的 GPU 远比不上大洋彼岸的 OpenAI 和 Anthropic,更比不上 XAI 的 10 万卡集群,但在国内也算是少有的跟大厂拥有同等数量级显卡的组织了。
DeepSeek 在 V3 的论文中披露的约 500 多万美元的成本是指模型的单次正式训练成本,这也是很多人讨论的一个点。DeepSeek-V3 是在配备 2048 个 NVIDIA H800 GPU 的集群上训练的,只需要约 278 万 H800 GPU 小时,根据论文的说明:
假设 H800 GPU 的租赁价格为每 GPU 小时 2 美元,那么我们的总训练成本仅为 557.6 万美元。请注意,上述成本仅包括 DeepSeek-V3 的正式训练费用,不包括之前对架构、算法或数据进行研究和消融实验的相关费用。
很多人说 DeepSeek 的成本实际没那么低,远没有说 10 倍多的成本下降那么夸张,需要再次强调,557.6 万美元其实是说 V3 的正式训练成本,不包括其他实验成本、人力与硬件投资。
尽管如此,基于论文中展示的 Multi-head Latent Attention、DeepSeekMoE 和 Multi-Token Prediction 等关键算法创新,以及硬件的极致优化,DeepSeek 模型的每一次实验相比其他家肯定是大幅下降的。
作为对比,根据 X 上的帖子得出,70 B 参数版本的 "Llama 3 "训练了约 700 万个 GPU 小时(基于 H100/A100 集群),训练运行成本约为 1,500 万至 2,000 万美元。更大的 405 B 版 "Llama 3.1 "的训练费用预计约为 1 亿美元。也就是网上讨论的:利用 Llama 3 模型系列的计算预算,META 至少可以训练 DeepSeek-V3 15 次。
NOTE
需要注意的是,H100 和 H800 均基于 Hopper 架构,但 H100 拥有更多 CUDA 核心、更高内存带宽(900 GB/s vs. 400 GB/s),而 H800 受出口限制调整,性能较低。
DeepSeek 的许多硬件优化都是为了克服使用 H800 而不是 H100 时内存带宽不足的问题。DeepSeek 工程师不得不降低到 PTX,这是 Nvidia GPU 的低级指令集,基本上类似于汇编语言。这种优化水平是疯狂的,只有在使用 H800 的情况下才有意义。
由于 OpenAI 不公开他们训练 GPT 4 的细节,因此成本大家估计在约 7,800 万美元~1 亿美元之间(未经证实)。
模型架构与训练
Multi-head Latent Attention
第一次听说 Multi-head Latent Attention(MLA) 是在去年 10 月份 Lex Fridman 2访谈 Cursor 创始成员的播客中,Lex Fridman 问到:“具体到 chat、diff 这种功能上,是怎么让模型响应这么快的?”
其中一位创始成员 Sualeh 提到:“如果我们能让 KV Cache 变得更小,就可以做更多预测。”
另一位成员 Aman 提到:“两年前比较主流的是多头注意力机制(multi-head attention),现在已经逐渐转向使用更加高效的注意力机制,比如 group query 或者 multi-query attention,这些机制能在更大的 batch size 下更快地生成 token。
但这些方法并不会影响首个 token 的预填充速度,它们主要是提升的是后续 token 的生成速度。这是因为用户生成 token 时面临的瓶颈不再是在所有 token 上执行高度可并行的矩阵乘法,而是在处理 long context 和更大规模的 batch size 时,如何快速读取那些缓存的 keys 和 values。这就又涉及到内存带宽的问题,我们可以通过压缩 keys 和 values 来提升速度。group query 或者 multi-query attention 的目的都是减少 KV Cache 的大小。
DeepSeek 开发的 MLA(Multi-Latent Attention,多隐向量注意力机制)也是一种,但 MLA 的思路更新:用一个大的共享向量来存储所有 keys 和 values,同时为每个 token 配备较小的向量,这样系统就只需存储较小的向量,它的原理是把所有注意力头的键值都转换成一个隐向量,这个向量随后会在时间维度上扩展。”
也就是说,生成第一个 token 时,Transformer 需要经过完整的前向传播计算,这包括:Embedding 层计算、Self-Attention、计算 Feedforward 网络,最终输出计算 logits,并基于概率选择最可能的下一个 token。
首个 token 计算瓶颈在于计算速度,预填充速度主要受计算能力和硬件并行度的限制,而不是内存带宽。因为此时还没有生成任何 token,KV Cache 尚未被填充,因此内存带宽的影响较小,解决方案是提升并行计算效率。
在生成后续 token 时的过程,模型已经生成了部分 token,并且 KV Cache 已经被填充。Transformer 主要依赖于之前计算的 KV Cache,而不是重新计算所有的 Attention 机制。具体来说:Transformer 的 解码过程是自回归的,意味着每次生成一个新的 token 时,需要重新查询所有之前的 token 信息以计算注意力权重,这些查询的计算核心是读取存储在缓存中的 keys 和 values,并执行 attention 计算。
生成后续 token 时,模型需要频繁读取 KV Cache 中的 keys 和 values。随着上下文长度和 batch size 的增加,KV Cache 的大小也会增加,导致内存带宽成为瓶颈。
IMPORTANT
这便是 MLA 的作用:高效压缩 KV Cache。MLA 的核心是对 keys 和 values 进行低秩联合压缩,以减少推理过程中的键值(KV)缓存,从而在长上下文与高并发的情况下加速模型的推理速度。
DeepSeekMoE
首先需要了解一下 MoE 是什么。
MoE 即 Mixture of Experts,专家混合(MoE)是一种在 Transformer 的基础上使用许多不同的子模型(或“专家”)的模型架构。
混合专家模型 (MoE) 主要由两个组件构成:
- 专家 (Experts): 不再只有一个全连接神经网络 (FFNN) 层,而是由多个 FFNN 层组成的一个“专家”集合。每个专家都相当于一个独立的全连接神经网络,负责处理特定类型的信息或特征。可以理解为每个专家都擅长处理不同的数据模式。
- 路由器或门控网络 (Router or gate network): 这个网络负责决定将输入数据的哪些 token 分配给哪些专家进行处理。它根据输入数据的特征,选择最合适的专家子集来处理,而不是让所有专家都处理所有数据。这就像一个调度器,将任务分配给最合适的专家。
MoE 通过将任务分配给不同的专家网络来提高效率和模型能力。它避免了让单个大型网络处理所有数据,从而降低了计算成本,并允许模型学习更复杂的模式,因为每个专家可以专注于其擅长的领域。
MoE 的架构可以称之为 Spare Model,模型推理时每一次前向反馈只有部分专家的神经元(参数)会被激活,与之对应的就是 Dense Model,每一次前向反馈,模型的所有神经元(参数)都会被激活。开源模型中,Qwen 2.5 与 Llama 3.1 都是 Dense Model,MoE 架构除了 DeepSeek 外,Mistral 的模型也是。
那么怎么决定哪些 token 分发给哪些专家进行推理?
由另一个组件——路由器(Router)——决定。
路由器也是一个 FFNN,用于根据特定输入选择专家。它输出概率,用于选择最佳匹配专家。
然而,路由器这个简单的功能往往会导致路由器选择同一个专家,因为某些专家可能比其他专家学得更快。我们希望专家在训练和推理过程中具有同等重要性,我们称之为负载平衡。从某种程度上说,这是为了防止对相同专家的过度拟合。
为了在训练过程中更均匀地分配专家,在网络的常规损失中加入了辅助损失(auxiliary loss,也称为负载平衡损失)。它增加了一种限制,迫使专家具有同等重要性。但是,这也有副作用,也就是会对 LLM 的性能造成一定的影响,同时也比较难以训练。
IMPORTANT
在 DeepSeek-V3 的 MoE 架构中,即 DeepSeekMoE,使用更细粒度的专家,并将一些专家隔离为共享专家。与 DeepSeek-V 2 略有不同的是,DeepSeek-V3 使用 sigmoid 函数对每个 token 计算匹配每个专家的概率,并对所有选定的概率得分进行归一化处理,以生成门控值。DeepSeek-V3 整个模型有 6710 亿参数,其中每个 token 推理时会激活 370 亿个参数。
IMPORTANT
此外,DeepSeek 训练 DeepSeekMoE 时采用了无辅助损失的负载均衡策略(Auxiliary-Loss-Free Load Balancing)。通过动态调整,DeepSeek-V3 可以在训练过程中保持专家负载平衡,与通过纯辅助损失来鼓励负载平衡的模型相比,DeepSeek-V3 能取得更好的性能。
Multi-Token Prediction
GPT 等 LLM 是 decoder-only 的结构,每一步推理时解码都是一个自回归的过程,也就是基于前文预测当前的一个 token。而 DeepSeek-V3 设定了多 token 预测(MTP)目标,将预测范围扩展到每个位置的多个未来 token。一方面,MTP 目标可压缩训练信号,提高数据效率。另一方面,MTP 可以使模型预先规划其表示,从而更好地预测未来的 token。
DeepSeek-V3 的 MTP 策略主要是为了提高主模型的性能,因此在推理过程中,可以直接丢弃主模型中的 MTP 模块,让主模型独立正常运行。此外,还可以将这些 MTP 模块重新用于推测解码,以进一步改善生成延迟。
DeepSeek-V3 通过 MTP 技术预测未来的 2 个 token。结合推测解码框架(Speculative Decoding),它可以显著加快模型的解码速度。一个自然而然的问题是附加预测 token 的接受率。根据我们的评估,在不同的生成主题中,第二个 token 预测的接受率介于 85% 到 90% 之间,显示了一致的可靠性。如此高的接受率使得 DeepSeek-V3 的解码速度大幅提高,达到了 1.8 倍的 TPS(每秒 token 数)。
NOTE
推测解码(Speculative Decoding)是一种旨在加速大型语言模型(LLM)推理过程的技术。传统的自回归解码方法需要逐个生成每个 token,导致推理速度较慢。而推测解码通过引入一个较小且快速的辅助模型来预测未来的 token,从而提高推理效率。
Speculative Decoding 的核心思想是:让小模型快速猜测多个 token,让大模型快速验证这些猜测,如果猜测正确,就一次性输出多个 token,从而加快生成速度。
在大多数情况下,让大模型验证检查小模型生成的 token 是否正确的成本比大模型自己生成 token 的成本低。
当前 Transformer 和 vLLM 这两个推理框架都有支持推测解码加速推理速度。
值得一提的是,推测解码(Speculative Decoding)也是 Cursor 团队提高 Cursor 响应速度的策略:
“首先,Cursor 的延迟很低。我们训练了专门的小模型来解决这类任务。这些模型很依赖 pre-fill tokens,也就是说,这些模型面对的是非常长的 prompt,需要处理很多代码行,但是实际生成的 token 并不多。这种情况下使用稀疏模型(Sparse Model)就很合适,这是一种 MoE 模型。这是我们做的一个突破,这个突破显著提高了模型处理长上下文时的性能。
另一个关键点是我们基于推测解码(Speculative Decoding)构建了推测编辑(Speculative Edits)。
这两个因素在我看来是 Cursor 生成质量高、速度快的关键。”
Post-Training
后训练阶段包括 Supervised Fine-Tuning 与 Reinforcement Learning。
Supervised Fine-Tuning 也就是监督微调,包含了推理数据与非推理数据。值得注意的是,对于推理相关的数据集,包括数学、代码竞赛问题和逻辑题是利用 DeepSeek-R1 生成的。对于创意写作、角色扮演和简单问题解答等非推理数据则利用 DeepSeek-V 2.5 生成回复,并请人类标注员验证数据的准确性和正确性。
Reinforcement Learning 过程中采用规则驱动的奖励模型(Rule-Based RM)和模型驱动的奖励模型(Model-Based RM)。规则驱动 RM 适用于可通过特定规则验证的问题,例如数学题和 LeetCode 题,可通过格式化答案或编译器测试来确保可靠性,避免操纵。模型驱动 RM 适用于自由答案或无唯一标准答案的问题,如创意写作,依据 DeepSeek-V3 SFT 训练的奖励模型进行评估。为提高可靠性,DeepSeek 构建包含推理过程的偏好数据,以减少奖励欺骗的风险。
NOTE
强化学习(Reinforcement Learning, RL)是一种机器学习方法,智能体通过与环境交互获取奖励信号,并通过试错学习最优策略。核心概念包括状态(state)、动作(action)、奖励(reward)和策略(policy)。
常见算法包括 Q-learning、深度 Q 网络(DQN)和策略梯度方法(如 PPO)。强化学习广泛应用于游戏 AI、机器人控制和金融交易等领域。
与 DeepSeek-V 2 类似,V3 采用 Group Relative Policy Optimization(GRPO),该方法摒弃了通常与策略模型规模相同的评论模型(critic model),转而从分组得分中估算基线。
DeepSeek-R1
R1 是一个类似于 OpenAI 的 o1 的推理模型。它具有思考问题的能力,能产生质量更高的结果,尤其是在编码、数学和逻辑等领域。DeepSeek 主要发布了 R1-Zero 和 R1 两款模型,以及利用 R1 基于 Qwen 和 Llama 蒸馏出来的其他小模型。
R1-Zero 是纯粹的只用 RL,而没有用 Supervised Fine-Tuning(SFT),R1-Zero 模型在 RL 过程中自然展现出多种强大且有趣的推理行为,但也遇到了可读性差和语言混用等问题。为了解决这些问题并进一步提升推理性能,研究团队提出了 DeepSeek-R1 模型,该模型在 RL 之前引入了多阶段训练和冷启动数据。
DeepSeek-R1 在多项推理任务上取得了与 OpenAI-o1-1217 相当的性能。
OpenAI 的 o1 模型在此之前作为市场上唯一的推理模型而独树一帜,为了防止别人使用其 CoT 数据去蒸馏加强其他模型,因此隐藏了 CoT 的过程细节,但 DeepSeek 在 APP 和 API 都完全展示了其思考的 CoT 过程,鼓励社区利用其蒸馏更好的其他模型。
R1 以几种重要方式颠覆了 o1 的神话。首先,它的存在就是一个事实。OpenAI 并没有某种无法复制的特殊配方。其次, R1——就像 DeepSeek 的所有模型一样——具有开放权重(说“开源”的问题在于我们没有创建它的数据)。这意味着,你不必向 OpenAI 支付费用来获取 CoT 推理,你可以在你选择的任何服务器上运行 R1 ,甚至本地运行,成本将大幅降低。
了解如何参考复制 R1 可以参考 HuggingFace 的 open-r1 项目,下图清晰的描述了训练 R1 的 3 个关键步骤:
R1-Zero
强化学习(RL)已被证明在 Supervised Fine-Tuning(SFT)阶段之后进一步提高 LLMs 的推理能力是有效的,但是此前的强化学习在很大程度上依赖于监督数据,而监督数据的收集需要大量时间。
R1-Zero 探索了 LLMs 在没有任何监督数据的情况下开发推理能力的潜力,重点关注它们通过纯强化学习过程进行自我进化的情况。
R1 使用了在 DeepSeekMath 论文中提出的 Group Relative Policy Optimization (GRPO) 强化学习算法,该方法摒弃了通常与策略网络模型(Actor)大小相同的价值网络模型 (critic),而是从组得分中估计基线。
GRPO 算法是一种改进版本的强化学习算法,它源自于 PPO(Proximal Policy Optimization)算法,旨在提高大型语言模型在数学推理任务上的性能,同时减少训练资源的消耗。
NOTE
PPO 算法是一种广泛使用的策略梯度方法,它通过限制策略更新的幅度来保持训练的稳定性。PPO 通常包含一个策略网络(Actor)和一个价值网络(Critic),其中策略网络负责选择行动,而价值网络则预测状态的价值,以此来计算优势(Advantage),进而指导策略网络的更新。然而,PPO 在训练大型语言模型时可能会需要大量的内存资源,尤其是当模型规模庞大时。
GRPO 算法的核心思想是去除 PPO 中的价值网络(Critic),转而使用一组从旧策略中采样的输出(outputs)的平均奖励作为基线。具体来说,GRPO 对于每个问题(question)都会从旧策略中采样多个输出,并计算这些输出的平均奖励。然后,它使用这个平均奖励作为基线,与每个输出的具体奖励进行比较,从而得到每个输出的相对优势。这种方法减少了对价值网络的依赖,降低了内存和计算资源的需求。
RL 训练过程中设计了一个简单的模板,引导基础模型遵循指定的指令。如下图所示,此模板要求 DeepSeek-R1-Zero 首先生成一个推理过程,然后给出最终答案,验证模型给出的答案是否正确,正确则更新模型。
DeepSeek-R1-Zero 的自我进化最显著的特征之一,是随着测试时间计算量的增加,其复杂行为的自发涌现。例如,模型会自发地进行反思——重新审视和评估之前的步骤——并探索替代的解题方法。这些行为并非预先编程,而是模型与强化学习环境交互的自然产物。这种自发涌现的复杂行为显著提升了 DeepSeek-R1-Zero 的推理能力,使其能够更高效、更准确地处理更具挑战性的任务。
DeepSeek-R1-Zero 训练过程中一个引人注目的现象是“顿悟时刻”(Aha! moment)的出现,如下图所示,这发生在模型的中间迭代阶段。在此阶段,DeepSeek-R1-Zero 通过重新评估初始策略,学会了为问题分配更长的思考时间。
这一行为不仅展现了模型不断增强的推理能力,也生动地说明了强化学习如何产生意想不到的复杂行为。这不仅是模型的“顿悟时刻”,也是研究人员的“顿悟时刻”,它有力地证明了强化学习的潜力:无需明确指导,只需提供合适的奖励机制,模型就能自主开发出高级的解决问题策略。这一发现预示着强化学习有望开启人工系统智能的新高度,为未来更自主、更适应性强的模型奠定基础。
DeepSeek 官方「深度思考」模式下,一个简单的 CoT 推理过程示例:
这是对 The Bitter Lesson 3最有力的一次肯定之一:你不需要教 AI 如何推理,你只需要给它足够的计算和数据,它就会自我学习!
IMPORTANT
在 AI 领域中最有效的途径是利用通用方法和计算能力,而不是依赖人类工程化的知识或特定领域的解决方案。
R1
在 R1-Zero 的成功基础上,R1 旨在回答 2 个问题:
- 少量高质量数据作为冷启动是否能进一步提升推理性能或加速收敛?
- 如何训练一个用户友好的模型,使其不仅能生成清晰连贯的思维链 (CoT),还能展现强大的通用能力?
训练 R1 分 4 个步骤:
- 冷启动;
- 以推理为导向的强化学习;
- 拒绝采样和监督微调;
- 针对所有场景的强化学习。
DeepSeek-R1 模型的训练采用了带有冷启动数据的强化学习方法,以进一步提升推理能力并改善模型的用户友好性。
首先,为了避免 RL 训练初期的不稳定性,研究团队收集了数千个长 Chain of Thought(CoT)示例的冷启动数据,用于对 DeepSeek-V3-Base 模型进行微调。
接下来,模型经历了专注于推理的 RL 训练,同时引入了语言一致性奖励以减少语言混用问题。
在 RL 训练接近收敛后,通过拒绝采样和监督 finetuning(SFT),使用 RL 检查点生成新的 SFT 数据,并结合 DeepSeek-V3 在写作、事实问答和自我认知等领域的数据重新训练模型。
最后,模型在所有场景的 RL 训练中进一步优化,以提高模型的有用性和无害性。
通过这一系列的训练步骤,DeepSeek-R1 模型的性能得到了显著提升,并在多个推理任务上取得了与 OpenAI-o 1-1217 相当的成绩。
Distillation v.s. Reinforcement Learning
论文得出以下两个结论:
IMPORTANT
首先,将更强大的模型蒸馏成更小的模型可以产生优异的结果,而本文中提到的依赖于大规模强化学习的小型模型则需要巨大的计算能力,甚至可能无法达到蒸馏模型的性能。其次,虽然蒸馏策略既经济又有效,但要突破智能的界限,可能仍然需要更强大的基础模型和更大规模的强化学习。
可以预见的是,除了消费者直接受益于 R1 之外,开源的 R1 可以说也给 AI 社区带来了巨大的金矿——详细的技术报告与可蒸馏的高质量 CoT 数据。基于 R1,将会有更多具备强推理能力的开源模型出现,百花齐放的局面对 AI 应用大爆发 提供了强劲的动力。 这将加速 AI 技术的民主化进程,降低开发门槛,让更多开发者和研究者能够参与到大型语言模型的研发和应用中。
观点
在英伟达股价遭受重大下跌之际,微软 CEO 引用了杰文斯悖论(Jevons paradox)描述 DeepSeek 带来的影响:“杰文斯悖论再次袭来!随着 AI 越来越高效,越来越容易获得,我们将看到它的使用率急剧上升,成为我们用之不尽的商品。”
NOTE
杰文斯悖论 (Jevons paradox) 指的是:技术进步提高了资源利用效率,反而导致了对该资源需求的增加,最终导致资源消耗总量上升的现象。
简单来说,就是因为某种资源变得更便宜、更有效率了,人们反而会更多地使用它,抵消甚至超过了效率提升带来的节约。
一个经典的例子是:蒸汽机的发明提高了煤炭的利用效率,但最终导致了煤炭消耗量的增加,而不是减少。 因为蒸汽机使得煤炭更便宜、更容易获得,从而刺激了工业发展和煤炭需求的增长。
微软、亚马逊、英伟达、苹果、Meta 和 Perplexity 等都将直接受益于 V3 与 R1 的开源:
一个微软只需花费极小成本就能向客户提供推理服务的世界意味着微软在数据中心和 GPU 上的投入会减少,或者,鉴于推理成本如此之低,更有可能看到大幅增加的使用量。
AWS 基本上未能开发出自己的高质量模型,但如果他们能够以远低于预期的成本提供非常高质量的开放源代码模型,那么这就不重要了。
基于杰文斯悖论,英伟达无论如何也不会下牌桌,DeepSeek 大大减少的单次训练成本不会构成对 GPU 需求的减少,模型在正式训练后就结束了,但是模型推理的需求可以说是无穷无尽的。
Meta 的各个业务(主要是推荐与广告)都将从 AI 技术中获益,但高昂的推理成本是实现这一愿景的主要障碍。大幅降低推理成本,并考虑到 Meta 维持领先地位的需求而同时降低训练成本,将使这一愿景更易实现。
推理所需的内存需求大幅降低,使得边缘推理变得更加可行,而苹果恰好拥有最适合的硬件。苹果硅芯片使用统一内存,这意味着 CPU、GPU 和 NPU(神经网络处理器)都可以访问共享的内存池;这意味着苹果的高端硬件实际上拥有最佳的推理消费级芯片(Nvidia 游戏 GPU 的 VRAM 最大为 32GB,而苹果的芯片高达 192GB 的 RAM)。
作为 AI 应用端的 Perplexity,在 DeepSeek 开源 V3 与 R1 后,第一时间引入了 R1,还提高了免费用户每日使用 pro 功能的次数,其 CEO 在 X 上相当活跃且看得出很开心,理由不难理解,原本他们要一直向 OpenAI 和 Anthropic 掏很多钱来使用最先进的模型,现在可以省下很多成本了。
而 OpenAI、Anthropic 和 Gemini 等闭源 AI 将受到挑战。
谷歌的情况可能更糟:硬件需求减少降低了其 TPU 硬件的相对优势。更重要的是,零成本推理的可能性增加了替代其搜索产品的可行性;虽然谷歌也能受益于成本降低,但任何现状的改变都可能对其造成净负面影响。
但是谷歌去年拿了 2 个诺贝尔奖,其 AI 科研的实力还是不容小觑,且 NotebookLM 这类 C 端应用也有跑了出来,综合看不论是算力、模型、科研、生态和应用,谷歌都有牌可以打,这个 AI 巨无霸依然拥有强大的竞争力。
毫无疑问,中国将是另一大赢家。
至于笑谈“开源是智商税”的文心一言不知作何感想。
参考
- DeepSeek-V3 Technical Report
- DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
- DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
- Cursor Team: Future of Programming with AI | Lex Fridman Podcast #447 - YouTube
- Cursor:如何构建 AI Coding 最佳实践?
- A Visual Guide to Mixture of Experts (MoE)
- DeepSeek FAQ – Stratechery by Ben Thompson


Footnotes
SemiAnalysis 是一家专注于 AI 和半导体行业的分析机构,提供深度行业报告、市场趋势解读及公司战略分析,广受投资者和从业者关注。 ↩
Lex Fridman,AI 研究员,MIT 博士,播客主持人。 ↩
Rich Sutton(强化学习领域的奠基人之一)在 2019 年发表的经典短文 The Bitter Lesson (苦涩的教训): http://www.incompleteideas.net/IncIdeas/BitterLesson.html 。 ↩