为什么中国只有一个 DeepSeek?

发布日期:2025-03-06 03:01    点击次数:95

DeepSeek 风暴后,中国的大模型创业圈会发生什么样的变化?

近日来,笔者也与多位业内人士进行了探讨,发现国产大模型圈目前出现了两个极端:一个是极端的热血沸腾,另一个则是极端的霜打茄子。

前者以积极拥抱 DeepSeek 生态的算力厂商与模型服务厂商、以及原先没有能力参与大模型"军备竞赛"的开源受益者为代表,后者则以其他中国大模型创业公司(俗称"大模型六小虎")与过去两年投资了这些公司的 VC 们为主,形成了一个"冰火两重天"的局面。

据了解,部分在过去两年投了估值在第一梯队的大模型公司的 VC 团队已经开始准备 / 正在接受内部的"鞭尸",主要被质问的角度无非是几点:

"为什么 DeepSeek 用这么低的成本就能训练出这么强大的模型,而我们投的大模型公司融资了几十亿美金却做不出来?"雷峰网

" DeepSeek 这次能出圈本质还是技术足够创新、足够牛。XXX 家连基本的大模型技术团队都没有,为什么要投?"雷峰网

" XXX 也有非常强大的人才团队,而且也有训练基座大模型的经验与追求,为什么没有成为 DeepSeek?他们靠什么支撑这么高的估值?"

" DeepSeek 出来后,谁还会投大模型六小虎?还有哪几个有上市希望?如果没有,接下来我们是回购还是退出?"

……

"为什么没有成为 DeepSeek ",以及"为什么中国只有一个 DeepSeek ",是几乎所有大模型从业者与 VC 从春节就开始求索的问题。这两个问题几乎可以涵盖了目前国内所有关于大模型创新的焦虑,也只有严肃探讨这两个问题,才能回答另一个更重要的问题:如何成为 DeepSeek?

在春节期间的一篇文章《「DeepSeek 现象」只是中国 AI 崛起的开始》中,我们已经从中美 AI 创新对比的大角度试图向行业传递一个信息:中国 AI 需有民族自豪感;而在这一篇文章中,我们希望结合过去四年中国大模型的发展历史,进一步探讨:

中国是否缺少像 DeepSeek 这样的技术理想主义者?

如果中国不缺少,这样的技术团队是否已被充分挖掘、并得到相应的社会系统性支持?如没有,原因出在哪里?雷峰网

作为一个从 2020 年 GPT-3 爆发以来就跟进大模型报道的行业号,这篇文章无意于回答一个如此宏观而深刻的问题,只从第三方视角呈现一些或许与该话题相关的事实或观点。

1、系统性错位

2023 年之前,中国只有 4 家大模型公司:智谱、面壁、深言与聆心(后被智谱收购),且都来自清华;2023 年之后,大模型的创业公司增加到了十几家,从技术上看直接原因是 Llama 开源,但最根本的原因其实是,那时候所有人都认为:

大模型的技术门槛虽高、但并非不可模仿。尤其基于已有的开源大模型,技术难度进一步降低,"技术无法构成商业壁垒"的论调甚嚣尘上。

在这种集体共识的"统治"下,我们复盘 2023 年 ChatGPT 爆火后中国大模型创业的几个力量动态,就不难理解当前中国大模型创业中场的畸形现象:

首先,由于整个市场对技术创新的敬畏之心变弱,2023 年 ChatGPT 大火后,中国的第一批大模型技术探路者中,只有智谱一家成为了资本的宠儿,最早突破 200 亿人民币估值大关、跻身大模型第一梯队。(月之暗面是 2023 年后成立的,故不算在其中)

而由清华自然语言处理实验室(THUNLP)走出的其余两家创业公司面壁、深言,在资本市场的呼声远不如后来的新势力。

尤其是面壁智能(因为深言选择了聚焦产品),作为国内最早提出要做"平民版大模型"、跟 DeepSeek 的技术愿景与创新方向最像、甚至比 DeepSeek 还早成立的一家公司,直到 2024 年年底完成一笔 3 亿人民币的融资后、估值也才不到 35 亿人民币,距离第一梯队的 200 亿门槛相差极远。

据雷峰网 AI 科技评论过去两年与超 50 位大模型投资人的交流所知,同是清华出身、同有技术先发优势、同有优秀年轻技术人才的智谱与面壁之所以相差那么大,主要有几方面原因:

一是清华学术派追基座模型的只押一家,因为"对教授创业持保留意见";二是智谱的愿景更好理解,早期对外融资时说"对标 OpenAI "、VC 立刻就懂,但面壁由于一开始就强调底层模型训练效率优化,在热钱最多的 2023 年一度被认为是一家类似潞晨、硅基的" AI Infra "公司。

面壁智能在 2023 年没拿到太多钱、无法投入基座大模型,通过类似 DeepSeek V3 这样的基座大模型训练直观反馈高效训练的重要性,2024 年就只有走端侧小模型,而后者对"高效训练"的代言效果远没有 DeepSeek V3 这样的工作好。

2022 年、2023 年在融资时,面壁就打出"高效训练"的旗号去融资,但几乎在 VC 那吃遍了闭门羹。

其次,也是承接没有对技术敬畏之心的大环境前提,2023 年大模型浪潮来临后,中国的 AI 科技 VC 其实并没有沉下心来研究 AGI 这项技术,而是为了迅速上桌将钱投向了"曾打过胜仗的连续成功创业者",哪怕这些团队此前压根没有过任何大模型研发经历。

这当中,最典型的代表是王慧文的光年之外与王小川的百川智能。

当前估值超过 200 亿人民币的大模型公司中,只有智谱唐杰、月之暗面杨植麟等人是从 2020 年大模型未出圈时就开始了对大模型的技术探索,百川智能、MiniMax 与阶跃星辰的团队大多都是在 2023 年之后才展开。

譬如,MiniMax 的创始人闫俊杰是计算机视觉出身,而大模型起初解决的是语言智能(多模态是另一篇章)。不过 MiniMax 最早是靠产品 Glow 出圈、而非底层大模型技术获得资本青睐的,所以这是另外一个维度,且靠近闫俊杰的人对他的评价都是"很有技术追求"。

DeepSeek 的研发团队同样是从 0 开始学习大模型技术,苦读论文、死磕实验,所以没有任何迹象表明一个从前未曾训练过大模型的团队无法通过在 2023 年之后的努力学习来补足技术的短板,但从过去两年的行业发展来看,百川智能在基座模型上的升级并不频繁,重心转向医疗行业大模型。

由于不训练视频等大模型,百川的研发成本较其他公司更低,现金流充裕——但这只对百川有利,对整个大模型行业的发展是没有贡献的。

假设在资源有限的情况下,没有技术能力的团队占据了大量的资本资源,反之有技术能力的团队却只能得到极少的资本资源,钱、才的系统性错位注定产生的结果只有遗憾、没有未来。

如若 AGI 大模型技术果真已没有上升的空间、各家的技术壁垒已经逐渐拉平,那么互联网时代拼资源、拼资本的打法或许也能分到最后一杯羹。但对技术有敬畏之心的创业者始终保持清醒的头脑,依然能看到现有大模型底层算法与架构等在训练与推理中所存在的不足,知道 AGI 仍有许多具体且高难度的问题要解决。

也就是说,底层技术的持续创新能力仍是大模型公司的护城河,纯拼资源的互联网方法论暂不适用当前中国的大模型发展。——但这些话大概率不会得到大部分中国科技 VC 的认可,因为 2023、2024 年的大模型投资甚至还有" Club Deal "这样的玩法 ……

在过去两年的大模型发展中,一个不愿意学习技术的 VC,比一个不愿意学习技术的研发所产生的杀伤力,可能还要更大。

泡沫期终将结束。潮水褪去后,谁在裸泳也将一目了然。

2、AGI 军团可遇不可求

市场对技术缺乏敬畏之心的另一个影响是:为了迎合市场,(当然还有突破大厂围剿的考虑),过去两年中国大模型创业公司的目光也从长期的 AGI 转到短期的商收、产品打磨上。

这一打法的变化也是因为上述行业的误判,以为大模型再无创新之处。坚定追求 AGI 的创业者必须同时兼顾商业与技术,而对 AGI 产生怀疑或彻底被市场声音迷惑的团队则要么放弃预训练、全面转向 C 端应用或干脆只基于开源模型微调行业大模型。

从 GPT-3 到 ChatGPT 的出现经历了两年半,但市场却普遍呈现出一个"规律":国内的大模型从基座到商业化只要两年。尽管一些大模型公司能同时坚持" L2 "与" L4 "两步走,但在人才与研究资源的投入上没有一家公司能像 DeepSeek 一样对 AGI 这么纯粹。

2023 年上半年融资战刚开始时,业内的一个分析是:中国的 VC 经过上一代 AI 公司的"洗礼",对大模型公司的商业化耐心已经从 5 年、8 年缩短到 3 年内。——这或许是中国大模型公司的普遍困境。

众所周知:DeepSeek 专注 AGI 研究,是依托梁文锋个人与幻方量化的原有储备资金,没有向外融资。"自己有钱,所以不需要听外界的,自己想干什么就干什么。"——这也是众多大模型公司对 DeepSeek 羡慕的地方。

近日原先喷 AGI 的朱啸虎又改口称因为 DeepSeek 愿意投 AGI 公司,可以说是 DeepSeek 用过硬的技术实力改变了 VC 的看法,但更残酷的一个现实是:可能大批有过硬创新能力的团队因为融不到钱而倒在时代的前夜。

"商业化思维"不仅反映在部分科技 VC 的影子中,其实也反映在研发人才的选择中。

根据猎头的反馈,2024 年,中国对人才"氪金"力度最大的公司毫无疑问是字节跳动。大厂与创业团队的分野已经形成,而大模型人才从创业团队流向大厂更是成为过去一年的普遍选择。例如,据 AI 科技评论所知,DeepSeek 为做 AGI 所物色的多位 NLP、多模态与强化学习方向的优秀人才,就在 DeepSeek 与字节跳动之间选择了 字节跳动。

据早期为 DeepSeek 服务的猎头透露,DeepSeek 早期也希望从海外的谷歌、Meta、OpenAI 等团队挖顶尖人才,但进展并不顺利,所以只能退而求其次、自己培养。

AGI 的投入,除了要有钱,也要有人,而且是一群绝对的技术理想主义者,以及优秀的组织文化。DeepSeek 的成功或许无法复制,但从 V2、V3 到 R1、R1-Zero,DeepSeek 的技术结果体现了其在资金、人才 / 理想与组织文化上的优势。

在 DeepSeek 之前,"北九坤、南幻方"就已经在金融量化领域鼎鼎有名,而量化行业对技术人才的高要求也是众所周知的,基本以 Top2 高校、信息学竞赛金牌选手为基准,团队规模往往不大,但能力超强。据 AI 科技评论了解,2024 年上半年 DeepSeek 的团队规模也只有 40 多人,且大多数是原幻方 Top2 的技术高手。

延续原来幻方的风格,DeepSeek 的招聘门槛一直非常高。比如,他们从 2024 年年中就开始物色多模态与强化学习方向的技术大牛,但招了大半年、相关岗位也依然空缺,对人才的招聘宁缺毋滥。R1 爆火后,投递简历虽然暴增,但据知情人士称"合适的并不多"。

DeepSeek 内部的组织文化也非常扁平。据 AI 科技评论了解,无论是北京还是杭州,都只有一个老板:DeepSeek 创始人梁文锋。"梁文锋以下基本全是打工人。"

此外,梁文锋的个人风格也十分明显:有极强的技术信仰,对 AGI 有十足的好奇心与求知欲,并且十分刻苦。接近梁文锋的知情人士形容,梁文锋"说话非常非常慢,每一句话都要思考很久很久才表达出来,而且表达非常简洁。虽然简洁,但说出来的话经常一针见血。"

DeepSeek 的团队文化与宇树、Momenta 这样的公司很相似:一号位都是技术发烧友,对技术有天然的敬畏之心与好奇之心;同时在管理上集权风格明显,文化扁平,因而能在技术探索中遇到困难时能自上而下协调资源,快速达到上传下达的效果。

同时,宇树与 DeepSeek 在招人时也有一套自己的标准,与市面上千篇一律的面试套路很不同。有兴趣的读者可以去了解下。

DeepSeek 梁文锋很早开始探索如何用更低的成本训练出更强的模型,彼时行业还普遍看不懂。同样地,宇树王兴兴也是在大家还看不懂机器狗时就开始做四足机器狗,Momenta 曹旭东也是在自动驾驶行业还普遍沉醉于 L4 时同时开始做 L2 与 L4、两条腿走路。

敢于与主流对着干的创业团队需要一种强大的叛逆精神。在 AI 科技评论与多位投资人的交流中,这种"叛逆"容易被轻易地归类为"年轻人群体",但在笔者看来,叛逆的底气终究来源于一个团队对自己所要解决的社会问题的认知、判断与技术自信,即:坚信自己的前进方向是未来的,会带来巨大的价值。

3、创新的品味

V2 掀起价格战后,梁文锋在接受《暗涌》的访谈时对这个技术成果的评价是:"在美国每天发生的大量创新里,这是非常普通的一个。"

V3 与 R1 之后,梁文锋暂时还没有对外发过声,但对 DeepSeek 与梁文锋来说,在完全实现 AGI 之前,或许 V3 与 R1 的创新也只是"非常普通的一个"。——这并非否定后两者的突破与可取之处,而是想突出高追求的团队往往会将 100 分的事情说成 80 分,并永远追求附加分。

R1 发布,业内的一位资深强化学习学者向 AI 科技评论分析时表示:"用纯 RL 算法代替 RL+SFT 的范式后,我觉得 AGI 的实现最晚三年。"

Sam Altman 说 2025 年 AI 就会超越人类,马斯克也说 AGI 最晚在 2026 年就可以实现。——在各种" AGI 时间点"的预言上,虽然我们很难判断具体会在什么时候发生,但可以感受到这样的大趋势正在发生。

趋势已知,同时 DeepSeek 的打板已经让大家意识到起码两个事实:一是 AGI 的技术还没到天花板,二是中国的科技团队有能力做出引领世界 AGI 的创新。相比沉浸于 DeepSeek 的胜利,接下来怎么推动中国 AGI 的发展,才是更重要的事情。

在过去的半个月,DeepSeek 的风暴让大厂、创业公司、算力厂商、投资人等对 AGI 发展的认知都产生了新的变化。一些过去被忽视的大象般的问题重新得到重视,同时一些过去的陈旧看法也被颠覆。但一致的变化是:所有人都意识到,在现阶段,AGI 的实现仍需要理想主义。

相比猜测 OpenAI 或 DeepSeek 下一步会做什么,推断 AGI 需要解决什么技术问题更重要。换言之,创新比模仿更重要。

事实上,根据过去一年 AI 科技评论的访谈,除了 DeepSeek,国内也有不少 AI 人才在不断坚持创新、不断提出新的解法来解决悬而未决的难题。只列举一二:

香港大学计算与数据科学研究院院长马毅教授在过去两年一直强调:当前通过高算力推进训练的大模型拥有的是知识、而非智能。区别于深度学习的黑盒特质,马毅团队一直致力于研究可解释、可控制的人工智能算法与框架(白盒理论)。(更多信息可以阅读 AI 科技评论往期报道:《港大马毅:现在大模型的「知识」,不等同于「智能」》)

CNCC 2024 上,智谱唐杰提到多模态技术的下一步发展。从 2021 年开始,智谱团队就开始探索多模态大模型。据智谱团队透露,在早期探索中,他们遇到过类似的问题:文本、图像、语音与视频等多模态数据同时灌入训练大模型时,一个模态的数据似乎会削弱另一个模态的知识 / 智能。多模态虽然趋势,但如何优化跨模态的数据对齐、收集高质量的数据、以及增强多模态模型的常识与推理能力等,也仍有很强的研究空间。(更多内容可以阅读雷峰网往期报道:《五道口大模型简史》)

而据 2024 年 3 月与面壁团队多位创始成员的交流,当前主流的大模型架构其实还无法很好地解决几个关键问题,由此难以靠近 AGI:如经验学习与空间记忆。例如人可以通过多次学习一件事而更熟练,或者迅速熟悉新环境、并将另一个问题的认知有效迁移到新环境中。这些问题是当前 Transformer 不太好表达的。(更多内容可以阅读 AI 科技评论往期报道:《被低估的面壁:打造出不输 OpenAI 的 Scaling Law 曲线》)

随着具身智能的发展,接下来 AGI 也天然分会分为云端 AGI 与端侧 AGI。端侧 AGI 指的是天然能感知环境与进行做高阶推理,并能基于高阶推理做出复杂多步的决策的模型。热门的具身大小脑就是沿着这一趋势发展,而这一方向也仍有许多问题要解决。要解决这些问题,除了资源,还要有强烈的技术实力与技术愿景。

o1 发布后,大模型领域的许多研究开始往推理走,但据小道消息:谷歌的 Gemini 团队近日已完成了新一代的基础模型,并对一小部分用户开放了测试。

虽然 2023 年谷歌被 OpenAI 打得股价暴跌,但如果看 2020 年 6 月到 2022 年期间谷歌的大模型技术,就可以发现谷歌的大模型打法是自下而上构建从底层算力、架构到上层算法的体系。这或许也是谷歌 Gemini 能后来发力的重要原因。

DeepSeek 的路径也是如此。根据 DeepSeek 的技术披露,其研究大模型的路径也是从底层万卡集群、HAI 框架向上贯穿,构建环环相扣的技术体系。

对权威保持警惕、永远从问题的本质倒推,坚定创新,才能引领潮流。短期的快钱或许会流向幸运的人,但长期的资源应该流向那些擅长将资源应用到最好的团队。

希望 2025 年,中国不再只有一个 DeepSeek。