草稿 / Draft 2025-12-22T12:54:26+08:00

DeepSeek创始人梁文锋：不到600万美元的训练成本，打造出媲美千亿美元投入的顶级AI模型【百位人物（12）】

AI / AI 方法论 / Methodology

🚀 梁文锋：从湛江小镇走向全球AI前沿的技术理想主义者

一位80后中国创业者，用不到600万美元的训练成本，打造出媲美千亿美元投入的顶级AI模型

震动硅谷 · 撼动华尔街 · 让英伟达市值单日蒸发6000亿美元

⚠️ 免责声明：本报告所有信息均通过互联网公开渠道整理而成，仅供参考学习。涉及的数据、事件和言论均来自公开报道、维基百科、企业公开声明、学术论文和新闻报道。本报告不代表对任何个人或企业的商业建议，仅为信息汇总和分析。

2025年1月20日，一个名为DeepSeek-R1的开源AI模型横空出世，在数学推理、代码生成等核心能力上全面比肩甚至超越OpenAI的旗舰产品o1。更令人惊叹的是，它的训练成本仅约557万美元——不到竞争对手的二十分之一。

一夜之间，全球科技圈为之震动，《经济学人》以封面文章报道"低成本中国模型的成功动摇美国科技优势"，硅谷传奇投资人马克·安德森称其为：

"The most impressive and amazing breakthrough I've ever seen."

「我见过的最令人惊叹和印象深刻的突破之一。」

这场技术革命的幕后推手，是一位鲜少公开露面、被形容为"留着可怕发型的书呆子"的40岁中国企业家——梁文锋。

✦ ✦ ✦

一粤西小镇走出的高考状元

1985年，梁文锋出生于广东省湛江市吴川市覃巴镇米历岭村。这是一个典型的粤西农村，距离省会广州约350公里，在当时并非经济发达地区。

然而，他的家庭却有着浓厚的教育氛围——父母双双是吴川市梅菉小学的教师，父亲教授语文。在那个"读书无用论"盛行的年代，许多家长到梁家劝说"早点出去打工赚钱"，但教师家庭的坚守为年幼的梁文锋种下了求知的种子。

🌟 童年的天才迹象

梁文锋的童年展现出异于常人的学习天赋和专注力。在梅菉小学就读期间，他的班主任李先生至今记得这个学生的特点：

✦ 课堂高度专注，总是第一个举手回答问题

✦ 喜欢挑战难题，善于总结归纳老师授课的内容

✦ 热衷于制作航空、航海模型

✦ 三四年级时开始集邮，甚至摸索出"以邮养邮"的方法来扩充自己的收藏

1996年，11岁的梁文锋从梅菉小学直升至吴川市第一中学——当年全校仅有4名学生获得这一资格。此后六年，他一直是学校公认的"尖子生"。

🎯 令人惊叹的细节

更令人惊叹的是，初中阶段他就已学完高中全部数学课程，甚至开始自学微积分等大学内容。高中同学陈先生回忆："读书的时候，梁文锋就经常做课题实验，学习刻苦，也热爱足球。"

2002年，17岁的梁文锋迎来人生第一个重要转折点。这一年的高考中，他以理科816分的成绩夺得吴川一中"高考状元"，被浙江大学电子信息工程专业录取。

一个粤西小镇的农村孩子，就此踏上了通往中国顶尖学府的道路。

✦ ✦ ✦

二浙大求学：从电子工程到机器视觉

浙江大学的八年时光（2002-2010年），塑造了梁文锋的技术基因和创业雏形。

📚 本科阶段：初露锋芒

本科期间，梁文锋就读于电子工程系人工智能方向，主攻电子信息工程专业。尽管入学时对计算机并不熟悉，但他很快展现出对技术的强烈兴趣和自学能力。

🏆 全国一等奖

2005年，大三的他与队友祁迪锋、刘威组队参加第七届全国大学生电子设计竞赛，挑战C题"简易频谱分析仪"的设计制作，最终斩获全国一等奖（浙江赛区）——这是该竞赛的最高荣誉之一。

🔬 硕士阶段：机器视觉研究

2007年，梁文锋继续在浙江大学攻读硕士学位，进入信息与电子工程学院（信通系），师从项志宇教授，研究方向为机器视觉——包括计算机视觉、目标跟踪算法等。

📋 导师背景

项志宇是一位有着丰富国际经历的学者：

✦ 曾在葡萄牙阿威罗大学从事博士后研究

✦ 曾在美国俄亥俄州立大学从事博士后研究

✦ 参与过DARPA GRAND CHALLENGE 2004全美越野机器人大挑战

他的硕士毕业论文题为《基于低成本PTZ摄像机的目标跟踪算法研究》，研究如何让成本较低的云台摄像机实现稳定、准确的目标跟踪——这一选题体现了他一贯的风格：用更低的成本解决复杂问题。

这一研究思路在十多年后的DeepSeek身上得到了惊人的延续。

「用最低的成本，达到最好的效果」——这是梁文锋的技术信条。

🎬 有趣的历史插曲

值得一提的是，浙大求学期间，大疆创始人汪滔曾试图招募梁文锋加入创业团队——当时大疆还处于起步期，而梁文锋在机器视觉领域的研究与大疆的技术方向高度契合。但梁文锋最终婉拒了这一邀请，选择了自己的创业道路。

假设当年他加入大疆，中国科技史或许会是另一番景象。

✦ ✦ ✦

三量化投资的起点：从8万元到千亿帝国

梁文锋对金融市场的兴趣萌芽于2007-2008年全球金融危机期间。当时还在读研的他，与几位浙大同学开始探索一个大胆的想法：

"能否用机器学习来做全自动量化交易？"

「这个想法在2008年的中国还很陌生。量化投资这个概念刚刚在华尔街的精英阶层中流行起来。」

💰 8万元的起步

2008年，23岁的梁文锋带着仅8万元人民币的本金，开始了独立的量化交易探索。

🛠️ "野路子"的技术创新

由于当时国内缺乏成熟的量化交易工具，他另辟蹊径：

✦ 用数字图像处理方法截取行情软件界面的数据

✦ 写外挂程序破解交易软件接口

✦ 硬生生搭建起自己的交易系统

这种"野路子"的技术创新，某种程度上预示了他日后在AI领域挑战主流范式的风格。

🚶 成都的失败岁月

2010年硕士毕业后，梁文锋搬到成都，尝试在多个行业引入AI技术，包括全自动绣花机等产品，但均以失败告终。

经历一番摸索后，他最终将目标锁定在金融领域——这是当时AI技术最有可能产生商业价值的方向之一。

🏢 幻方量化的诞生

2013年
28岁的梁文锋与浙大同学徐进共同创立杭州雅克比投资管理有限公司。公司名取自德国数学家卡尔·雅可比（Carl Jacobi），暗含了创始人对数学与算法的崇拜。

2015年
梁文锋正式创立杭州幻方科技有限公司（现浙江九章资产管理有限公司），即后来声名鹊起的幻方量化（High-Flyer Quantitative）。

📖 "幻方"名称的由来

公司名称取自中国古代洛书《九宫图》中的"幻方"——一种特殊的数学矩阵，象征科学与吉祥。

👥 联合创始团队

✦ 徐进：浙大竺可桢学院混合班，后获浙大博士

✦ 郑达韡：浙大校友

✦ 陈哲：浙大校友

✦ 李欢：浙大校友

🌱 草根创业的艰难

创业初期的条件相当简陋：

❌ 整个公司只有约10人、10张GPU显卡

❌ 办公室位于杭州拱墅区的一栋写字楼里

❌ 草根创业，知名度低，招聘困难

团队甚至想出用"美女HR照片"和"Herman Miller豪华办公椅"来吸引人才的策略。

🎯 关键转折点：2015年

2015年恰逢中国量化投资的关键转折点——4月，中证500股指期货上市，为量化策略提供了重要的对冲工具。同年夏天的A股股灾中，幻方量化凭借高频量化策略逆势取得不错成绩，开始崭露头角。

2016年10月21日，幻方量化迎来了历史性的一天：第一个由深度学习算法模型生成的股票仓位正式上线实盘交易。这一天，公司从依赖CPU和传统机器学习算法，跨入了GPU深度学习的新纪元。这个日期被内部视为幻方AI化的起点。

✦ ✦ ✦

四飞速崛起：量化四大天王

此后的发展堪称飞速：

2017年
管理规模约30亿元，年底实现全部策略AI化

2018年
首次获得私募金牛奖（中国私募证券领域最高荣誉），正式确立AI为核心发展方向

2019年
管理规模突破100亿元，跻身百亿私募行列；同年成立幻方AI，启动"萤火一号"超算集群建设（投资近2亿元，1100块GPU）

2020年
萤火一号投入使用，全年收益率高达70.79%

2021年8月
管理规模突破1000亿元，与九坤、锐天、明汯并称"量化四大天王"

🎤 2019年金牛奖演讲

"量化基金没有基金经理做决策，基金经理就是一堆服务器。"

这句话既是对幻方模式的精准概括，也预示了AI时代资产管理的未来形态。

✦ ✦ ✦

五萤火超算：为AGI埋下的伏笔

幻方量化对算力的追求，远超一般私募基金的想象。

2019年，当大多数量化机构还在租用云计算资源时，梁文锋做出了一个大胆的决定：自建超算中心。这就是后来的"萤火"系列。

🔥 萤火一号（2020年投入使用）

GPU数量：1100块高性能GPU显卡

峰值算力：每秒1.8416亿亿次浮点计算

网络互联：节点间200Gbps InfiniBand高速互联

存储集群：每秒1.3亿次IO响应，4.1Tbps读写带宽，1.2PB容量

🚀 萤火二号（2021年，投资10亿元）

仅仅18个月后，萤火一号就因算力需求暴增而"退役"。

GPU数量：约10000张英伟达A100 GPU（PCIe版本）

存储容量：近3000张SSD部署的42PB高速存储

峰值算力：每秒156亿亿次（TF32精度）

成本效率：性能接近英伟达官方DGX-A100，但成本降低一半、能耗减少40%

⚠️ 关键战略眼光：幻方在美国芯片出口管制正式生效前，成功囤积了约10000张A100芯片。这一战略眼光在后来DeepSeek的发展中发挥了决定性作用。据业内人士估计，当时国内拥有超过10000枚高端GPU的企业不超过5家，幻方是其中唯一一家非互联网巨头的公司。

💻 自研软件栈

与此同时，幻方还自主研发了一整套软件栈：

3FS：大容量高带宽并行文件系统

hfreduce：分布式训练通讯框架

hfai.nn：高性能算子库

HaiScale：扩展性解决方案

"外界看到的是2015年后的部分，但实际上技术积累已超过16年。"

这些积累，看似是为量化交易服务，实则为后来的大模型研发奠定了坚实基础。

✦ ✦ ✦

六 DeepSeek诞生：从量化到AGI的惊人转身

2021年底，规模突破千亿的幻方量化却遭遇了业绩回撤的考验。公司罕见地发布公告，承认"业绩回撤达到历史最大值，深感愧疚"。这一挫折，反而成为梁文锋重新思考方向的契机。

📢 2023年4月：震惊业界的公告

2023年4月14日，幻方量化发布了一则令业界意外的公告：公司将集中资源投身AI技术研究，成立独立研究组织探索AGI（通用人工智能）。

同年5月，梁文锋接受36氪《暗涌》独家采访，首次公开表态：

"我们要做的是通用人工智能，也就是AGI。语言大模型可能是通往AGI的必经之路。"

「幻方的主要班底都是做人工智能的，在尝试很多场景后切入了金融。金融只是AI技术的应用场景之一，而他的终极目标从来都是AI本身。」

🏢 2023年7月17日：深度求索成立

🎯 公司信息

公司全称：杭州深度求索人工智能基础技术研究有限公司

英文名：DeepSeek——"深度求索"

股权结构：梁文锋通过两家持股平台持有约84%的股份，牢牢掌控公司方向

外部融资：零——完全自筹资金

"我们面临的问题从来不是钱，而是高端芯片被禁运。"

首期研发投入30亿元人民币完全由幻方自筹，萤火二号的万卡集群成为模型训练的核心底座。

仅仅4个月后，DeepSeek就交出了第一份答卷。

✦ ✦ ✦

七模型发布时间线：速度与创新的双重狂飙

DeepSeek的模型迭代速度令业界咋舌。以下是主要模型的发布时间线：

📅 2023年

11月2日
发布DeepSeek Coder（1B/5.7B/6.7B/33B参数），首个开源模型，代码能力超越GPT-3.5-turbo

11月29日
发布DeepSeek LLM（7B/67B参数），2万亿tokens训练，性能超越Llama2 70B

📅 2024年

1月9日
发布DeepSeek-MoE（16B参数/2.7B激活），国内首个开源MoE模型，首创"共享专家"架构

4月3日
发布DeepSeek-Math，数学推理专用模型

5月
发布DeepSeek-V2（236B总参/21B激活），首创MLA（多头潜注意力）架构，KV cache减少93.3%，API定价仅为GPT-4 Turbo的1/70

6月
发布DeepSeek-Coder V2，代码能力超越GPT-4 Turbo

9月
发布DeepSeek-V2.5，融合聊天与代码能力

11月20日
发布DeepSeek-R1-Lite-Preview，首个推理模型预览版

12月26日
发布DeepSeek-V3（671B总参/37B激活），训练成本仅约557.6万美元

📅 2025年（高光时刻）

1月20日 🔥
发布DeepSeek-R1（671B参数），性能全面比肩OpenAI o1，引发全球轰动

5月28日
发布DeepSeek-R1-0528，AIME准确率从70%提升至87.5%

8月21日
发布DeepSeek-V3.1

12月1日
发布DeepSeek-V3.2（685B参数）

💥 DeepSeek-R1的影响

✦ 在AIME 2024（美国数学邀请赛）测试中得分79.8%，超越OpenAI o1-1217的79.2%

✦ 在MATH-500基准上达到97.3%，同样超越对手

✦ 完全开源，采用MIT许可证，允许任何人自由使用和修改

✦ ✦ ✦

八核心技术突破：用效率重定义AI竞争

DeepSeek的技术创新集中体现在以下几个方面：

🧠 MoE混合专家架构创新

传统大模型采用"稠密"架构，每次推理都要激活全部参数，计算成本极高。DeepSeek在MoE（Mixture of Experts）架构上进行了创新性改进：

1细粒度专家划分：将专家模块拆分得更细，提升专业化程度

2共享专家机制：部分专家始终激活，学习核心通用能力，避免知识碎片化

3无辅助损失负载均衡：开创性地解决了MoE训练中的负载不均问题

✅ 效果：以DeepSeek-V3为例，模型总参数达671B，但每个token的推理仅激活37B参数——这意味着只需五分之一的计算量，就能获得完整模型的能力。

⚡ MLA（多头潜注意力）架构

这是DeepSeek-V2首创的核心技术。传统Transformer的注意力机制需要存储大量的KV（Key-Value）缓存，显存占用极高。

💡 MLA的创新

✦ 将注意力输入压缩为低维潜在向量（维度远小于原始维度）

✦ 推理时再解压还原，大幅降低显存需求

✦ 同时引入解耦旋转位置编码（Decoupled RoPE），兼容压缩机制

✅ 惊人效果：

✦ KV cache减少93.3%

✦ 训练成本节省42.5%

✦ 最大生成吞吐量提升5.76倍

🔢 FP8混合精度训练

DeepSeek是全球首个在超大规模模型上验证FP8训练有效性的团队。通过使用5位指数+2位尾数的低精度格式，计算量减少约50%，而模型性能几乎无损。这一突破直接将训练成本降低了一半。

"英伟达的领先，不只是一个公司的努力，而是整个西方技术社区和产业共同努力的结果。中国AI的发展，同样需要这样的生态。"

这些技术创新的背后，是梁文锋团队对效率的极致追求。

✦ ✦ ✦

九开源哲学：一种文化行为而非商业策略

DeepSeek的开源策略在国内大模型领域独树一帜。从第一款模型DeepSeek Coder开始，公司坚持将代码、模型权重、训练方法全部公开，采用MIT许可证，允许商业使用和二次开发。

❓ 为什么要开源？

梁文锋在采访中给出了深思熟虑的回答：

"开源更像一个文化行为，而非商业行为。给予其实是一种额外的荣誉。一个公司这么做也会有文化的吸引力。"

"在颠覆性的技术面前，闭源形成的护城河是短暂的。即使OpenAI闭源，也无法阻止被别人赶超。所以我们把价值沉淀在团队上，形成可以创新的组织和文化，就是我们的护城河。"

"希望形成一种生态，业界直接使用DeepSeek的技术和产出。DeepSeek只负责基础模型和前沿创新，其他公司在此基础上构建toB、toC业务。"

🌍 开源的影响力

✦ 在Hugging Face平台上，DeepSeek相关模型已产生超过500个衍生模型

✦ 下载量达250万次

✦ Meta首席科学家杨立昆公开表示："开源模型正在超越闭源模型……DeepSeek从开源研究和开源软件中获益匪浅……所有人都能从中获益。"

💎 更深远的影响

DeepSeek的成功证明了中国公司可以从"技术搭便车者"转变为"生态贡献者"。面壁智能首席科学家刘知远评价："中国与美国在AI领域的差距正在缩小。"

✦ ✦ ✦

十管理哲学：没有KPI的创新组织

与DeepSeek的技术创新同样令人关注的，是梁文锋独特的管理理念。

🏗️ 扁平化与自组织

DeepSeek内部没有严格的层级架构或部门壁垒。

"组织完全是自下而上的，当一个idea显示出潜力，才会自上而下地调配资源。"

团队成员可以自由调用算力资源，"每个人对于卡和人的调动不设上限，随时可调用训练集群无需审批"。

📊 去KPI化

这一点最令传统管理者惊讶。

"我们没有KPI，也没有所谓的任务。"

「创新需要尽可能少的干预和管理，让每个人有自由发挥的空间和试错机会。创新往往都是自己产生的，不是刻意安排的，更不是教出来的。」

那如何确保团队方向一致？答案是：价值观和文化认同。

"我们不设成文的企业文化，因为所有成文的东西，又会阻碍创新。管理者以身示范，遇事的决策方式成为准则。"

❤️ 用人标准：热爱和好奇心

当硅谷同行惊叹DeepSeek团队的实力时，梁文锋的回应颇为淡然：

"并没有什么高深莫测的奇才，都是一些Top高校的应届毕业生、没毕业的博四博五实习生，还有一些毕业才几年的年轻人。"

他的选人标准始终如一：

"热爱和好奇心。很多人对做研究的渴望，远超对钱的在意。"

对于经验丰富的候选人，他反而持谨慎态度：

⚠️ "如果追求短期目标，找现成有经验的人是对的。但如果看长远，经验就没那么重要，基础能力、创造性、热爱等更重要。经验可能成为包袱。没有经验的人会反复摸索，认真思考，找到符合当前实际的解决办法。"

✅ 事实证明：DeepSeek-V2的核心团队没有一个海外回来的人，全部是本土培养。

✦ ✦ ✦

十一行业地位：从追随者到破局者

DeepSeek在短短两年内从默默无闻跃升为全球AI领域的焦点，其市场地位可从以下维度衡量：

🏆 技术排名

根据Chatbot Arena（AI模型竞技场）的评测，DeepSeek-V3在开源模型中排名全球第一、国产模型第一，总成绩位列第7位，与GPT-4o、Claude 3.5 Sonnet等顶级闭源模型处于同一梯队。

👥 用户规模

据QuestMobile数据，2025年DeepSeek月活跃用户达1.8亿，位居中国AI应用第一位，超过：

✦ 字节跳动的豆包（1.01亿）

✦ 腾讯元宝（2636万）

✦ 月之暗面Kimi（2451万）

一度在美国App Store免费榜上超越ChatGPT，登顶第一。

💰 成本竞争力

DeepSeek的API定价重新定义了行业标准：

输入tokens $0.028/百万（缓存命中）· 约为GPT-4o价格的1/50

输出tokens $0.42/百万 · 约为OpenAI o1的1/100

这一定价策略在2024年被称为"价格战鲶鱼"，直接推动国内百度、阿里、腾讯等大厂纷纷降价或免费开放模型。

🌍 国际影响

💥 华尔街震动

DeepSeek-R1的发布引发了华尔街的剧烈震动。2025年1月27日，英伟达股价单日暴跌17%，市值蒸发约6000亿美元——这是美股历史上单日市值损失最大的一次。

投资者担忧：如果高效训练成为可能，对GPU的需求是否会大幅下降？

📰 国际媒体反应

✦ 《经济学人》以封面文章分析其影响

✦ 《金融时报》称其"挑战了AI行业的核心信念"

✦ 美国前总统特朗普将其描述为"美国科技公司的警钟"

✦ ✦ ✦

十二挑战与争议：光环之下的暗流

尽管成就斐然，DeepSeek也面临着多重挑战：

🔧 芯片限制

这是梁文锋公开承认的"最大挑战"。

"芯片禁令导致我们需要2-4倍算力才能达到同等效果。"

美国芯片出口管制生效后，DeepSeek只能使用符合规定的H800、H20等芯片，而非最先进的H100。

📊 技术短板

❌ 多模态能力方面仍有差距，原生多模态输入输出尚未实现，落后于Google Gemini等竞品

❌ 在知识问答和超长文本处理方面，与GPT-4o也存在一定距离

⚡ 服务稳定性

⚠️ 2025年初用户暴增后，系统承受巨大压力，高峰时段频繁无法响应，一度暂停新用户注册。这暴露出基础设施扩展的瓶颈。

🌐 地缘政治风险

✦ 美国商务部已通知员工禁止在政府设备上使用DeepSeek

✦ 部分欧美企业和政府机构因数据安全顾虑而谨慎使用

✦ 这可能限制其在国际市场的拓展

✦ ✦ ✦

十三商业模式：不追求暴利，但也不贴钱

DeepSeek至今未接受任何外部融资，资金完全来自幻方量化的利润。

💡 传闻中的融资

据2025年2月传闻，阿里曾计划以100亿美元估值投资10亿美元，但被阿里方面否认。

💼 商业模式

C端网页和APP免费开放

B端 API服务按调用量收费

"原则是不贴钱，也不赚取暴利。"

——梁文锋谈定价原则

📊 运营数据（2025年3月披露）

理论日收入：56.2万美元

理论日成本：8.7万美元

理论成本利润率：545%

但官方强调"实际收入远不及理论数值"，因为大量服务是免费提供的。

💎 估值争议

✦ 彭博亿万富翁指数给出的区间是20亿-300亿美元

✦ 乐观估计甚至高达1500亿美元（若实现将使梁文锋身价超过黄仁勋）

✦ 胡润研究院表示："如果DeepSeek达到OpenAI万亿估值，梁文锋有望成为中国首富。"

✦ ✦ ✦

十四个人生活：极度低调的亿万富翁

与DeepSeek的高调成就形成鲜明对比的，是梁文锋本人的极度低调。

💰 财富排名

2025年3月 · 首次登上胡润全球富豪榜，身价330亿元人民币（约45亿美元）

2025年6月 · 新财富500创富榜上，以1846.2亿元位列第10位

🏠 生活方式

尽管坐拥百亿身家，梁文锋的生活方式却保持着技术人员的朴素：

✦ 很少接受媒体采访，网上难以找到公开照片

✦ 《金融时报》引用商业伙伴的描述："一个留着可怕发型的书呆子"

✦ 老家新建的四层半楼房装修简洁低调，目前只有爷爷独自居住，每天看报

✦ 2025年春节曾短暂回乡吃年夜饭

✦ 唯一可知的爱好是弹吉他——有村民回忆梁文锋曾邀请他"喝水弹吉他"

❤️ 慈善捐赠

✦ 2022年，幻方量化共计捐赠2.2138亿元用于公益事业

✦ 其中一笔1.38亿元的个人捐款署名"一只平凡的小猪"，员工普遍猜测是梁文锋本人

✦ 每年向家乡村里捐款，资助村里做大戏、过年例等传统活动

✦ ✦ ✦

十五关键数据与里程碑

📅 时间轴：从萤火到深度求索

2008年
梁文锋与同学开始探索机器学习在量化交易中的应用

2013年
创办投资公司雅克比

2015年7月
创办幻方量化，初始资金5000万元

2019年
管理规模突破100亿元；投入2亿元建设"萤火一号"

2021年
投入10亿元建设"萤火二号"；管理规模突破1000亿元

2023年7月
正式创办DeepSeek，开始大模型研发

2025年1月20日
发布DeepSeek-R1，登顶苹果美国应用商店

2025年12月8日
入选《自然》杂志2025年度十大科学人物

🔢 数字的故事

1985 · 出生年份

1996 · 11岁直升吴川市第一中学

2002 · 17岁以全校第一成绩考入浙江大学

5000万元 · 2015年创办幻方的初始资金

1000亿元 · 2021年幻方管理规模峰值

10000张 · 萤火二号搭载的A100显卡数量

557万美元 · DeepSeek-R1的训练成本

671B · DeepSeek-V3的参数量

1.8亿 · DeepSeek月活跃用户数

25倍 · DeepSeek-R1相对于o1的成本优势

✦ ✦ ✦

十六经典语录：一位技术理想主义者的思考

梁文锋公开发言不多，但每次采访都金句频出。以下是他最具代表性的观点：

🚀 关于创新与中国科技

"创新首先是一个信念问题。为什么硅谷那么有创新精神？首先是敢。"

"中国AI不可能永远处在跟随的位置。我们经常说中国AI和美国有一两年差距，但真实的gap是原创和模仿之差。如果这个不改变，中国永远只能是追随者。"

"在美国每天发生的大量创新里，这是非常普通的一个。他们之所以惊讶，是因为这是一个中国公司，在以创新贡献者的身份，加入到他们游戏里去。毕竟大部分中国公司习惯follow，而不是创新。"

"OpenAI不是神，不可能一直冲在前面。"

💼 关于技术与商业

"所有的套路都是上一代的产物，未来不一定成立。拿互联网的商业逻辑去讨论未来AI的盈利模式，就像马化腾创业时，你去讨论通用电气和可口可乐一样，很可能是一种刻舟求剑。"

"过去三十年，我们都只强调赚钱，对创新是忽视的。创新不完全是商业驱动的，还需要好奇心和创造欲。"

👥 关于人才与管理

"我们选人的标准一直都是热爱和好奇心。很多人对做研究的渴望，远超对钱的在意。"

"创新需要尽可能少的干预和管理，让每个人有自由发挥的空间和试错机会。创新往往都是自己产生的，不是刻意安排的，更不是教出来的。"

"更多的投入并不一定产生更多的创新。否则大厂可以把所有的创新包揽了。"

🎯 关于使命与理想

"一件激动人心的事，不能单纯用钱衡量。就像家里买钢琴，一来买得起，二来是因为有一群急于在上面弹奏乐曲的人。"

"我们觉得现在最重要的是参与到全球创新的浪潮里去。这一波浪潮里，我们的出发点，就不是趁机赚一笔，而是走到技术的前沿，去推动整个生态发展。"

"当这个社会让硬核创新的人功成名就，群体性想法就会改变。我们只是还需要一堆事实和一个过程。"

✦ ✦ ✦

十七结语：一个时代的注脚

梁文锋的故事，是一个中国80后技术人完整的成长轨迹：从粤西小镇的教师家庭走出，考入浙大、研习机器视觉，又从8万元本金起步，一路打造出千亿量化帝国，最终转型AI大模型，在全球舞台上与OpenAI、Google、Meta同台竞技。

这个故事的意义，远超个人传奇：

✦ 它证明了中国科技可以不再是单纯的"追随者"和"模仿者"

✦ 它证明了高效可以击败堆算力的"规模暴力"

✦ 它证明了开源可以成为一种竞争力

更重要的是，它重新定义了"什么是创新"。正如梁文锋所言：

"过去三十多年IT浪潮里，我们基本没有参与到真正的技术创新里。我们已经习惯摩尔定律从天而降，躺在家里18个月就会出来更好的硬件和软件。但其实，这是西方主导的技术社区一代代孜孜不倦创造出来的。"

DeepSeek的出现，或许标志着这一局面正在改变。一个来自吴川小镇的普通人，用热爱、好奇心和十几年的技术积累，正在为中国科技的原创叙事写下新的一页。

🌟 40岁的梁文锋，故事才刚刚开始

从量化天才到AI大神，一个用数学改变世界的人，现在用AI再一次改变世界。

✦ ✦ ✦

🎯 你怎么看梁文锋和DeepSeek的故事？

欢迎在评论区留言分享你的看法 👇

📚 参考来源：

1. 36氪《暗涌》独家采访

2. 《金融时报》深度报道

3. 《经济学人》封面文章

4. 《自然》杂志2025年度十大科学人物

5. DeepSeek官方技术报告

6. 幻方量化官方信息

7. QuestMobile数据报告

8. 胡润研究院富豪榜

9. 浙江大学校友资料

10. 吴川市地方新闻报道

参考原文信息列表：

1. https://www.36kr.com/p/deepseek-exclusive-interview

2. https://www.ft.com/content/deepseek-china-ai

3. https://www.economist.com/china-ai-deepseek

4. https://www.nature.com/articles/d41586-024-science-people

5. https://github.com/deepseek-ai/DeepSeek-V3

6. https://arxiv.org/abs/deepseek-r1

7. https://www.hurun.net/zh-CN/Rank/HsRankDetails

8. https://www.questmobile.com.cn/research/report

9. https://www.zju.edu.cn/alumni

10. https://en.wikipedia.org/wiki/DeepSeek

✨

— END —