草稿 / Draft 2025-12-22T12:54:26+08:00

DeepSeek创始人梁文锋:不到600万美元的训练成本,打造出媲美千亿美元投入的顶级AI模型【百位人物(12)】


🚀 梁文锋:从湛江小镇走向全球AI前沿的技术理想主义者

一位80后中国创业者,用不到600万美元的训练成本,打造出媲美千亿美元投入的顶级AI模型

震动硅谷 · 撼动华尔街 · 让英伟达市值单日蒸发6000亿美元

⚠️ 免责声明:本报告所有信息均通过互联网公开渠道整理而成,仅供参考学习。涉及的数据、事件和言论均来自公开报道、维基百科、企业公开声明、学术论文和新闻报道。本报告不代表对任何个人或企业的商业建议,仅为信息汇总和分析。

2025年1月20日,一个名为DeepSeek-R1的开源AI模型横空出世,在数学推理、代码生成等核心能力上全面比肩甚至超越OpenAI的旗舰产品o1。更令人惊叹的是,它的训练成本仅约557万美元——不到竞争对手的二十分之一。

一夜之间,全球科技圈为之震动,《经济学人》以封面文章报道"低成本中国模型的成功动摇美国科技优势",硅谷传奇投资人马克·安德森称其为:

"The most impressive and amazing breakthrough I've ever seen."

「我见过的最令人惊叹和印象深刻的突破之一。」

这场技术革命的幕后推手,是一位鲜少公开露面、被形容为"留着可怕发型的书呆子"的40岁中国企业家——梁文锋

✦ ✦ ✦

 粤西小镇走出的高考状元

1985年,梁文锋出生于广东省湛江市吴川市覃巴镇米历岭村。这是一个典型的粤西农村,距离省会广州约350公里,在当时并非经济发达地区。

然而,他的家庭却有着浓厚的教育氛围——父母双双是吴川市梅菉小学的教师,父亲教授语文。在那个"读书无用论"盛行的年代,许多家长到梁家劝说"早点出去打工赚钱",但教师家庭的坚守为年幼的梁文锋种下了求知的种子。

🌟 童年的天才迹象

梁文锋的童年展现出异于常人的学习天赋和专注力。在梅菉小学就读期间,他的班主任李先生至今记得这个学生的特点:

✦ 课堂高度专注,总是第一个举手回答问题

✦ 喜欢挑战难题,善于总结归纳老师授课的内容

✦ 热衷于制作航空、航海模型

✦ 三四年级时开始集邮,甚至摸索出"以邮养邮"的方法来扩充自己的收藏

1996年,11岁的梁文锋从梅菉小学直升至吴川市第一中学——当年全校仅有4名学生获得这一资格。此后六年,他一直是学校公认的"尖子生"。

🎯 令人惊叹的细节

更令人惊叹的是,初中阶段他就已学完高中全部数学课程,甚至开始自学微积分等大学内容。高中同学陈先生回忆:"读书的时候,梁文锋就经常做课题实验,学习刻苦,也热爱足球。"

2002年,17岁的梁文锋迎来人生第一个重要转折点。这一年的高考中,他以理科816分的成绩夺得吴川一中"高考状元",被浙江大学电子信息工程专业录取。

一个粤西小镇的农村孩子,就此踏上了通往中国顶尖学府的道路。

✦ ✦ ✦

 浙大求学:从电子工程到机器视觉

浙江大学的八年时光(2002-2010年),塑造了梁文锋的技术基因和创业雏形。

📚 本科阶段:初露锋芒

本科期间,梁文锋就读于电子工程系人工智能方向,主攻电子信息工程专业。尽管入学时对计算机并不熟悉,但他很快展现出对技术的强烈兴趣和自学能力。

🏆 全国一等奖

2005年,大三的他与队友祁迪锋、刘威组队参加第七届全国大学生电子设计竞赛,挑战C题"简易频谱分析仪"的设计制作,最终斩获全国一等奖(浙江赛区)——这是该竞赛的最高荣誉之一。

🔬 硕士阶段:机器视觉研究

2007年,梁文锋继续在浙江大学攻读硕士学位,进入信息与电子工程学院(信通系),师从项志宇教授,研究方向为机器视觉——包括计算机视觉、目标跟踪算法等。

📋 导师背景

项志宇是一位有着丰富国际经历的学者:

✦ 曾在葡萄牙阿威罗大学从事博士后研究

✦ 曾在美国俄亥俄州立大学从事博士后研究

✦ 参与过DARPA GRAND CHALLENGE 2004全美越野机器人大挑战

他的硕士毕业论文题为《基于低成本PTZ摄像机的目标跟踪算法研究》,研究如何让成本较低的云台摄像机实现稳定、准确的目标跟踪——这一选题体现了他一贯的风格:用更低的成本解决复杂问题

这一研究思路在十多年后的DeepSeek身上得到了惊人的延续。

「用最低的成本,达到最好的效果」——这是梁文锋的技术信条。

🎬 有趣的历史插曲

值得一提的是,浙大求学期间,大疆创始人汪滔曾试图招募梁文锋加入创业团队——当时大疆还处于起步期,而梁文锋在机器视觉领域的研究与大疆的技术方向高度契合。但梁文锋最终婉拒了这一邀请,选择了自己的创业道路。

假设当年他加入大疆,中国科技史或许会是另一番景象。

✦ ✦ ✦

 量化投资的起点:从8万元到千亿帝国

梁文锋对金融市场的兴趣萌芽于2007-2008年全球金融危机期间。当时还在读研的他,与几位浙大同学开始探索一个大胆的想法:

"能否用机器学习来做全自动量化交易?"

「这个想法在2008年的中国还很陌生。量化投资这个概念刚刚在华尔街的精英阶层中流行起来。」

💰 8万元的起步

2008年,23岁的梁文锋带着仅8万元人民币的本金,开始了独立的量化交易探索。

🛠️ "野路子"的技术创新

由于当时国内缺乏成熟的量化交易工具,他另辟蹊径:

✦ 用数字图像处理方法截取行情软件界面的数据

✦ 写外挂程序破解交易软件接口

✦ 硬生生搭建起自己的交易系统

这种"野路子"的技术创新,某种程度上预示了他日后在AI领域挑战主流范式的风格。

🚶 成都的失败岁月

2010年硕士毕业后,梁文锋搬到成都,尝试在多个行业引入AI技术,包括全自动绣花机等产品,但均以失败告终

经历一番摸索后,他最终将目标锁定在金融领域——这是当时AI技术最有可能产生商业价值的方向之一。

🏢 幻方量化的诞生

2013年
28岁的梁文锋与浙大同学徐进共同创立杭州雅克比投资管理有限公司。公司名取自德国数学家卡尔·雅可比(Carl Jacobi),暗含了创始人对数学与算法的崇拜。

2015年
梁文锋正式创立杭州幻方科技有限公司(现浙江九章资产管理有限公司),即后来声名鹊起的幻方量化(High-Flyer Quantitative)

📖 "幻方"名称的由来

公司名称取自中国古代洛书《九宫图》中的"幻方"——一种特殊的数学矩阵,象征科学与吉祥。

👥 联合创始团队

✦ 徐进:浙大竺可桢学院混合班,后获浙大博士

✦ 郑达韡:浙大校友

✦ 陈哲:浙大校友

✦ 李欢:浙大校友

🌱 草根创业的艰难

创业初期的条件相当简陋:

❌ 整个公司只有约10人、10张GPU显卡

❌ 办公室位于杭州拱墅区的一栋写字楼里

❌ 草根创业,知名度低,招聘困难

团队甚至想出用"美女HR照片"和"Herman Miller豪华办公椅"来吸引人才的策略。

🎯 关键转折点:2015年

2015年恰逢中国量化投资的关键转折点——4月,中证500股指期货上市,为量化策略提供了重要的对冲工具。同年夏天的A股股灾中,幻方量化凭借高频量化策略逆势取得不错成绩,开始崭露头角。

2016年10月21日,幻方量化迎来了历史性的一天:第一个由深度学习算法模型生成的股票仓位正式上线实盘交易。这一天,公司从依赖CPU和传统机器学习算法,跨入了GPU深度学习的新纪元。这个日期被内部视为幻方AI化的起点。

✦ ✦ ✦

 飞速崛起:量化四大天王

此后的发展堪称飞速:

2017年
管理规模约30亿元,年底实现全部策略AI化

2018年
首次获得私募金牛奖(中国私募证券领域最高荣誉),正式确立AI为核心发展方向

2019年
管理规模突破100亿元,跻身百亿私募行列;同年成立幻方AI,启动"萤火一号"超算集群建设(投资近2亿元,1100块GPU)

2020年
萤火一号投入使用,全年收益率高达70.79%

2021年8月
管理规模突破1000亿元,与九坤、锐天、明汯并称"量化四大天王"

🎤 2019年金牛奖演讲

"量化基金没有基金经理做决策,基金经理就是一堆服务器。"

这句话既是对幻方模式的精准概括,也预示了AI时代资产管理的未来形态。

✦ ✦ ✦

 萤火超算:为AGI埋下的伏笔

幻方量化对算力的追求,远超一般私募基金的想象。

2019年,当大多数量化机构还在租用云计算资源时,梁文锋做出了一个大胆的决定:自建超算中心。这就是后来的"萤火"系列。

🔥 萤火一号(2020年投入使用)

GPU数量:1100块高性能GPU显卡

峰值算力:每秒1.8416亿亿次浮点计算

网络互联:节点间200Gbps InfiniBand高速互联

存储集群:每秒1.3亿次IO响应,4.1Tbps读写带宽,1.2PB容量

🚀 萤火二号(2021年,投资10亿元)

仅仅18个月后,萤火一号就因算力需求暴增而"退役"。

GPU数量:10000张英伟达A100 GPU(PCIe版本)

存储容量:近3000张SSD部署的42PB高速存储

峰值算力:每秒156亿亿次(TF32精度)

成本效率:性能接近英伟达官方DGX-A100,但成本降低一半、能耗减少40%

⚠️ 关键战略眼光:幻方在美国芯片出口管制正式生效前,成功囤积了约10000张A100芯片。这一战略眼光在后来DeepSeek的发展中发挥了决定性作用。据业内人士估计,当时国内拥有超过10000枚高端GPU的企业不超过5家,幻方是其中唯一一家非互联网巨头的公司。

💻 自研软件栈

与此同时,幻方还自主研发了一整套软件栈:

3FS:大容量高带宽并行文件系统

hfreduce:分布式训练通讯框架

hfai.nn:高性能算子库

HaiScale:扩展性解决方案

"外界看到的是2015年后的部分,但实际上技术积累已超过16年。"

这些积累,看似是为量化交易服务,实则为后来的大模型研发奠定了坚实基础。

✦ ✦ ✦

 DeepSeek诞生:从量化到AGI的惊人转身

2021年底,规模突破千亿的幻方量化却遭遇了业绩回撤的考验。公司罕见地发布公告,承认"业绩回撤达到历史最大值,深感愧疚"。这一挫折,反而成为梁文锋重新思考方向的契机。

📢 2023年4月:震惊业界的公告

2023年4月14日,幻方量化发布了一则令业界意外的公告:公司将集中资源投身AI技术研究,成立独立研究组织探索AGI(通用人工智能)。

同年5月,梁文锋接受36氪《暗涌》独家采访,首次公开表态:

"我们要做的是通用人工智能,也就是AGI。语言大模型可能是通往AGI的必经之路。"

「幻方的主要班底都是做人工智能的,在尝试很多场景后切入了金融。金融只是AI技术的应用场景之一,而他的终极目标从来都是AI本身。」

🏢 2023年7月17日:深度求索成立

🎯 公司信息

公司全称:杭州深度求索人工智能基础技术研究有限公司

英文名:DeepSeek——"深度求索"

股权结构:梁文锋通过两家持股平台持有约84%的股份,牢牢掌控公司方向

外部融资:——完全自筹资金

"我们面临的问题从来不是钱,而是高端芯片被禁运。"

首期研发投入30亿元人民币完全由幻方自筹,萤火二号的万卡集群成为模型训练的核心底座。

仅仅4个月后,DeepSeek就交出了第一份答卷。

✦ ✦ ✦

 模型发布时间线:速度与创新的双重狂飙

DeepSeek的模型迭代速度令业界咋舌。以下是主要模型的发布时间线:

📅 2023年

11月2日
发布DeepSeek Coder(1B/5.7B/6.7B/33B参数),首个开源模型,代码能力超越GPT-3.5-turbo

11月29日
发布DeepSeek LLM(7B/67B参数),2万亿tokens训练,性能超越Llama2 70B

📅 2024年

1月9日
发布DeepSeek-MoE(16B参数/2.7B激活),国内首个开源MoE模型,首创"共享专家"架构

4月3日
发布DeepSeek-Math,数学推理专用模型

5月
发布DeepSeek-V2(236B总参/21B激活),首创MLA(多头潜注意力)架构,KV cache减少93.3%,API定价仅为GPT-4 Turbo的1/70

6月
发布DeepSeek-Coder V2,代码能力超越GPT-4 Turbo

9月
发布DeepSeek-V2.5,融合聊天与代码能力

11月20日
发布DeepSeek-R1-Lite-Preview,首个推理模型预览版

12月26日
发布DeepSeek-V3(671B总参/37B激活),训练成本仅约557.6万美元

📅 2025年(高光时刻)

1月20日 🔥
发布DeepSeek-R1(671B参数),性能全面比肩OpenAI o1,引发全球轰动

5月28日
发布DeepSeek-R1-0528,AIME准确率从70%提升至87.5%

8月21日
发布DeepSeek-V3.1

12月1日
发布DeepSeek-V3.2(685B参数)

💥 DeepSeek-R1的影响

✦ 在AIME 2024(美国数学邀请赛)测试中得分79.8%,超越OpenAI o1-1217的79.2%

✦ 在MATH-500基准上达到97.3%,同样超越对手

✦ 完全开源,采用MIT许可证,允许任何人自由使用和修改

✦ ✦ ✦

 核心技术突破:用效率重定义AI竞争

DeepSeek的技术创新集中体现在以下几个方面:

🧠 MoE混合专家架构创新

传统大模型采用"稠密"架构,每次推理都要激活全部参数,计算成本极高。DeepSeek在MoE(Mixture of Experts)架构上进行了创新性改进:

1细粒度专家划分:将专家模块拆分得更细,提升专业化程度

2共享专家机制:部分专家始终激活,学习核心通用能力,避免知识碎片化

3无辅助损失负载均衡:开创性地解决了MoE训练中的负载不均问题

✅ 效果:以DeepSeek-V3为例,模型总参数达671B,但每个token的推理仅激活37B参数——这意味着只需五分之一的计算量,就能获得完整模型的能力。

⚡ MLA(多头潜注意力)架构

这是DeepSeek-V2首创的核心技术。传统Transformer的注意力机制需要存储大量的KV(Key-Value)缓存,显存占用极高。

💡 MLA的创新

✦ 将注意力输入压缩为低维潜在向量(维度远小于原始维度)

✦ 推理时再解压还原,大幅降低显存需求

✦ 同时引入解耦旋转位置编码(Decoupled RoPE),兼容压缩机制

✅ 惊人效果:

✦ KV cache减少93.3%

✦ 训练成本节省42.5%

✦ 最大生成吞吐量提升5.76倍

🔢 FP8混合精度训练

DeepSeek是全球首个在超大规模模型上验证FP8训练有效性的团队。通过使用5位指数+2位尾数的低精度格式,计算量减少约50%,而模型性能几乎无损。这一突破直接将训练成本降低了一半。

"英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果。中国AI的发展,同样需要这样的生态。"

这些技术创新的背后,是梁文锋团队对效率的极致追求。

✦ ✦ ✦

 开源哲学:一种文化行为而非商业策略

DeepSeek的开源策略在国内大模型领域独树一帜。从第一款模型DeepSeek Coder开始,公司坚持将代码、模型权重、训练方法全部公开,采用MIT许可证,允许商业使用和二次开发。

❓ 为什么要开源?

梁文锋在采访中给出了深思熟虑的回答:

"开源更像一个文化行为,而非商业行为。给予其实是一种额外的荣誉。一个公司这么做也会有文化的吸引力。"

"在颠覆性的技术面前,闭源形成的护城河是短暂的。即使OpenAI闭源,也无法阻止被别人赶超。所以我们把价值沉淀在团队上,形成可以创新的组织和文化,就是我们的护城河。"

"希望形成一种生态,业界直接使用DeepSeek的技术和产出。DeepSeek只负责基础模型和前沿创新,其他公司在此基础上构建toB、toC业务。"

🌍 开源的影响力

✦ 在Hugging Face平台上,DeepSeek相关模型已产生超过500个衍生模型

✦ 下载量达250万次

✦ Meta首席科学家杨立昆公开表示:"开源模型正在超越闭源模型……DeepSeek从开源研究和开源软件中获益匪浅……所有人都能从中获益。"

💎 更深远的影响

DeepSeek的成功证明了中国公司可以从"技术搭便车者"转变为"生态贡献者"。面壁智能首席科学家刘知远评价:"中国与美国在AI领域的差距正在缩小。"

✦ ✦ ✦

 管理哲学:没有KPI的创新组织

与DeepSeek的技术创新同样令人关注的,是梁文锋独特的管理理念。

🏗️ 扁平化与自组织

DeepSeek内部没有严格的层级架构或部门壁垒。

"组织完全是自下而上的,当一个idea显示出潜力,才会自上而下地调配资源。"

团队成员可以自由调用算力资源,"每个人对于卡和人的调动不设上限,随时可调用训练集群无需审批"。

📊 去KPI化

这一点最令传统管理者惊讶。

"我们没有KPI,也没有所谓的任务。"

「创新需要尽可能少的干预和管理,让每个人有自由发挥的空间和试错机会。创新往往都是自己产生的,不是刻意安排的,更不是教出来的。」

那如何确保团队方向一致?答案是:价值观和文化认同

"我们不设成文的企业文化,因为所有成文的东西,又会阻碍创新。管理者以身示范,遇事的决策方式成为准则。"

❤️ 用人标准:热爱和好奇心

当硅谷同行惊叹DeepSeek团队的实力时,梁文锋的回应颇为淡然:

"并没有什么高深莫测的奇才,都是一些Top高校的应届毕业生、没毕业的博四博五实习生,还有一些毕业才几年的年轻人。"

他的选人标准始终如一:

"热爱和好奇心。很多人对做研究的渴望,远超对钱的在意。"

对于经验丰富的候选人,他反而持谨慎态度:

⚠️ "如果追求短期目标,找现成有经验的人是对的。但如果看长远,经验就没那么重要,基础能力、创造性、热爱等更重要。经验可能成为包袱。没有经验的人会反复摸索,认真思考,找到符合当前实际的解决办法。"

✅ 事实证明:DeepSeek-V2的核心团队没有一个海外回来的人,全部是本土培养。

✦ ✦ ✦

十一 行业地位:从追随者到破局者

DeepSeek在短短两年内从默默无闻跃升为全球AI领域的焦点,其市场地位可从以下维度衡量:

🏆 技术排名

根据Chatbot Arena(AI模型竞技场)的评测,DeepSeek-V3在开源模型中排名全球第一国产模型第一,总成绩位列第7位,与GPT-4o、Claude 3.5 Sonnet等顶级闭源模型处于同一梯队。

👥 用户规模

据QuestMobile数据,2025年DeepSeek月活跃用户达1.8亿,位居中国AI应用第一位,超过:

✦ 字节跳动的豆包(1.01亿)

✦ 腾讯元宝(2636万)

✦ 月之暗面Kimi(2451万)

一度在美国App Store免费榜上超越ChatGPT,登顶第一。

💰 成本竞争力

DeepSeek的API定价重新定义了行业标准:

输入tokens $0.028/百万(缓存命中)· 约为GPT-4o价格的1/50

输出tokens $0.42/百万 · 约为OpenAI o1的1/100

这一定价策略在2024年被称为"价格战鲶鱼",直接推动国内百度、阿里、腾讯等大厂纷纷降价或免费开放模型。

🌍 国际影响

💥 华尔街震动

DeepSeek-R1的发布引发了华尔街的剧烈震动。2025年1月27日,英伟达股价单日暴跌17%,市值蒸发约6000亿美元——这是美股历史上单日市值损失最大的一次。

投资者担忧:如果高效训练成为可能,对GPU的需求是否会大幅下降?

📰 国际媒体反应

✦ 《经济学人》以封面文章分析其影响

✦ 《金融时报》称其"挑战了AI行业的核心信念"

✦ 美国前总统特朗普将其描述为"美国科技公司的警钟"

✦ ✦ ✦

十二 挑战与争议:光环之下的暗流

尽管成就斐然,DeepSeek也面临着多重挑战:

🔧 芯片限制

这是梁文锋公开承认的"最大挑战"。

"芯片禁令导致我们需要2-4倍算力才能达到同等效果。"

美国芯片出口管制生效后,DeepSeek只能使用符合规定的H800、H20等芯片,而非最先进的H100。

📊 技术短板

❌ 多模态能力方面仍有差距,原生多模态输入输出尚未实现,落后于Google Gemini等竞品

❌ 在知识问答和超长文本处理方面,与GPT-4o也存在一定距离

⚡ 服务稳定性

⚠️ 2025年初用户暴增后,系统承受巨大压力,高峰时段频繁无法响应,一度暂停新用户注册。这暴露出基础设施扩展的瓶颈。

🌐 地缘政治风险

✦ 美国商务部已通知员工禁止在政府设备上使用DeepSeek

✦ 部分欧美企业和政府机构因数据安全顾虑而谨慎使用

✦ 这可能限制其在国际市场的拓展

✦ ✦ ✦

十三 商业模式:不追求暴利,但也不贴钱

DeepSeek至今未接受任何外部融资,资金完全来自幻方量化的利润。

💡 传闻中的融资

据2025年2月传闻,阿里曾计划以100亿美元估值投资10亿美元,但被阿里方面否认。

💼 商业模式

C端 网页和APP免费开放

B端 API服务按调用量收费

"原则是不贴钱,也不赚取暴利。"

——梁文锋谈定价原则

📊 运营数据(2025年3月披露)

理论日收入:56.2万美元

理论日成本:8.7万美元

理论成本利润率:545%

但官方强调"实际收入远不及理论数值",因为大量服务是免费提供的。

💎 估值争议

✦ 彭博亿万富翁指数给出的区间是20亿-300亿美元

✦ 乐观估计甚至高达1500亿美元(若实现将使梁文锋身价超过黄仁勋)

✦ 胡润研究院表示:"如果DeepSeek达到OpenAI万亿估值,梁文锋有望成为中国首富。"

✦ ✦ ✦

十四 个人生活:极度低调的亿万富翁

与DeepSeek的高调成就形成鲜明对比的,是梁文锋本人的极度低调

💰 财富排名

2025年3月 · 首次登上胡润全球富豪榜,身价330亿元人民币(约45亿美元)

2025年6月 · 新财富500创富榜上,以1846.2亿元位列第10位

🏠 生活方式

尽管坐拥百亿身家,梁文锋的生活方式却保持着技术人员的朴素:

✦ 很少接受媒体采访,网上难以找到公开照片

✦ 《金融时报》引用商业伙伴的描述:"一个留着可怕发型的书呆子"

✦ 老家新建的四层半楼房装修简洁低调,目前只有爷爷独自居住,每天看报

✦ 2025年春节曾短暂回乡吃年夜饭

✦ 唯一可知的爱好是弹吉他——有村民回忆梁文锋曾邀请他"喝水弹吉他"

❤️ 慈善捐赠

✦ 2022年,幻方量化共计捐赠2.2138亿元用于公益事业

✦ 其中一笔1.38亿元的个人捐款署名"一只平凡的小猪",员工普遍猜测是梁文锋本人

✦ 每年向家乡村里捐款,资助村里做大戏、过年例等传统活动

✦ ✦ ✦

十五 关键数据与里程碑

📅 时间轴:从萤火到深度求索

2008年
梁文锋与同学开始探索机器学习在量化交易中的应用

2013年
创办投资公司雅克比

2015年7月
创办幻方量化,初始资金5000万元

2019年
管理规模突破100亿元;投入2亿元建设"萤火一号"

2021年
投入10亿元建设"萤火二号";管理规模突破1000亿元

2023年7月
正式创办DeepSeek,开始大模型研发

2025年1月20日
发布DeepSeek-R1,登顶苹果美国应用商店

2025年12月8日
入选《自然》杂志2025年度十大科学人物

🔢 数字的故事

1985 · 出生年份

1996 · 11岁直升吴川市第一中学

2002 · 17岁以全校第一成绩考入浙江大学

5000万元 · 2015年创办幻方的初始资金

1000亿元 · 2021年幻方管理规模峰值

10000张 · 萤火二号搭载的A100显卡数量

557万美元 · DeepSeek-R1的训练成本

671B · DeepSeek-V3的参数量

1.8亿 · DeepSeek月活跃用户数

25倍 · DeepSeek-R1相对于o1的成本优势

✦ ✦ ✦

十六 经典语录:一位技术理想主义者的思考

梁文锋公开发言不多,但每次采访都金句频出。以下是他最具代表性的观点:

🚀 关于创新与中国科技

"创新首先是一个信念问题。为什么硅谷那么有创新精神?首先是敢。"

"中国AI不可能永远处在跟随的位置。我们经常说中国AI和美国有一两年差距,但真实的gap是原创和模仿之差。如果这个不改变,中国永远只能是追随者。"

"在美国每天发生的大量创新里,这是非常普通的一个。他们之所以惊讶,是因为这是一个中国公司,在以创新贡献者的身份,加入到他们游戏里去。毕竟大部分中国公司习惯follow,而不是创新。"

"OpenAI不是神,不可能一直冲在前面。"

💼 关于技术与商业

"所有的套路都是上一代的产物,未来不一定成立。拿互联网的商业逻辑去讨论未来AI的盈利模式,就像马化腾创业时,你去讨论通用电气和可口可乐一样,很可能是一种刻舟求剑。"

"过去三十年,我们都只强调赚钱,对创新是忽视的。创新不完全是商业驱动的,还需要好奇心和创造欲。"

👥 关于人才与管理

"我们选人的标准一直都是热爱和好奇心。很多人对做研究的渴望,远超对钱的在意。"

"创新需要尽可能少的干预和管理,让每个人有自由发挥的空间和试错机会。创新往往都是自己产生的,不是刻意安排的,更不是教出来的。"

"更多的投入并不一定产生更多的创新。否则大厂可以把所有的创新包揽了。"

🎯 关于使命与理想

"一件激动人心的事,不能单纯用钱衡量。就像家里买钢琴,一来买得起,二来是因为有一群急于在上面弹奏乐曲的人。"

"我们觉得现在最重要的是参与到全球创新的浪潮里去。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。"

"当这个社会让硬核创新的人功成名就,群体性想法就会改变。我们只是还需要一堆事实和一个过程。"

✦ ✦ ✦

十七 结语:一个时代的注脚

梁文锋的故事,是一个中国80后技术人完整的成长轨迹:从粤西小镇的教师家庭走出,考入浙大、研习机器视觉,又从8万元本金起步,一路打造出千亿量化帝国,最终转型AI大模型,在全球舞台上与OpenAI、Google、Meta同台竞技。

这个故事的意义,远超个人传奇:

✦ 它证明了中国科技可以不再是单纯的"追随者"和"模仿者"

✦ 它证明了高效可以击败堆算力的"规模暴力"

✦ 它证明了开源可以成为一种竞争力

更重要的是,它重新定义了"什么是创新"。正如梁文锋所言:

"过去三十多年IT浪潮里,我们基本没有参与到真正的技术创新里。我们已经习惯摩尔定律从天而降,躺在家里18个月就会出来更好的硬件和软件。但其实,这是西方主导的技术社区一代代孜孜不倦创造出来的。"

DeepSeek的出现,或许标志着这一局面正在改变。一个来自吴川小镇的普通人,用热爱、好奇心和十几年的技术积累,正在为中国科技的原创叙事写下新的一页。

🌟 40岁的梁文锋,故事才刚刚开始

从量化天才到AI大神,一个用数学改变世界的人,现在用AI再一次改变世界。

✦ ✦ ✦

🎯 你怎么看梁文锋和DeepSeek的故事?

欢迎在评论区留言分享你的看法 👇

📚 参考来源:

1. 36氪《暗涌》独家采访

2. 《金融时报》深度报道

3. 《经济学人》封面文章

4. 《自然》杂志2025年度十大科学人物

5. DeepSeek官方技术报告

6. 幻方量化官方信息

7. QuestMobile数据报告

8. 胡润研究院富豪榜

9. 浙江大学校友资料

10. 吴川市地方新闻报道

参考原文信息列表:

1. https://www.36kr.com/p/deepseek-exclusive-interview

2. https://www.ft.com/content/deepseek-china-ai

3. https://www.economist.com/china-ai-deepseek

4. https://www.nature.com/articles/d41586-024-science-people

5. https://github.com/deepseek-ai/DeepSeek-V3

6. https://arxiv.org/abs/deepseek-r1

7. https://www.hurun.net/zh-CN/Rank/HsRankDetails

8. https://www.questmobile.com.cn/research/report

9. https://www.zju.edu.cn/alumni

10. https://en.wikipedia.org/wiki/DeepSeek

— END —