DeepSeek创始人梁文锋:不到600万美元的训练成本,打造出媲美千亿美元投入的顶级AI模型【百位人物(12)】
🚀 梁文锋:从湛江小镇走向全球AI前沿的技术理想主义者
一位80后中国创业者,用不到600万美元的训练成本,打造出媲美千亿美元投入的顶级AI模型
震动硅谷 · 撼动华尔街 · 让英伟达市值单日蒸发6000亿美元
⚠️ 免责声明:本报告所有信息均通过互联网公开渠道整理而成,仅供参考学习。涉及的数据、事件和言论均来自公开报道、维基百科、企业公开声明、学术论文和新闻报道。本报告不代表对任何个人或企业的商业建议,仅为信息汇总和分析。
2025年1月20日,一个名为DeepSeek-R1的开源AI模型横空出世,在数学推理、代码生成等核心能力上全面比肩甚至超越OpenAI的旗舰产品o1。更令人惊叹的是,它的训练成本仅约557万美元——不到竞争对手的二十分之一。
一夜之间,全球科技圈为之震动,《经济学人》以封面文章报道"低成本中国模型的成功动摇美国科技优势",硅谷传奇投资人马克·安德森称其为:
"The most impressive and amazing breakthrough I've ever seen."
「我见过的最令人惊叹和印象深刻的突破之一。」
这场技术革命的幕后推手,是一位鲜少公开露面、被形容为"留着可怕发型的书呆子"的40岁中国企业家——梁文锋。
✦ ✦ ✦
一 粤西小镇走出的高考状元
1985年,梁文锋出生于广东省湛江市吴川市覃巴镇米历岭村。这是一个典型的粤西农村,距离省会广州约350公里,在当时并非经济发达地区。
然而,他的家庭却有着浓厚的教育氛围——父母双双是吴川市梅菉小学的教师,父亲教授语文。在那个"读书无用论"盛行的年代,许多家长到梁家劝说"早点出去打工赚钱",但教师家庭的坚守为年幼的梁文锋种下了求知的种子。
🌟 童年的天才迹象
梁文锋的童年展现出异于常人的学习天赋和专注力。在梅菉小学就读期间,他的班主任李先生至今记得这个学生的特点:
✦ 课堂高度专注,总是第一个举手回答问题
✦ 喜欢挑战难题,善于总结归纳老师授课的内容
✦ 热衷于制作航空、航海模型
✦ 三四年级时开始集邮,甚至摸索出"以邮养邮"的方法来扩充自己的收藏
1996年,11岁的梁文锋从梅菉小学直升至吴川市第一中学——当年全校仅有4名学生获得这一资格。此后六年,他一直是学校公认的"尖子生"。
🎯 令人惊叹的细节
更令人惊叹的是,初中阶段他就已学完高中全部数学课程,甚至开始自学微积分等大学内容。高中同学陈先生回忆:"读书的时候,梁文锋就经常做课题实验,学习刻苦,也热爱足球。"
2002年,17岁的梁文锋迎来人生第一个重要转折点。这一年的高考中,他以理科816分的成绩夺得吴川一中"高考状元",被浙江大学电子信息工程专业录取。
一个粤西小镇的农村孩子,就此踏上了通往中国顶尖学府的道路。
✦ ✦ ✦
二 浙大求学:从电子工程到机器视觉
浙江大学的八年时光(2002-2010年),塑造了梁文锋的技术基因和创业雏形。
📚 本科阶段:初露锋芒
本科期间,梁文锋就读于电子工程系人工智能方向,主攻电子信息工程专业。尽管入学时对计算机并不熟悉,但他很快展现出对技术的强烈兴趣和自学能力。
🏆 全国一等奖
2005年,大三的他与队友祁迪锋、刘威组队参加第七届全国大学生电子设计竞赛,挑战C题"简易频谱分析仪"的设计制作,最终斩获全国一等奖(浙江赛区)——这是该竞赛的最高荣誉之一。
🔬 硕士阶段:机器视觉研究
2007年,梁文锋继续在浙江大学攻读硕士学位,进入信息与电子工程学院(信通系),师从项志宇教授,研究方向为机器视觉——包括计算机视觉、目标跟踪算法等。
📋 导师背景
项志宇是一位有着丰富国际经历的学者:
✦ 曾在葡萄牙阿威罗大学从事博士后研究
✦ 曾在美国俄亥俄州立大学从事博士后研究
✦ 参与过DARPA GRAND CHALLENGE 2004全美越野机器人大挑战
他的硕士毕业论文题为《基于低成本PTZ摄像机的目标跟踪算法研究》,研究如何让成本较低的云台摄像机实现稳定、准确的目标跟踪——这一选题体现了他一贯的风格:用更低的成本解决复杂问题。
这一研究思路在十多年后的DeepSeek身上得到了惊人的延续。
「用最低的成本,达到最好的效果」——这是梁文锋的技术信条。
🎬 有趣的历史插曲
值得一提的是,浙大求学期间,大疆创始人汪滔曾试图招募梁文锋加入创业团队——当时大疆还处于起步期,而梁文锋在机器视觉领域的研究与大疆的技术方向高度契合。但梁文锋最终婉拒了这一邀请,选择了自己的创业道路。
假设当年他加入大疆,中国科技史或许会是另一番景象。
✦ ✦ ✦
三 量化投资的起点:从8万元到千亿帝国
梁文锋对金融市场的兴趣萌芽于2007-2008年全球金融危机期间。当时还在读研的他,与几位浙大同学开始探索一个大胆的想法:
"能否用机器学习来做全自动量化交易?"
「这个想法在2008年的中国还很陌生。量化投资这个概念刚刚在华尔街的精英阶层中流行起来。」
💰 8万元的起步
2008年,23岁的梁文锋带着仅8万元人民币的本金,开始了独立的量化交易探索。
🛠️ "野路子"的技术创新
由于当时国内缺乏成熟的量化交易工具,他另辟蹊径:
✦ 用数字图像处理方法截取行情软件界面的数据
✦ 写外挂程序破解交易软件接口
✦ 硬生生搭建起自己的交易系统
这种"野路子"的技术创新,某种程度上预示了他日后在AI领域挑战主流范式的风格。
🚶 成都的失败岁月
2010年硕士毕业后,梁文锋搬到成都,尝试在多个行业引入AI技术,包括全自动绣花机等产品,但均以失败告终。
经历一番摸索后,他最终将目标锁定在金融领域——这是当时AI技术最有可能产生商业价值的方向之一。
🏢 幻方量化的诞生
2013年
28岁的梁文锋与浙大同学徐进共同创立杭州雅克比投资管理有限公司。公司名取自德国数学家卡尔·雅可比(Carl Jacobi),暗含了创始人对数学与算法的崇拜。
2015年
梁文锋正式创立杭州幻方科技有限公司(现浙江九章资产管理有限公司),即后来声名鹊起的幻方量化(High-Flyer Quantitative)。
📖 "幻方"名称的由来
公司名称取自中国古代洛书《九宫图》中的"幻方"——一种特殊的数学矩阵,象征科学与吉祥。
👥 联合创始团队
✦ 徐进:浙大竺可桢学院混合班,后获浙大博士
✦ 郑达韡:浙大校友
✦ 陈哲:浙大校友
✦ 李欢:浙大校友
🌱 草根创业的艰难
创业初期的条件相当简陋:
❌ 整个公司只有约10人、10张GPU显卡
❌ 办公室位于杭州拱墅区的一栋写字楼里
❌ 草根创业,知名度低,招聘困难
团队甚至想出用"美女HR照片"和"Herman Miller豪华办公椅"来吸引人才的策略。
🎯 关键转折点:2015年
2015年恰逢中国量化投资的关键转折点——4月,中证500股指期货上市,为量化策略提供了重要的对冲工具。同年夏天的A股股灾中,幻方量化凭借高频量化策略逆势取得不错成绩,开始崭露头角。
2016年10月21日,幻方量化迎来了历史性的一天:第一个由深度学习算法模型生成的股票仓位正式上线实盘交易。这一天,公司从依赖CPU和传统机器学习算法,跨入了GPU深度学习的新纪元。这个日期被内部视为幻方AI化的起点。
✦ ✦ ✦
四 飞速崛起:量化四大天王
此后的发展堪称飞速:
2017年
管理规模约30亿元,年底实现全部策略AI化
2018年
首次获得私募金牛奖(中国私募证券领域最高荣誉),正式确立AI为核心发展方向
2019年
管理规模突破100亿元,跻身百亿私募行列;同年成立幻方AI,启动"萤火一号"超算集群建设(投资近2亿元,1100块GPU)
2020年
萤火一号投入使用,全年收益率高达70.79%
2021年8月
管理规模突破1000亿元,与九坤、锐天、明汯并称"量化四大天王"
🎤 2019年金牛奖演讲
"量化基金没有基金经理做决策,基金经理就是一堆服务器。"
这句话既是对幻方模式的精准概括,也预示了AI时代资产管理的未来形态。
✦ ✦ ✦
五 萤火超算:为AGI埋下的伏笔
幻方量化对算力的追求,远超一般私募基金的想象。
2019年,当大多数量化机构还在租用云计算资源时,梁文锋做出了一个大胆的决定:自建超算中心。这就是后来的"萤火"系列。
🔥 萤火一号(2020年投入使用)
GPU数量:1100块高性能GPU显卡
峰值算力:每秒1.8416亿亿次浮点计算
网络互联:节点间200Gbps InfiniBand高速互联
存储集群:每秒1.3亿次IO响应,4.1Tbps读写带宽,1.2PB容量
🚀 萤火二号(2021年,投资10亿元)
仅仅18个月后,萤火一号就因算力需求暴增而"退役"。
GPU数量:约10000张英伟达A100 GPU(PCIe版本)
存储容量:近3000张SSD部署的42PB高速存储
峰值算力:每秒156亿亿次(TF32精度)
成本效率:性能接近英伟达官方DGX-A100,但成本降低一半、能耗减少40%
⚠️ 关键战略眼光:幻方在美国芯片出口管制正式生效前,成功囤积了约10000张A100芯片。这一战略眼光在后来DeepSeek的发展中发挥了决定性作用。据业内人士估计,当时国内拥有超过10000枚高端GPU的企业不超过5家,幻方是其中唯一一家非互联网巨头的公司。
💻 自研软件栈
与此同时,幻方还自主研发了一整套软件栈:
3FS:大容量高带宽并行文件系统
hfreduce:分布式训练通讯框架
hfai.nn:高性能算子库
HaiScale:扩展性解决方案
"外界看到的是2015年后的部分,但实际上技术积累已超过16年。"
这些积累,看似是为量化交易服务,实则为后来的大模型研发奠定了坚实基础。
✦ ✦ ✦
六 DeepSeek诞生:从量化到AGI的惊人转身
2021年底,规模突破千亿的幻方量化却遭遇了业绩回撤的考验。公司罕见地发布公告,承认"业绩回撤达到历史最大值,深感愧疚"。这一挫折,反而成为梁文锋重新思考方向的契机。
📢 2023年4月:震惊业界的公告
2023年4月14日,幻方量化发布了一则令业界意外的公告:公司将集中资源投身AI技术研究,成立独立研究组织探索AGI(通用人工智能)。
同年5月,梁文锋接受36氪《暗涌》独家采访,首次公开表态:
"我们要做的是通用人工智能,也就是AGI。语言大模型可能是通往AGI的必经之路。"
「幻方的主要班底都是做人工智能的,在尝试很多场景后切入了金融。金融只是AI技术的应用场景之一,而他的终极目标从来都是AI本身。」
🏢 2023年7月17日:深度求索成立
🎯 公司信息
公司全称:杭州深度求索人工智能基础技术研究有限公司
英文名:DeepSeek——"深度求索"
股权结构:梁文锋通过两家持股平台持有约84%的股份,牢牢掌控公司方向
外部融资:零——完全自筹资金
"我们面临的问题从来不是钱,而是高端芯片被禁运。"
首期研发投入30亿元人民币完全由幻方自筹,萤火二号的万卡集群成为模型训练的核心底座。
仅仅4个月后,DeepSeek就交出了第一份答卷。
✦ ✦ ✦
七 模型发布时间线:速度与创新的双重狂飙
DeepSeek的模型迭代速度令业界咋舌。以下是主要模型的发布时间线:
📅 2023年
11月2日
发布DeepSeek Coder(1B/5.7B/6.7B/33B参数),首个开源模型,代码能力超越GPT-3.5-turbo
11月29日
发布DeepSeek LLM(7B/67B参数),2万亿tokens训练,性能超越Llama2 70B
📅 2024年
1月9日
发布DeepSeek-MoE(16B参数/2.7B激活),国内首个开源MoE模型,首创"共享专家"架构
4月3日
发布DeepSeek-Math,数学推理专用模型
5月
发布DeepSeek-V2(236B总参/21B激活),首创MLA(多头潜注意力)架构,KV cache减少93.3%,API定价仅为GPT-4 Turbo的1/70
6月
发布DeepSeek-Coder V2,代码能力超越GPT-4 Turbo
9月
发布DeepSeek-V2.5,融合聊天与代码能力
11月20日
发布DeepSeek-R1-Lite-Preview,首个推理模型预览版
12月26日
发布DeepSeek-V3(671B总参/37B激活),训练成本仅约557.6万美元
📅 2025年(高光时刻)
1月20日 🔥
发布DeepSeek-R1(671B参数),性能全面比肩OpenAI o1,引发全球轰动
5月28日
发布DeepSeek-R1-0528,AIME准确率从70%提升至87.5%
8月21日
发布DeepSeek-V3.1
12月1日
发布DeepSeek-V3.2(685B参数)
💥 DeepSeek-R1的影响
✦ 在AIME 2024(美国数学邀请赛)测试中得分79.8%,超越OpenAI o1-1217的79.2%
✦ 在MATH-500基准上达到97.3%,同样超越对手
✦ 完全开源,采用MIT许可证,允许任何人自由使用和修改
✦ ✦ ✦
八 核心技术突破:用效率重定义AI竞争
DeepSeek的技术创新集中体现在以下几个方面:
🧠 MoE混合专家架构创新
传统大模型采用"稠密"架构,每次推理都要激活全部参数,计算成本极高。DeepSeek在MoE(Mixture of Experts)架构上进行了创新性改进:
1细粒度专家划分:将专家模块拆分得更细,提升专业化程度
2共享专家机制:部分专家始终激活,学习核心通用能力,避免知识碎片化
3无辅助损失负载均衡:开创性地解决了MoE训练中的负载不均问题
✅ 效果:以DeepSeek-V3为例,模型总参数达671B,但每个token的推理仅激活37B参数——这意味着只需五分之一的计算量,就能获得完整模型的能力。
⚡ MLA(多头潜注意力)架构
这是DeepSeek-V2首创的核心技术。传统Transformer的注意力机制需要存储大量的KV(Key-Value)缓存,显存占用极高。
💡 MLA的创新
✦ 将注意力输入压缩为低维潜在向量(维度远小于原始维度)
✦ 推理时再解压还原,大幅降低显存需求
✦ 同时引入解耦旋转位置编码(Decoupled RoPE),兼容压缩机制
✅ 惊人效果:
✦ KV cache减少93.3%
✦ 训练成本节省42.5%
✦ 最大生成吞吐量提升5.76倍
🔢 FP8混合精度训练
DeepSeek是全球首个在超大规模模型上验证FP8训练有效性的团队。通过使用5位指数+2位尾数的低精度格式,计算量减少约50%,而模型性能几乎无损。这一突破直接将训练成本降低了一半。
"英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果。中国AI的发展,同样需要这样的生态。"
这些技术创新的背后,是梁文锋团队对效率的极致追求。
✦ ✦ ✦
九 开源哲学:一种文化行为而非商业策略
DeepSeek的开源策略在国内大模型领域独树一帜。从第一款模型DeepSeek Coder开始,公司坚持将代码、模型权重、训练方法全部公开,采用MIT许可证,允许商业使用和二次开发。
❓ 为什么要开源?
梁文锋在采访中给出了深思熟虑的回答:
"开源更像一个文化行为,而非商业行为。给予其实是一种额外的荣誉。一个公司这么做也会有文化的吸引力。"
"在颠覆性的技术面前,闭源形成的护城河是短暂的。即使OpenAI闭源,也无法阻止被别人赶超。所以我们把价值沉淀在团队上,形成可以创新的组织和文化,就是我们的护城河。"
"希望形成一种生态,业界直接使用DeepSeek的技术和产出。DeepSeek只负责基础模型和前沿创新,其他公司在此基础上构建toB、toC业务。"
🌍 开源的影响力
✦ 在Hugging Face平台上,DeepSeek相关模型已产生超过500个衍生模型
✦ 下载量达250万次
✦ Meta首席科学家杨立昆公开表示:"开源模型正在超越闭源模型……DeepSeek从开源研究和开源软件中获益匪浅……所有人都能从中获益。"
💎 更深远的影响
DeepSeek的成功证明了中国公司可以从"技术搭便车者"转变为"生态贡献者"。面壁智能首席科学家刘知远评价:"中国与美国在AI领域的差距正在缩小。"
✦ ✦ ✦
十 管理哲学:没有KPI的创新组织
与DeepSeek的技术创新同样令人关注的,是梁文锋独特的管理理念。
🏗️ 扁平化与自组织
DeepSeek内部没有严格的层级架构或部门壁垒。
"组织完全是自下而上的,当一个idea显示出潜力,才会自上而下地调配资源。"
团队成员可以自由调用算力资源,"每个人对于卡和人的调动不设上限,随时可调用训练集群无需审批"。
📊 去KPI化
这一点最令传统管理者惊讶。
"我们没有KPI,也没有所谓的任务。"
「创新需要尽可能少的干预和管理,让每个人有自由发挥的空间和试错机会。创新往往都是自己产生的,不是刻意安排的,更不是教出来的。」
那如何确保团队方向一致?答案是:价值观和文化认同。
"我们不设成文的企业文化,因为所有成文的东西,又会阻碍创新。管理者以身示范,遇事的决策方式成为准则。"
❤️ 用人标准:热爱和好奇心
当硅谷同行惊叹DeepSeek团队的实力时,梁文锋的回应颇为淡然:
"并没有什么高深莫测的奇才,都是一些Top高校的应届毕业生、没毕业的博四博五实习生,还有一些毕业才几年的年轻人。"
他的选人标准始终如一:
"热爱和好奇心。很多人对做研究的渴望,远超对钱的在意。"
对于经验丰富的候选人,他反而持谨慎态度:
⚠️ "如果追求短期目标,找现成有经验的人是对的。但如果看长远,经验就没那么重要,基础能力、创造性、热爱等更重要。经验可能成为包袱。没有经验的人会反复摸索,认真思考,找到符合当前实际的解决办法。"
✅ 事实证明:DeepSeek-V2的核心团队没有一个海外回来的人,全部是本土培养。
✦ ✦ ✦
十一 行业地位:从追随者到破局者
DeepSeek在短短两年内从默默无闻跃升为全球AI领域的焦点,其市场地位可从以下维度衡量:
🏆 技术排名
根据Chatbot Arena(AI模型竞技场)的评测,DeepSeek-V3在开源模型中排名全球第一、国产模型第一,总成绩位列第7位,与GPT-4o、Claude 3.5 Sonnet等顶级闭源模型处于同一梯队。
👥 用户规模
据QuestMobile数据,2025年DeepSeek月活跃用户达1.8亿,位居中国AI应用第一位,超过:
✦ 字节跳动的豆包(1.01亿)
✦ 腾讯元宝(2636万)
✦ 月之暗面Kimi(2451万)
一度在美国App Store免费榜上超越ChatGPT,登顶第一。
💰 成本竞争力
DeepSeek的API定价重新定义了行业标准:
输入tokens $0.028/百万(缓存命中)· 约为GPT-4o价格的1/50
输出tokens $0.42/百万 · 约为OpenAI o1的1/100
这一定价策略在2024年被称为"价格战鲶鱼",直接推动国内百度、阿里、腾讯等大厂纷纷降价或免费开放模型。
🌍 国际影响
💥 华尔街震动
DeepSeek-R1的发布引发了华尔街的剧烈震动。2025年1月27日,英伟达股价单日暴跌17%,市值蒸发约6000亿美元——这是美股历史上单日市值损失最大的一次。
投资者担忧:如果高效训练成为可能,对GPU的需求是否会大幅下降?
📰 国际媒体反应
✦ 《经济学人》以封面文章分析其影响
✦ 《金融时报》称其"挑战了AI行业的核心信念"
✦ 美国前总统特朗普将其描述为"美国科技公司的警钟"
✦ ✦ ✦
十二 挑战与争议:光环之下的暗流
尽管成就斐然,DeepSeek也面临着多重挑战:
🔧 芯片限制
这是梁文锋公开承认的"最大挑战"。
"芯片禁令导致我们需要2-4倍算力才能达到同等效果。"
美国芯片出口管制生效后,DeepSeek只能使用符合规定的H800、H20等芯片,而非最先进的H100。
📊 技术短板
❌ 多模态能力方面仍有差距,原生多模态输入输出尚未实现,落后于Google Gemini等竞品
❌ 在知识问答和超长文本处理方面,与GPT-4o也存在一定距离
⚡ 服务稳定性
⚠️ 2025年初用户暴增后,系统承受巨大压力,高峰时段频繁无法响应,一度暂停新用户注册。这暴露出基础设施扩展的瓶颈。
🌐 地缘政治风险
✦ 美国商务部已通知员工禁止在政府设备上使用DeepSeek
✦ 部分欧美企业和政府机构因数据安全顾虑而谨慎使用
✦ 这可能限制其在国际市场的拓展
✦ ✦ ✦
十三 商业模式:不追求暴利,但也不贴钱
DeepSeek至今未接受任何外部融资,资金完全来自幻方量化的利润。
💡 传闻中的融资
据2025年2月传闻,阿里曾计划以100亿美元估值投资10亿美元,但被阿里方面否认。
💼 商业模式
C端 网页和APP免费开放
B端 API服务按调用量收费
"原则是不贴钱,也不赚取暴利。"
——梁文锋谈定价原则
📊 运营数据(2025年3月披露)
理论日收入:56.2万美元
理论日成本:8.7万美元
理论成本利润率:545%
但官方强调"实际收入远不及理论数值",因为大量服务是免费提供的。
💎 估值争议
✦ 彭博亿万富翁指数给出的区间是20亿-300亿美元
✦ 乐观估计甚至高达1500亿美元(若实现将使梁文锋身价超过黄仁勋)
✦ 胡润研究院表示:"如果DeepSeek达到OpenAI万亿估值,梁文锋有望成为中国首富。"
✦ ✦ ✦
十四 个人生活:极度低调的亿万富翁
与DeepSeek的高调成就形成鲜明对比的,是梁文锋本人的极度低调。
💰 财富排名
2025年3月 · 首次登上胡润全球富豪榜,身价330亿元人民币(约45亿美元)
2025年6月 · 新财富500创富榜上,以1846.2亿元位列第10位
🏠 生活方式
尽管坐拥百亿身家,梁文锋的生活方式却保持着技术人员的朴素:
✦ 很少接受媒体采访,网上难以找到公开照片
✦ 《金融时报》引用商业伙伴的描述:"一个留着可怕发型的书呆子"
✦ 老家新建的四层半楼房装修简洁低调,目前只有爷爷独自居住,每天看报
✦ 2025年春节曾短暂回乡吃年夜饭
✦ 唯一可知的爱好是弹吉他——有村民回忆梁文锋曾邀请他"喝水弹吉他"
❤️ 慈善捐赠
✦ 2022年,幻方量化共计捐赠2.2138亿元用于公益事业
✦ 其中一笔1.38亿元的个人捐款署名"一只平凡的小猪",员工普遍猜测是梁文锋本人
✦ 每年向家乡村里捐款,资助村里做大戏、过年例等传统活动
✦ ✦ ✦
十五 关键数据与里程碑
📅 时间轴:从萤火到深度求索
2008年
梁文锋与同学开始探索机器学习在量化交易中的应用
2013年
创办投资公司雅克比
2015年7月
创办幻方量化,初始资金5000万元
2019年
管理规模突破100亿元;投入2亿元建设"萤火一号"
2021年
投入10亿元建设"萤火二号";管理规模突破1000亿元
2023年7月
正式创办DeepSeek,开始大模型研发
2025年1月20日
发布DeepSeek-R1,登顶苹果美国应用商店
2025年12月8日
入选《自然》杂志2025年度十大科学人物
🔢 数字的故事
1985 · 出生年份
1996 · 11岁直升吴川市第一中学
2002 · 17岁以全校第一成绩考入浙江大学
5000万元 · 2015年创办幻方的初始资金
1000亿元 · 2021年幻方管理规模峰值
10000张 · 萤火二号搭载的A100显卡数量
557万美元 · DeepSeek-R1的训练成本
671B · DeepSeek-V3的参数量
1.8亿 · DeepSeek月活跃用户数
25倍 · DeepSeek-R1相对于o1的成本优势
✦ ✦ ✦
十六 经典语录:一位技术理想主义者的思考
梁文锋公开发言不多,但每次采访都金句频出。以下是他最具代表性的观点:
🚀 关于创新与中国科技
"创新首先是一个信念问题。为什么硅谷那么有创新精神?首先是敢。"
"中国AI不可能永远处在跟随的位置。我们经常说中国AI和美国有一两年差距,但真实的gap是原创和模仿之差。如果这个不改变,中国永远只能是追随者。"
"在美国每天发生的大量创新里,这是非常普通的一个。他们之所以惊讶,是因为这是一个中国公司,在以创新贡献者的身份,加入到他们游戏里去。毕竟大部分中国公司习惯follow,而不是创新。"
"OpenAI不是神,不可能一直冲在前面。"
💼 关于技术与商业
"所有的套路都是上一代的产物,未来不一定成立。拿互联网的商业逻辑去讨论未来AI的盈利模式,就像马化腾创业时,你去讨论通用电气和可口可乐一样,很可能是一种刻舟求剑。"
"过去三十年,我们都只强调赚钱,对创新是忽视的。创新不完全是商业驱动的,还需要好奇心和创造欲。"
👥 关于人才与管理
"我们选人的标准一直都是热爱和好奇心。很多人对做研究的渴望,远超对钱的在意。"
"创新需要尽可能少的干预和管理,让每个人有自由发挥的空间和试错机会。创新往往都是自己产生的,不是刻意安排的,更不是教出来的。"
"更多的投入并不一定产生更多的创新。否则大厂可以把所有的创新包揽了。"
🎯 关于使命与理想
"一件激动人心的事,不能单纯用钱衡量。就像家里买钢琴,一来买得起,二来是因为有一群急于在上面弹奏乐曲的人。"
"我们觉得现在最重要的是参与到全球创新的浪潮里去。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。"
"当这个社会让硬核创新的人功成名就,群体性想法就会改变。我们只是还需要一堆事实和一个过程。"
✦ ✦ ✦
十七 结语:一个时代的注脚
梁文锋的故事,是一个中国80后技术人完整的成长轨迹:从粤西小镇的教师家庭走出,考入浙大、研习机器视觉,又从8万元本金起步,一路打造出千亿量化帝国,最终转型AI大模型,在全球舞台上与OpenAI、Google、Meta同台竞技。
这个故事的意义,远超个人传奇:
✦ 它证明了中国科技可以不再是单纯的"追随者"和"模仿者"
✦ 它证明了高效可以击败堆算力的"规模暴力"
✦ 它证明了开源可以成为一种竞争力
更重要的是,它重新定义了"什么是创新"。正如梁文锋所言:
"过去三十多年IT浪潮里,我们基本没有参与到真正的技术创新里。我们已经习惯摩尔定律从天而降,躺在家里18个月就会出来更好的硬件和软件。但其实,这是西方主导的技术社区一代代孜孜不倦创造出来的。"
DeepSeek的出现,或许标志着这一局面正在改变。一个来自吴川小镇的普通人,用热爱、好奇心和十几年的技术积累,正在为中国科技的原创叙事写下新的一页。
🌟 40岁的梁文锋,故事才刚刚开始
从量化天才到AI大神,一个用数学改变世界的人,现在用AI再一次改变世界。
✦ ✦ ✦
🎯 你怎么看梁文锋和DeepSeek的故事?
欢迎在评论区留言分享你的看法 👇
📚 参考来源:
1. 36氪《暗涌》独家采访
2. 《金融时报》深度报道
3. 《经济学人》封面文章
4. 《自然》杂志2025年度十大科学人物
5. DeepSeek官方技术报告
6. 幻方量化官方信息
7. QuestMobile数据报告
8. 胡润研究院富豪榜
9. 浙江大学校友资料
10. 吴川市地方新闻报道
参考原文信息列表:
1. https://www.36kr.com/p/deepseek-exclusive-interview
2. https://www.ft.com/content/deepseek-china-ai
3. https://www.economist.com/china-ai-deepseek
4. https://www.nature.com/articles/d41586-024-science-people
5. https://github.com/deepseek-ai/DeepSeek-V3
6. https://arxiv.org/abs/deepseek-r1
7. https://www.hurun.net/zh-CN/Rank/HsRankDetails
8. https://www.questmobile.com.cn/research/report
9. https://www.zju.edu.cn/alumni
10. https://en.wikipedia.org/wiki/DeepSeek
✨
— END —