新智元
整合编辑:太平洋科技
发布于:2025-12-09 18:07
2025年12月,DeepSeek创始人梁文锋凭借低价开源推理大语言模型R1入选《自然》年度十大人物。该模型以高效训练成本和开放权重震惊AI界,推动中美竞赛加剧。梁文锋曾是金融分析师,现致力于通用人工智能研发,其公司影响深远,被誉为“科技颠覆者”。
|
正式报道中,则用「这位中国金融奇才的DeepSeek AI模型惊艳了世界」。
今年1月,中国的一则公告震撼了人工智能界! 同时,Nature也用「让科学家感到兴奋」为标题进行了专题报道。
DeepSeek公司突然发布了功能强大但价格低廉的R1模型——瞬间证明美国在人工智能领域的领先优势并不像许多专家想象的那样巨大。 这则爆炸性公告的背后是40岁的前金融分析师梁文锋。 据信他此前通过将人工智能算法应用于股市赚取了数百万美元,并于2023年用这笔资金在杭州创立了DeepSeek公司。 梁文锋行事低调,仅接受过少数几家中国媒体的采访(并且他拒绝了《自然》杂志的采访请求)。 DeepSeek和他本人的低调神秘形成了鲜明对比。 R1是一款推理大语言模型(LLM),擅长通过将复杂任务分解为步骤来解决数学和编程等难题。
它是首个以开放权重形式发布的此类模型,意味着研究者可以免费下载并基于此模型进行开发,这为希望将算法适配到自身领域的研究人员带来了福音。 DeepSeek的成功似乎促使中美其他公司纷纷效仿,相继发布了各自的开源模型。 尽管R1在多项能力上与美国顶尖模型(包括驱动ChatGPT的模型)不相上下,但人工智能专家指出,其训练成本远低于竞争对手。
例如,Meta的Llama 3 405B模型的训练成本就高出十倍以上。 DeepSeek对透明度的追求还体现在:去年9月该模型成为首个接受同行评议的主流LLM时,公司完整公布了构建和训练R1的技术细节。
通过公开其配方,DeepSeek为其他AI研究者提供了训练推理模型的宝贵经验。 总部位于纽约的社区人工智能平台HuggingFace研究员Adina Yakefu表示:「从许多方面来看,DeepSeek已经产生了巨大影响力。」 梁出身于广东一个乡村,父母都是小学教师,这样的成长环境与如今AI领域的高峰相去甚远。 高等教育将他带到了杭州的顶尖学府浙江大学,并于2010年获得工程学硕士学位;他的论文涉及设计算法来追踪视频中的物体。
很快,他将对人工智能的热爱应用于金融市场,并于2015年联合创立了对冲基金高飞资本(High-Flyer),随后在2023年分拆出DeepSeek公司。
当时,中国在开发LLMs方面面临障碍。 美国的出口管制阻止了中国公司购买某些由美国芯片制造商英伟达生产的强大计算机芯片,即图形处理单元(GPU),这些芯片适合训练LLMs。 但梁文锋早已储备充足。
出于对能在这些芯片上进行何种研究的好奇心,他在过去十年里购买了1万块英伟达GPU。 在2023年接受中国媒体公司36氪采访时,他将这些购买行为比作有人为家中购买钢琴:买得起,而且有一群人渴望在上面演奏音乐。 与许多西方人工智能企业家一样,梁将目光投向了实现通用人工智能——即能在认知任务上与人类相媲美的AI系统——并围绕这一目标塑造了他的公司,前DeepSeek研究员Benjamin Liu表示。
公司在招聘时更看重个人潜力而非经验水平(DeepSeek R1论文的一位作者仍在读中学),且组织架构扁平化,研究人员可自主决定研究方向。 据悉梁深度参与研究工作,即使像我这样的实习生也被视为承担重要职责的正式员工,Benjamin Liu说道。 公司外部的研究人员对DeepSeek的运营方式印象深刻。 专注于人工智能安全的咨询公司Concordia AI的国际人工智能治理负责人Kwan Yee Ng表示,DeepSeek没有利用其知名度追求商业成功,而是始终致力于解决人工智能研究中相当困难的基础性问题,这令人瞩目。 DeepSeek模型已深度融入中国人的生活:地方政府正利用它们运营聊天机器人热线、协助市民填写表格,每天更有数千万人通过国内社交媒体平台微信使用这些模型。 这一趋势部分得益于政府推动人工智能通过智慧城市、医疗保健等各类应用融入经济发展。 据梁文锋及其他中国研究人员称,DeepSeek已成为国家形象转型的象征——从卓越的模仿者蜕变为真正的创新者。 这种转变真实存在,且正在加速,DeepSeek研究员Yu Wu表示。如今全球正热切期待该公司即将推出的下一代推理模型R2,据传该模型因硬件与训练数据问题已推迟发布。
可以确信的是,梁文锋的公司计划向世界免费开放R2。 我们承诺永久开源,Yu Wu强调道。 |
IT百科
网友评论
聚超值•精选


