文章来源:DeepSeek R1,中国AI的“ChatGPT时刻”?
DeepSeek公司及DeepSeek R1的背景
- 公司成立背景:DeepSeek成立于2023年7月,总部位于中国杭州,由浙江大学校友梁文锋创立。它是由梁文锋2015年创立的对冲基金High-Flyer孵化而来。High-Flyer于2023年3月宣布“重新出发”,集中资源探索AGI(人工智能通用智能)的本质,DeepSeek随后创建。
- DeepSeek R1发布背景:2025年1月27日,DeepSeek在DeepSeek V3的基础上发布了推理模型DeepSeek R1,其表现被认为可以与OpenAI最新的o1等相媲美,且成本效益受到行业人士的好评。其发布当天,下载量登顶苹果中国地区和美国地区应用商店免费App下载排行榜。
DeepSeek R1发布的影响
- 对美国科技股的影响:DeepSeek R1发布的当天,美国科技股遭受重创。AI芯片供应商英伟达股价下跌近17%,市值损失5888亿美元。Meta、Alphabet等科技巨头的股价也大幅下挫,导致纳斯达克指数暴跌3.1%。此外,一些能源相关股票也出现暴跌。
- 对美国AI领先地位的质疑:DeepSeek R1的成功引发了投资者对美国公司在AI领域领先优势的质疑,并围绕大型科技公司在构建AI模型和数据中心上的巨额支出是否可以避免展开了激烈讨论。
DeepSeek公司的特点
- 愿景与目标:DeepSeek与OpenAI的萨姆·奥尔特曼一样,希望构建AGI。在过去一年中发布了各种有竞争力的AI模型。
- 技术突破:DeepSeek采用了创新的架构,在AI算法方面取得重大突破,其产品达到了GPT-4的级别。它通过将模型分解成多个子专家模型,并通过专家混用模型系统不断迭代,而不是采用“蒸馏”的简单进化。此外,DeepSeek R1的架构不需要做SFT(监督微调)。
- 成本效益:DeepSeek R1的成功表明,基于算法优化和新架构的方法可以有效突破计算能力不足的束缚,提高数据的利用效率和迭代速度,从而大幅降低模型开发成本。尽管其训练成本尚未完全披露,但相比全球目前能力相媲美的模型,成本要低得多。
DeepSeek对全球AI发展的影响
- 对Scaling Law的挑战:Scaling Law是OpenAI研究人员在2020年提出的AI开发概念,即通过大幅增加构建新模型所需的计算量和数据量,可以开发出更好的AI系统。DeepSeek用较低的成本和功能较差的芯片实现强大的AI模型功能,引发了对Scaling Law是否成立的质疑,以及对是否需要投资昂贵AI基础设施的思考。
- 对AI开源社区的鼓舞:与OpenAI的ChatGPT等闭源模型不同,DeepSeek是开源的。其成功被视为开源社区相对闭源的一次胜利,可能会改变目前开闭源的AI发展格局。同时,它也吸引了开源社区内各竞争对手的关注,有助于推动开源模型的繁荣。
- 对应用落地的促进:DeepSeek的发展可能会对AI的应用落地产生积极的促进作用,但大规模应用落地、对社会产生价值仍然需要大量的基础设施和时间。
DeepSeek对中国AI发展的意义
- 激发中国AI公司的斗志:中国是仅次于美国的第二大AI贡献者,但过去两年国内公司发布的中国版ChatGPT类产品总体表现让市场有些失望。DeepSeek的发展可能会激发中国AI公司的“斗志”,提升AI创新公司和行业的信心。
- 提供工程效率创新经验:梁文锋曾表示,中国公司面临的挑战之一是AI工程技术效率较低。DeepSeek在工程效率的创新等方面为其他AI公司提供了有益的经验。
方跃教授的背景和观点
- 背景:方跃教授是中欧国际工商学院经济学与决策科学教授、经济学和决策科学系系主任、中欧AI与企业管理研究领域主任。他曾在麻省理工学院等机构担任研究员,并长期为多家跨国公司和中国企业提供人工智能、数智化转型等方面的咨询服务。
- 观点:方跃教授认为,AI的发展方向一定是消耗更少的能源且更具成本效益,但对算力和数据的需求不会降低。DeepSeek的创新算法路径会对AI行业的供应链产生影响,多路径发展可能成为未来趋势。他还强调,DeepSeek的实践为其他AI公司提供了有益的经验,AI未来几年的惊喜将不断出现。
总结:
- deepseek优势在于: 强大的推理能力、低廉的使用成本、实时数据检索、灵活的部署方式
- 开源!!!
- “用更少的钱训练一个大型语言模型是一回事,大规模应用落地、对社会产生价值是另外一回事,满足AI技术消费的巨大需求仍然需要大量的基础设施和时间。”