对DeepSeek新模型的一些思考
Published:
当前是2025年初,对于DeepSeek-V3、DeepSeek-R1的宣传非常多,火热的舆论之下,我从相关研究者的角度做出一些思考。
DeepSeek新模型能干什么
基础功能
- 离线应用:直接面向用户或者支持开发者,提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景
- 在线应用:支持联网搜索与深度思考模式,同时支持文件上传,能够扫描读取各类文件及图片中的文字内容。
潜在应用
- 数据分析与预测:商业数据分析、社会趋势预测、环境监测与预测等。
- 智能交互与服务:智能客服、智能助手、个性化推荐等。
- 自动化与控制:工业自动化、智能家居控制、智能交通控制等。
DeepSeek为什么这么火
- 效果好:DeepSeek-R1的效果确实非常惊艳,可以接近甚至追上了OpenAI的效果,但并没有完全超越,部分领域仍然存在差距。效果是出圈的基础,但不是出圈的主要原因。
- 技术创新:DeepSeek技术报告中应用了很多前沿技术,并且大规模验证了其可行性,给了广大研究者一剂强心针。
- 成本低:这是最惊艳的点,DeepSeek成本低分为两个层面,一方面是训练的成本很低,Deepseek训练成本仅为OpenAl同类模型的十分之一;另一方面是应用成本低,API价格极为便宜,低的超出想象。
- 开源:开源使得DeepSeek更容易成为行业内相关技术方案标准的制定者,其他相关研究容易产生路径依赖。
- 公开技术细节:除了模型本身的参数,DeepSeek也公开了思考过程,提供了全新的用户体验。
- 国家基础建设需要:需要一款自主的顶级大模型体现技术先进性和人工智能领域的领先地位。
总的来说,DeepSeek的效果不错是它出圈的基础,成本低是它出圈的核心,而国产化的需要是它出圈的关键。
DeepSeek 带来的影响
对于AI模型
Deepseek的开源与高性价比将显著加剧大模型层竞争,降低大模型门槛,利好相关领域内的追赶者,重塑大模型领域的生态格局。 高性价比则进一步降低了技术应用与创新的成本,让更多资源相对有限的参与者能够涉足其中。 这让更多科研机构、中小企业甚至个人开发者都能够基于开源框架进行二次开发与创新实践。这不仅有利于技术的快速迭代与优化,还能激发更多潜在的创新思路与应用场景,加速大模型技术在各个领域的渗透与落地。
对于AI算力
DeepSeek的低成本特性,对先进算力需求预期降低,在一定程度上缓解了算力市场的紧张局面。这一变化为 ASIC 和国产芯片厂商带来了更为宽松的发展环境。 芯片厂商有了更长的时间窗口来进行技术研发与产品迭代。 对于国产芯片厂商而言,这一机遇尤为珍贵。 让国产芯片厂商得以在相对稳定的市场环境中,加大研发投入,攻克关键技术难题,完善产业链布局。尤其是和AI模型软硬协同优化,逐步缩小与国际先进水平的差距,有望出现领域内新的规范标准。
对于AI服务提供商/云服务商
利好云厂商下游需求增长,显著缩小了云厂AI前期投入与应用兑现之间的时间与资源成本,使得基于云平台的人工智能应用开发变得更为高效、便捷,激发了下游企业对云服务的新一轮需求增长。 云厂商无需再进行大规模的重复投入,能够将有限的资源更为精准地聚焦于核心业务拓展与服务质量提升。 使得云厂商能够提升盈利能力,长期来说,国产云厂商通过国产大模型奠定了基础,在全球云服务市场竞争中逐步站稳脚跟,实现从追随者到引领者的角色转变。
对于AI Agent应用
因为DeepSeek在效果上并没有实现太多突破,对于AI Agent应用的直接影响较小,相反对于小型企业可能伴随着短期阵痛。 Agent应用是需要仔细调整优化来让模型适配专用的领域。切换模型意味着之前的很多优化策略将会失效,这对于技术人员带来了困难,为产品稳定性带来了风险。 长期来看,对企业降低成本、实现国产可控的自主化是有好处的。总之,对于Agent效果上短期影响较小,并且近期肯定会相关技术进一步井喷,不如短期观望,选择更成熟、专业领域效果更好的模型。


Leave a Comment