DeepSeek-V3低调发布后 业内震惊之余再次怀疑硅谷模式

admin2周前文化15

转自:财联社

财联社3月25日讯(编辑 马兰)中国人工智能初创公司DeepSeek周一悄然发布了新的模型,这款参数达6850亿个的模型被称为DeepSeek-V3-0324,在没有任何公告的情况下在AI存储库Hugging Face上线,但仍引起了业内的轰动。

这款模型已经取得了MIT许可证,也就意味着其可以被自由用于商业用途,且业内的早期测试证实,该模型可以直接在消费级硬件上运行,比如高端市场的苹果Mac Studio。

AI 研究员Awni Hannun表示,新的DeepSeek-V3模型可以在配备M3 Ultra芯片的苹果电脑上,以每秒20个token的速度运行。这打破了业界关于人工智能模型能力与本地化运行或冲突的早前共识,也意味着数据中心并不是大模型的必要搭配。

另一名人工智能研究员Xeophon则在X上宣称,在内部工作台上测试了新版DeepSeek-V3后,发现它在测试的所有指标上都有了巨大飞跃。它现在是最好的非推理模型,超越了甲骨文的Claude Sonnet 3.5。

低调但轰动

DeepSeek-V3-0324面世时没有附带白皮书,也没有任何宣传,只有一个空的ReadMe文件。这一近乎朴素的发布形式,与硅谷精心策划的产品宣传模型形成鲜明对比。

与此同时,DeepSeek的模型都是开源模型,可供任何人免费下载和使用,与最好商业模型之一的Claude Sonnet截然相反,后者按月收取20美元的费用。

此外,DeepSeek还从根本上重新构想了大型语言模型的运作方式,在特定任务期间仅激活约370亿个参数而非全部,也就是所谓的“专家”模块,这大大降低了计算需求。

该模型还有另外两项突破性技术:多头潜在注意力(MLA) 和多标记预测(MTP)。MLA增强了模型在长篇文本中保持上下文的能力,而MTP每一步生成多个标记,而不是通常的一次生成一个标记的方法。这些创新共同将输出速度提高了近 80%。

某种程度上,DeepSeek体现了中国企业对效率和资源极致追求的精神,即如何以有限的计算资源实现相等或者更加优化的性能。而这种由需求驱动的创新已经使中国的人工智能在几个月时间内震惊了全球。

DeepSeek新模型的改变对于业内来说也具有重大意义,一方面其大大降低了大模型的能耗及计算成本,进一步动摇了华尔街对于顶级模型基础设施的投资规模假设;另一方面,中国人工智能行业对开源的广泛共识又迅速推动国内AI行业的发展,不断缩短其与世界顶尖对手的距离。

还有人认为,在DeepSeek的快速追赶下,其计划在4月发布的R2模型有可能直接挑战OpenAI宣传已久的GPT-5模型。如果这一前景真的发生,那么中美两国发展人工智能的不同思路可能将迎来直接的交锋。

(财联社 马兰)

本站非盈利性质,内容来源于互联网。

相关文章

三和管桩:关于为子公司提供担保的进展公告

三和管桩:关于为子公司提供担保的进展公告...

山科大宣称该校教授助力茅台增产三到五成,茅台集团:不可能

  证券时报网讯,2月21日晚,山东科技大学官方微信公众号发布的一篇文章提到,该校“山海英才”特聘教授、智能装备学院教师施陈博与团队历时4年,攻克行业技术难题,改变了茅台几十年的生产工艺,使茅台的年产...

大行评级|高盛:上调潍柴动力目标价至22港元 上调2025年至27年盈测

高盛发表研究报告指,在周期性前景改善、产品盈利能力提升、KION投资贡献等推动下,潍柴动力估值有重估的潜力,将2025年至2027年的每股盈利预测上调16%至21%,目标价由14.61港元上调至22港...

加拿大皇家银行因担忧经济增长下调标普500指数年终目标

  另一位华尔街策略师因担忧经济增长而下调了标准普尔 500 指数的年终目标。   在标准普尔 500 指数近期下跌 10% 之后,加拿大皇家银行资本市场(RBC Capital Markets)的美...

焦点科技:关于修订《公司章程》的公告

焦点科技:关于修订《公司章程》的公告...

华菱钢铁:公司密切关注前沿科技在软件开发等领域的应用,目前已实现DeepSeek本地化

华菱钢铁:公司密切关注前沿科技在软件开发等领域的应用,目前已实现DeepSeek本地化

快讯摘要 华菱钢铁:公司密切关注前沿科技在软件开发等领域的应用,目前已实现DeepSeek本地化 每经AI快讯,...