DeepSeek小版本大升级,新R1模型代码能力媲美OpenAI o3
作者: 第一财经 日期:2025-05-29 18:54 阅读:0 来源:第一财经
【天维网综合报道】5月28日晚,第一财经记者获悉,DeepSeek小助手在官方交流群中通知,DeepSeek R1模型已完成小版本试升级,紧接着就在29日凌晨,官方在开源平台HuggingFace上发布了DeepSeek-R1-0528。
目前官方还未更新模型卡以及公告介绍,但不少开发者已经第一时间进行了测试,发现这个“小版本升级”并不小,海外开发者感慨“一如既往的DeepSeek低调风格”。
众多测试发现,DeepSeek-R1-0528目前提升最为明显的是代码能力,在代码测试平台Live CodeBench中,其性能几乎媲美OpenAI重量级的o3-high模型。
有开发者表示,这是“开源的巨大胜利”。
不过,或许受限于测试的速率限制,目前开发者群体中公认编程能力最强的Claude-4系列模型并不在测试榜单中。
AI博主同时也是KCORES开源硬件项目联合创始人@karminski-牙医进行了个人的测试,基于最新的DeepSeek-R1模型和Claude-4-Sonnet进行测试,测试内容是用一个橙色小球撞击物体,从效果显示,平面的橙色漫反射、 撞击效果方面是R1模型更好。
但有开发者对第一财经表示,这类能力看个例是不准的,或许要等评测榜单和一个月后的口碑见分晓。
除了代码能力,有开发者总结了DeepSeek这次更新其他亮点,包括改进了写作任务,更自然、格式更好。也有用户反映,用最新模型写作正常很多,没有强烈的“量子力学元素”了。
@karminski-牙医同时对最新模型进行了文本召回测试,发现在上下文32K以内比之前的R1模型要好不少,但是在60K的上下文中效果下降了不少。这意味着在32K以内针对给定的材料使用新R1模型提问,回答的准确度会更好。
在RI这次“小版本试升级”后,有海外网友表示,如果这是R1,那么R2会有多好?DeepSeek官方针对此前的V3模型和R1模型都做了一次迭代,但仍未放出大家期待的R2模型的消息。
此前3月,DeepSeek也是在hugging face默默上新DeepSeek-V3-0324迭代版本模型,DeepSeek介绍,新版V3模型借鉴R1模型训练过程中所使用的强化学习技术,大幅提高了在推理类任务上的表现水平,此外在前端开发、中文写作等方面进行了能力优化。
有业内人士猜测,是否模型架构不更新,只是增加或调整了训练数据,DeepSeek就不将更新定义为大版本升级,而业内其他模型给出明显的版本号迭代则是一种品牌营销需求。目前DeepSeek并未对此进行任何解释。
除了上述模型能力,开发者也希望未来DeepSeek R2若进行升级能大幅提升上下文长度,以及增加多模态的能力,毕竟这两个方面的能力对于生产使用很重要。
版权声明
1. 未经《新西兰天维网》书面许可,对于《新西兰天维网》拥有版权、编译和/或其他知识产权的任何内容,任何人不得复制、转载、摘编或在非《新西兰天维网》所属的服务器上做镜像或以其他任何方式进行使用,否则将追究法律责任。
2. 在《新西兰天维网》上转载的新闻,版权归新闻原信源所有,新闻内容并不代表本网立场。
版权声明
1.
未经《新西兰天维网》书面许可,对于《新西兰天维网》拥有版权、编译和/或其他知识产权的任何内容,任何人不得复制、转载、摘编或在非《新西兰天维网》所属的服务器上做镜像或以其他任何方式进行使用,否则将追究法律责任。
2. 在《新西兰天维网》上转载的新闻,版权归新闻原信源所有,新闻内容并不代表本网立场。
- 前脚禁止后脚又设上限?特朗普称哈佛大学国际生比例最高15%
- 英伟达数据中心收入大涨超70%,中国H20相关损失达80亿美元
- 马斯克宣布离开特朗普政府
- 多重利好催化,无人驾驶概念大涨,玉禾田等逾20股涨停
- 鲁比奥:美国开始撤销中国学生签证
- 英王查尔斯三世主持加拿大第45届国会开幕礼
- 特朗普再施压:哈佛大学应对国际生人数设定15%的上限
- 中国对沙特、阿曼、科威特、巴林四国试行免签
- 连续三次试飞失败,马斯克:未来三次发射节奏会更快
- 拟审查社交媒体?美国政府暂停留学生新签证面谈,影响几何?
· 请您文明上网、理性发言
· 尊重网上道德,承担一切因您的行为而直接或间接引起的法律责任
· 您的留言只代表个人意见,不代表本站立场
· 天维网拥有管理笔名和留言的一切权利
· 您在天维网留言板发表的言论,天维网有权在网站内转载或引用
· 天维网新闻留言板管理人员有权保留或删除其管辖留言中的任意内容
· 参与本留言即表明您已经阅读并接受上述条款
查看所有评论 共( 条)