AI模型竞争白热化:国产DeepSeek R1 0528 对阵国际巨头Gemini Pro 2.5

我爱免费 · 发表于 2025-5-30 22:12

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

作者：微信文章
近期，DeepSeek推出了其DeepSeek R1的更新版本0528，该版本基于DeepSeek V3 base模型。官方表示，新模型与OpenAI的O3以及Gemini 2.5 Pro已非常接近。一个开源的国产模型能够与国际顶尖的闭源大模型对标，这被认为是“非常厉害”的成就。本文将对比分析DeepSeek R1 0528（以下简称R1）与Gemini 2.5 Pro在多方面的表现。

核心能力与评测数据对比

在参数方面，R1 0528在数学能力上与OpenAI的O3非常接近。在科学问题上，O3得分更高。在评分上，R1 0528得分高于Gemini 2.5 Pro。然而，在AD排行榜上，R1 0528的得分略低于Gemini 2.5 Pro。在人类最终测试中，R1的得分也与Gemini 2.5 Pro非常接近。评测者指出，两者“各有千秋”。

DeepSeek官方强调，R1的思维链（Chain-of-Thought）对于学术界推理模型研究和工业界小模型开发具有重要意义。R1完全展示其思考过程，这一点与OpenAI的O3基本没有思考过程的特点形成鲜明对比。R1的思考过程非常全面。在评测中，R1在一个题目上思考了十多分钟（超过1000秒）。相比之下，Gemini 2.5 Pro在一些文本任务上的思考速度要快很多。

新版R1针对幻觉问题进行了优化，在改写、润色、总结摘要、阅读理解等场景中，幻觉率大幅降低。在创意写作方面，R1针对议论文、小说、散文进行了进一步优化。R1支持工具调用，但不支持在思考过程中调用，而Claude则支持。

多场景实测对比

视频通过一系列编程和文本任务展示了两个模型的具体表现：

总结与展望

总的来说，DeepSeek R1 0528和Gemini 2.5 Pro在不同的测试题上确实“各有千秋”。R1被评为“非常能打”的国产大模型。

尤其值得关注的是，DeepSeek官方及其模型所展示的完整思维过程，这对学术界研究推理模型和工业界开发小模型具有重要意义。评测者对拥有这样一个“强大”的国产模型感到自豪。

虽然Gemini 2.5 Pro在某些任务的速度、交互效果或特定解读下表现更优，但DeepSeek R1 0528在展示思考过程、处理复杂财务规划、以及在某些代码生成和文本任务中的表现，都显示了其强大的能力和作为国产AI力量的潜力。两者之间的激烈竞争，无疑正在推动AI技术边界的不断拓展。

「源力研究所 | Primo Dynamics

——创客码头旗下科技智库，赋能底层创新到商业裂变

聚焦硬核科技创业的「原理级赋能者」，依托创客码头十年产业资源沉淀，专注前沿科技领域创新，为早期技术团队提供技术可行性沙盒、产业资源强链接

账号		自动登录	找回密码
密码			注册

AI模型竞争白热化:国产DeepSeek R1 0528 对阵国际巨头Gemini Pro 2.5

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块