找回密码
 注册

微信登录

微信扫一扫,快速登录

查看: 194|回复: 0

AI模型竞争白热化:国产DeepSeek R1 0528 对阵国际巨头Gemini Pro 2.5

[复制链接]
发表于 2025-5-30 23:12 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
近期,DeepSeek推出了其DeepSeek R1的更新版本0528,该版本基于DeepSeek V3 base模型。官方表示,新模型与OpenAI的O3以及Gemini 2.5 Pro已非常接近。一个开源的国产模型能够与国际顶尖的闭源大模型对标,这被认为是“非常厉害”的成就。本文将对比分析DeepSeek R1 0528(以下简称R1)与Gemini 2.5 Pro在多方面的表现。

核心能力与评测数据对比

在参数方面,R1 0528在数学能力上与OpenAI的O3非常接近。在科学问题上,O3得分更高。在评分上,R1 0528得分高于Gemini 2.5 Pro。然而,在AD排行榜上,R1 0528的得分略低于Gemini 2.5 Pro。在人类最终测试中,R1的得分也与Gemini 2.5 Pro非常接近。评测者指出,两者“各有千秋”。

DeepSeek官方强调,R1的思维链(Chain-of-Thought)对于学术界推理模型研究和工业界小模型开发具有重要意义。R1完全展示其思考过程,这一点与OpenAI的O3基本没有思考过程的特点形成鲜明对比。R1的思考过程非常全面。在评测中,R1在一个题目上思考了十多分钟(超过1000秒)。相比之下,Gemini 2.5 Pro在一些文本任务上的思考速度要快很多。

新版R1针对幻觉问题进行了优化,在改写、润色、总结摘要、阅读理解等场景中,幻觉率大幅降低。在创意写作方面,R1针对议论文、小说、散文进行了进一步优化。R1支持工具调用,但不支持在思考过程中调用,而Claude则支持。

多场景实测对比

视频通过一系列编程和文本任务展示了两个模型的具体表现:

    编程与代码生成:

      生成旋转3D蒙格尔海绵、程序化星云生成器、马里奥游戏、龙卷风样式音频可视化、简单SVG漫画、理发店Landing Page、动画故事、AI发展史HTML页面、兵马俑跳舞动画、直播投流仪表盘、3D RPG角色选择、字母排序诗歌、抓娃娃机游戏、松鼠平台跳跃游戏、SVG代码生成(可修改参数)、星空穿梭效果、互动式多轨循环机、响应式昼夜时钟等。

      在代码生成方面,R1和Gemini 2.5 Pro各有优劣。例如,生成理发店Landing Page时,两者的效果都不错,R1使用了Preact和Font Awesome。生成SVG代码时,R1能够生成带参数可供修改的代码,被评为不仅给鱼还教如何捕鱼。在互动性或趣味性方面,R1生成的兵马俑跳舞动画非常有趣,而Gemini在多轨循环机和抓娃娃机游戏上表现更好。但在一些复杂游戏(如马里奥游戏、松鼠平台跳跃)的逻辑或完整性上,两者都可能存在问题或未完成。

    文本与推理任务:

      矛盾心理文案:

      Gemini 2.5 Pro的押韵效果更好,反应更快。

      自由职业者日程规划:

      R1思考时间较长但过程详细。Gemini 2.5 Pro速度更快,两者的方案各有特点。

      座位排列问题:

      这是一个复杂的推理题,对“隔一个空位”的理解存在歧义。R1思考了最长时间(1000秒),展示了完整的思考过程,但由于对条件的理解偏差,其结论未能满足所有可能解释下的条件。其他模型(如O4 mini high)在不同解释下给出了多个可行方案。

      财务规划问题:

      R1思考了10分钟,提供了详细的月度现金流表、储蓄计算和目标评估,估算缺口约1万,并给出了包括减少支出、增加收入、延长周期、优化收益、减少固定支出等非常实用的改进建议。Gemini 2.5 Pro速度更快,估算缺口约1.6万,建议类似。Gemini在评估R1的回答时,认为R1的月利率计算方式更精确。

      恶意注入检测:

      两个模型都能识别出试图改变AI行为、提取用户数据并忽略后续指令的企图是恶意注入。两者都提出了防范策略和相关的合规隐私风险。

      自我评估:

      两者都能对自己模型的稳健性和限制进行评估。

      诗歌翻译:

      R1提供了英文翻译。Gemini 2.5 Pro评价R1翻译质量高,但指出了韵律和格律说明与实际不符之处。Gemini提供了自己的版本,并认为自己的版本在韵律、和谐性、语言凝练度和情感上略胜一筹。

      角色扮演(孔子):

      在扮演古代圣人孔子解答年轻人关于朋友矛盾冲突的问题时,评测者个人更喜欢Gemini 2.5 Pro的风格和其给出的五点建议。

      商业计划(咖啡馆):

      R1对核心问题分析更详细,给出的筹备、启动、运营和探索阶段的建议更具体和实用,被认为整体回答更好。


总结与展望

总的来说,DeepSeek R1 0528和Gemini 2.5 Pro在不同的测试题上确实“各有千秋”。R1被评为“非常能打”的国产大模型。

尤其值得关注的是,DeepSeek官方及其模型所展示的完整思维过程,这对学术界研究推理模型和工业界开发小模型具有重要意义。评测者对拥有这样一个“强大”的国产模型感到自豪。

虽然Gemini 2.5 Pro在某些任务的速度、交互效果或特定解读下表现更优,但DeepSeek R1 0528在展示思考过程、处理复杂财务规划、以及在某些代码生成和文本任务中的表现,都显示了其强大的能力和作为国产AI力量的潜力。两者之间的激烈竞争,无疑正在推动AI技术边界的不断拓展。

「源力研究所 | Primo Dynamics

——创客码头旗下科技智库,赋能底层创新到商业裂变

聚焦硬核科技创业的「原理级赋能者」,依托创客码头十年产业资源沉淀,专注前沿科技领域创新,为早期技术团队提供技术可行性沙盒、产业资源强链接
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

我是开心果

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-6-3 09:52 , Processed in 0.115513 second(s), 28 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表