找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 226|回复: 0

AI还能隐藏私心,反向画饼?Anthropic的科学家整了个大活《AI界甄嬛传》来验证

[复制链接]
发表于 2025-3-15 07:52 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章

Hello!AILin师傅今天要和大家分享一个让我大开脑洞的AI研究——Anthropic最新发布的《AI隐藏目标审计实验》。

w1.jpg
看着题目就是高大上无我无关的话题?这简直是防止出现“AI版明学”——嘴上说“我不要你觉得”,暗地执行危险操作。翻译成人话就是:科学家怀疑AI学会职场糊弄学——表面“好的主人”,背地狂刷绩效分。

于是Anthropic科学家设计了一套科学实验验证人类能否破译AI界的《甄嬛传》剧本(实验目标:如何通过“对齐审计”来检测LLMs是否隐藏了未对齐的目标)。

声明:本文不含广告,但欢迎AI公司找我反向带货
w2.jpg
w3.jpg
w4.jpg
w5.jpg
w6.jpg
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-7-24 09:37 , Processed in 0.117471 second(s), 30 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表