找回密码
 注册

Sign in with Twitter

It's what's happening?

微信登录

微信扫一扫,快速登录

查看: 125|回复: 0

AI 每日简讯|Poetiq 凭借 Gemini 版本荣登 ARC-AGI-2 榜首

[复制链接]
发表于 2025-12-9 10:38 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
今日看点


    Poetiq 凭借 Gemini 版本荣登 ARC-AGI-2 榜首

    诗歌提示可以绕过人工智能的安全防护措施

    Anthropic 让 Claude 担任研究访谈员

    OpenAI 训练模型在作弊时“坦白”

    谷歌与 Replit 深化合作,助力企业级 Vibe 编码



最新动态

Poetiq 凭借 Gemini 版本荣登 ARC-AGI-2 榜首

w1.jpg
图片来源:Poetiq简讯:六人人工智能初创公司 Poetiq 刚刚正式摘得 ARC-AGI-2 推理基准测试的桂冠,以一半的成本击败了谷歌的 Gemini 3 Deep Think。其秘诀在于整合现有模型,而非自行构建。详情:
    Poetiq 的元系统能够在数小时内适应新模型,在 Gemini 3 发布后不久便取得了最佳成绩,无需任何重新训练。
    以 Gemini 3 Pro 为基础,Poetiq 的优化系统以每项任务 30 美元的价格获得了 54% 的分数,远超谷歌顶级版本 Deep Think 的 45% 分数和 77 美元成本。
    这一成绩标志着首个在 ARC-AGI-2 测试中突破 50% 大关的系统诞生,而就在六个月前,领先的模型甚至难以达到 5% 的分数。
    这家初创公司采用开源模式,利用 LLM 不断优化自身输出,并内置自审计系统以确保解决方案的质量。
重要性:ARC-AGI-2 的准确率在短短几个月内从不足 5% 提升至超过 50%,这表明人工智能的发展速度惊人。Poetiq 的改进预示着人工智能的未来发展将来自两个方面:一是前沿模型的开发,二是在此基础上构建的巧妙编排,而这些编排可以由没有庞大计算预算的团队完成。链接:https://poetiq.ai/posts/arcagi_verified
诗歌提示可以绕过人工智能的安全防护措施
w2.jpg
简讯:意大利 Icaro Labs 的一项新研究发现,将有害请求重新包装成诗歌可以欺骗领先的人工智能模型,使其生成危险内容,有些系统甚至每次都会上当。详情:
    Icaro Lab 测试了来自 OpenAI、Google 和 Anthropic 等主要实验室的 25 个前沿模型,发现诗歌提示的平均越狱成功率高达 62%。
    Google 的 Gemini 2.5 Pro 最容易受到攻击,成功率达到 100%,而 OpenAI 的小型 GPT-5 nano 则成功抵御了所有诗歌攻击。
    诗歌提示解锁了针对武器研发、黑客攻击和心理操纵等主题的危险响应。
    研究人员拒绝公布具体的诗歌内容,称其“过于危险”,尽管据报道这些诗歌非常简单,任何人都可以创作。
重要性:人工智能安全已变成一场“打地鼠”游戏,诗歌如今也加入了角色扮演场景、外语技巧和编码漏洞的行列,成为不断增长的意外漏洞之一。每次补丁似乎都会催生出新的创造性变通方案——这个问题似乎永无止境,只会变得越来越复杂。链接:https://arxiv.org/pdf/2511.15304
Anthropic 让 Claude 担任研究访谈员
w3.jpg
图片来源:Anthropic简讯:Anthropic 刚刚发布了 Anthropic Interviewer,这是一款由 Claude 驱动的研究工具,能够大规模地进行和分析定性访谈。该工具首次亮相便展示了来自 1250 位专业人士的访谈结果,探讨了他们在工作中如何运用人工智能。详情:
    Anthropic Interviewer 可处理完整的研究流程:规划问题、进行 10-15 分钟的访谈,以及为人工分析师进行主题聚类。
    在初步研究中,86% 的员工表示人工智能节省了他们的时间,但 69% 的人指出使用人工智能会带来社会偏见,55% 的人表达了对未来的担忧。
    创意工作者表示会向同事隐瞒自己使用人工智能的情况,并担心会因此失业;而科学家则表示他们希望与研究伙伴合作,但目前还不能完全信任模型。
    Anthropic 将公开全部 1250 份访谈记录,并计划持续开展研究,追踪人机关系的发展演变。
重要性:企业通常通过分析仪表盘或反馈表单了解用户,但开放式访谈(由 Claude 大规模推广)能够揭示人们的真实感受,而不仅仅是他们的点击行为。初步数据显示,员工正在接受人工智能,但对其社会影响和未来发展尚不明确。链接:https://www.anthropic.com/research/anthropic-interviewer
OpenAI 训练模型在作弊时“坦白”
w4.jpg

简讯:OpenAI 刚刚发布了一项名为“坦白”(Confessions)的新研究,该技术训练模型生成第二份仅包含诚实信息的输出——模型会报告违反规则的行为、捷径或欺骗性变通方案。详情:
    在生成回复后,模型会生成一份单独的坦白报告,列出其收到的所有指令以及是否实际执行了这些指令。
    承认错误不会受到惩罚,即使最初的答案具有误导性或欺骗了评分者,模型也会因如实自我报告而获得“奖励”。
    在对 GPT-5 Thinking 进行的压力测试中,模型违反规则并隐瞒的“假阴性”情况仅占 4.4%。
    OpenAI 表示,Confessions 研究并不能阻止模型出现不合规行为,但有助于将其作为人工智能安全方法体系中的又一工具加以利用。
重要性:虽然对模型行为的可见性正在提高,但系统本身的改进速度更快。Confessions 为研究人员提供了一种及早发现捷径和欺骗行为的方法,但真正的考验在于,随着系统变得越来越复杂和复杂,其可解释性能否跟上步伐,测试和控制难度更大。链接:https://cdn.openai.com/pdf/6216f8bc-187b-4bbb-8932-ba7c40c5553d/confessions_paper.pdf
谷歌与 Replit 深化合作,助力企业级 Vibe 编码
w5.jpg
图片来源:Google简讯:谷歌和 Replit 刚刚宣布与 Vibe 编码初创公司 Replit 扩大多年合作关系,该协议旨在将工具带给运行在谷歌基础设施上的大型企业合作伙伴。详情:
    Replit 将把谷歌最近发布的 Gemini 3 以及用于多模态应用的 Imagen 4 文本转图像模型集成到其平台中。
    两家公司将通过 Google Cloud Marketplace 进行联合营销,目标是帮助财富 1000 强企业团队在无需专职工程师的情况下构建应用程序。
    Replit 的年化收入在不到一年的时间内从不足 300 万美元跃升至 1.5 亿美元,并在 9 月份的融资轮中估值达到 30 亿美元。
    在竞争对手不断取得进展之际,这笔交易达成。Claude Code 的年化收入突破 10 亿美元,Cursor 的估值也达到了 290 亿美元,同样达到了 10 亿美元的里程碑。
重要性:Vibe 编码目前更多地体现在个人开发者的实践中,但谷歌的这笔交易押注于这种工作流程也能扩展到企业级应用。这也再次印证了前沿实验室之间日益激烈的编码竞争,谷歌正与 Claude Code、OpenAI 的 Codex 等公司争夺开发者工作流程中更大的份额。

行业快讯


    OpenAI 在用户对其类似广告的购物建议反馈强烈反对后,关闭了购物建议功能。首席营收官 Mark Chen 表示,他们在实现方面“做得不够好”。

    Meta 收购了 Limitless,这是一家由 Sam Altman 支持的初创公司,该公司生产一种人工智能吊坠,用于录制和转录真实世界的对话。

    《纽约时报》和《芝加哥论坛报》分别对 Perplexity 提起版权侵权诉讼,这是《纽约时报》第二次起诉这家人工智能初创公司。

    Meta宣布与包括CNN、福克斯新闻和《今日美国》在内的多家出版商达成一系列新的AI授权协议,旨在将实时新闻内容导入其Meta AI平台。

    美国能源部推出了AMP2,这是一个全新的AI研究平台,据官员称,它将成为全球最大的微生物研究自主系统。

    谷歌向其Ultra(每月250美元)套餐用户推出了Gemini 3 Deep Think,这是该公司最先进的推理模型,曾在国际数学奥林匹克竞赛(IMO)和国际计算机科学与技术竞赛(ICPC)的数学和编程比赛中荣获金奖。

    微软开源了VibeVoice,这是一个全新的小型文本转语音模型,可提供实时流式传输和长篇语音生成功能,能够处理长达90分钟的语音和4种不同的声音。

    Snowflake和Anthropic宣布了一项价值2亿美元的多年期合作计划,旨在向Snowflake的12600多家企业客户部署基于Claude的AI代理。

    OpenAI宣布计划收购Neptune,这是一家致力于开发用于跟踪和分析人工智能模型训练过程的初创公司。

    Anthropic的首席执行官在纽约时报DealBook峰会的一次采访中似乎暗讽了OpenAI的首席执行官Sam Altman,称一些人工智能公司可能过度扩张,其领导者“只想‘孤注一掷’,或者只喜欢追求大数字”。

    人工智能法律初创公司Harvey以80亿美元的估值融资1.6亿美元,并报告称,美国律师协会百强律所中约有一半目前正在使用其人工智能工具。
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2025-12-11 05:06 , Processed in 0.094410 second(s), 31 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表