找回密码
 注册

Sign in with Twitter

It's what's happening?

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 116|回复: 0

AI1月10日学术论文资讯|围棋AI通过对抗增强学习

[复制链接]
发表于 2026-1-10 05:36 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
【昨日AI学术论文 · 1月10日】

📄 共30条学术论文动态

1. QZero是一种新型无模型强化学习算法,通过自我对弈和离策略经验回放学习纳什均衡策略,无需搜索过程。(ArXiv cs.AI)

2. Digital Red Queen研究提出一种自博弈算法,利用大型语言模型在Core War游戏中不断进化出胜过对手的程序。(ArXiv cs.AI)

3. ArXiv cs.AI提出一种多代理工作流,分离任务描述与约束条件,用量化评分迭代优化,提升LLM指令遵循准确性。(ArXiv cs.AI)

4. ArXiv cs.AI发布研究,通过自省探索组件增强强化学习代理的自我意识。(ArXiv cs.AI)

5. ArXiv cs.AI提出一种基于成熟度的框架,通过具体测量机制认证具身AI系统的可信度。(ArXiv cs.AI)

6. CPGPrompt 是一种自动提示系统,可将临床指南转化为大型语言模型(LLM)可执行的决策支持工具,通过结构化决策树和动态导航提高了指南的可解释性和适用性。(ArXiv cs.AI)

7. 大型基础模型(LFMs)在医疗健康领域展现出巨大潜力,但个性化治疗推荐仍面临诸多挑战,如泛化性悖论、隐私与性能悖论等。(ArXiv cs.AI)

8. Evolving Programmatic Skill Networks研究引入了程序化技能网络框架,利用大型语言模型提升代理在开放环境中的持续学习和适应能力。(ArXiv cs.AI)

9. Variance Computation提出一种在知识编译中计算加权模型计数方差的多项式时间算法,适用于结构化的d-DNNF表示。(ArXiv cs.AI)

10. STAR-S通过自训练循环整合安全规则推理,有效提升了大型语言模型(LLMs)抵御越狱攻击的能力。(ArXiv cs.AI)

11. ReEfBench提出了一种新框架,全面评估大语言模型的推理效率,揭示性能提升不 solely 依赖于扩展的令牌生成。(ArXiv cs.AI)

12. SCRIBE通过引入技能条件奖励和中间行为评估,解决了多步推理中的信用分配问题,显著提高了工具使用语言模型的可靠性和性能。(ArXiv cs.AI)

13. NVIDIA提出SAE-Steering,利用稀疏自编码器分解隐藏状态,实现对大型推理模型的细粒度控制。(ArXiv cs.AI)

14. PFUA工具增强型蛋白质推理代理通过整合问题分解、工具调用和基于证据的答案生成,显著提升蛋白质功能理解的准确性。(ArXiv cs.AI)

15. 该论文提出了一种使用设计模式构建大型语言模型(LLM)和代理AI系统的架构方法,特别关注代理社区的构建,即AI代理与人类在正式角色、协议和治理结构下协同工作的组织框架。(ArXiv cs.AI)

16. NVIDIA的研究发现,在大型推理模型的思考步骤中插入安全提醒短语能显著提升模型安全性。(ArXiv cs.AI)

17. Sandwich Reasoning (SandwichR) 提出了一种创新的“答-理-答”方法,通过在快速初始回答与后续推理之间建立对齐,实现了低延迟查询纠正而不牺牲准确性。(ArXiv cs.AI)

18. ArXiv cs.AI的研究通过自动生成领域和问题特定的启发式方法,显著提升个性化药物规划的规模和效率。(ArXiv cs.AI)

19. EntroCoT通过自适应熵引导分割和蒙特卡洛回滚机制,自动识别并优化低质量的链式思维监督痕迹,有效解决了“答案正确但推理错误”的问题。(ArXiv cs.AI)

20. ROI-Reasoning框架通过预计算元认知和理性强化学习,使大型语言模型在有限计算资源下更高效推理。(ArXiv cs.AI)

21. 该论文提出了一种使用答案集编程(ASP)计算理性闭包(RC)的声明性方法,能够自动构建最小等级模型并支持查询推理。(ArXiv cs.AI)

22. XAI-LAW提出了一种基于回答集编程的工具,用于建模、解释和学习意大利刑法典中的法律判决。(ArXiv cs.AI)

23. ArXiv cs.AI提出一种方法,利用答案集编程生成决策树模型的多种解释。(ArXiv cs.AI)

24. xDNN(ASP) 是一种基于答案集编程的深度神经网络解释生成系统,能够提供全局解释,不仅保持高预测准确性,还揭示了特征重要性和隐藏节点对预测的影响,有助于优化模型结构。(ArXiv cs.AI)

25. NVIDIA研究了大规模配置问题中的“基底瓶颈”,提出“约束感知猜测”方法,显著降低内存需求,提升解决能力。(ArXiv cs.AI)

26. ArXiv cs.AI研究指出,当前基于视觉-语言模型的智能体在预测未来状态任务中表现不佳,主要因决定模拟时机、解释预测及融合推理能力不足。(ArXiv cs.AI)

27. Trade-R1提出了一种模型训练框架,通过过程级推理验证连接可验证奖励与随机环境,如金融市场。(ArXiv cs.AI)

28. ArXiv cs.AI提出动态异常截断方法,通过抑制冗余推理步骤,解决大型模型处理简单查询时的过度冗长问题。(ArXiv cs.AI)

29. MobileDreamer提出了一种基于文本草图世界模型的高效前视框架,通过预测动作后的状态并优化动作选择过程,显著提升了移动GUI代理在长期任务中的决策能力和执行效率。(ArXiv cs.AI)

30. ComfySearch 是一种创新框架,能够自主探索和构建高质量的 ComfyUI 工作流,通过验证引导的方式显著提高复杂创意任务的执行率和解决方案质量。(ArXiv cs.AI)

—————————————————

📊 AI情报驾驶舱

📄 学术论文 · 每日更新
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2026-1-12 11:10 , Processed in 0.071134 second(s), 26 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表