|
|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?注册
×
作者:微信文章
随着大型语言模型(Large Language Models, LLMs)在自然语言理解、推理和工具调用方面取得显著进展,学界和产业界开始尝试将其部署为能够自主决策的智能体。然而,大多数现有评估仍停留在静态数据集或离线模拟环境中,这类基准很难反映真实世界中连续变化、反馈即时且后果真实的复杂系统。
金融市场恰恰构成了这样一个高强度试验场。市场持续运行、价格剧烈波动、信息高度噪声化,每一次决策都伴随着直接的经济后果。香港大学的研究团队正是在这一背景下提出了 AI-TRADER,试图回答一个核心问题:具备通用智能能力的 LLM 智能体,在真实、实时的金融市场中,究竟能表现到什么程度?
AI-TRADER 是首个完全自主、实时运行且数据无污染的基准,专门用于评估 LLM 智能体在真实金融市场中的交易与决策能力。
研究团队的出发点并非证明 AI 已经能够战胜市场,而是系统性地揭示通用智能在高风险动态环境中的真实边界,从而为下一代自主智能体的设计提供更可靠的参考。
AI-TRADER 的架构设计
传统的金融 AI 评估往往依赖于历史数据,这种方式极易受到“数据泄露”的影响。由于 LLM 的预训练数据可能已经包含了历史行情,智能体在回测中表现优异可能只是因为它们“背下了答案”,而非具备真正的预测能力。
AI-Trader 的核心创新在于构建了一个完全脱钩的实时评估环境,实现了真正意义上的“数据无污染”。
环境解耦,闭环决策
AI-TRADER 在架构层面将交易环境与交易智能体彻底解耦,使得不同模型可以在完全一致的市场条件下接受评估。整个系统围绕一个持续运行的 「观察—推理—行动」 闭环展开。
每一个决策步骤都要求智能体经历复杂的思维链路。首先,通过工具调用获取市场现状;随后,遵循 ReAct 范式进行自主推理,并以自然语言形式记录下其思考过程;最后,执行“买入”、“卖出”或“持有”的离散指令。
最小信息范式与自主工具调用
AI-TRADER 的一个关键创新在于其采用的最小信息范式(Minimal Information Paradigm)。智能体在初始状态下只被提供三类基础信息:
• 可调用的工具列表• 当前投资组合持仓• 实时市场价格
系统不会向智能体注入任何人工整理的宏观判断、行业观点或专家规则。所有额外信息,包括新闻、宏观事件、市场背景,都必须由智能体通过工具自主搜索、筛选和验证。
工具链基于 Model Context Protocol(MCP) 构建,覆盖价格查询、网页搜索、金融新闻检索、数学计算与交易执行等功能。所有工具均设置了严格的时间过滤机制,以确保智能体只能访问当下可获得的信息,从根本上避免数据泄露问题。
其核心工具链集成了五大基础能力:
1. Check Price:查询跨市场的历史与即时量价数据。2. Search:实时检索互联网公开信息,严格限制在当前模拟时间点之前,杜绝未来信息干扰。3. News:获取结构化的金融新闻及情感信号,补充专业媒体视角。4. Math:进行复利计算、仓位配比等数学运算。5. Trade:执行符合市场规则的订单(例如 A 股的 100 股一手限制),并同步更新现金流。
在 AI-TRADER 中,成功不来自于“知道得多”,而来自于如何在不确定性下获取、验证并使用信息。
跨市场评估
研究覆盖了三个结构和行为差异显著的全球市场:
• 美国股票市场:涵盖全部 100 支 Nasdaq-100 成分股,按小时频率进行交易• 中国 A 股市场:涵盖 50 支 SSE-50 成分股,按日频进行交易• 加密货币市场:涵盖 10 个主流交易对,按日频运行
这种跨市场设计为评估模型的泛化能力提供了天然的对照
实验设计与模型对比
研究人员对 DeepSeek-v3.1、MiniMax-M2、Claude-3.7-sonnet、GPT-5、Qwen3-max 以及 Gemini-2.5-flash 六款主流 LLM 进行了为期一个多月的实时测评。结果出人意料:尽管这些模型在通用任务上已经展现出顶级智慧,但在金融这一高风险领域,它们的表现差异极大。
实验数据表明,通用智能的领先地位并不能自动转化为交易的成功,大多数智能体在风险管理和跨市场泛化方面表现不佳。
关键绩效指标的整体分布
在美国市场,MiniMax-M2 表现最为惊艳。它实现了 9.56% 的累计回报率(CR),并拥有高达 4.42 的索蒂诺比率(Sortino Ratio)。相比之下,GPT-5 的累计回报率仅为 1.56%,甚至低于 QQQ 基准指数的 1.87%。这说明即使是最强大的模型,在没有特定金融逻辑优化的情况下,也很难在成熟市场跑赢指数。
而在 A 股市场,环境的挑战性显著增加。GPT-5 和 Qwen3-Max 分别遭受了 3.53% 和 3.86% 的显著损失。这种负收益现象反映了 AI 在面对政策主导型市场时的迷茫。
从整体指标分布来看,不同智能体之间的差异十分显著:
• 累计回报率(CR):区间从 -18.63%(Gemini 于加密市场) 到 +9.56%(MiniMax-M2 于美国市场)• 索蒂诺比率:MiniMax-M2 在所有市场中持续领先,显示出卓越的风险调整后收益• 最大回撤:部分智能体在极端行情中经历了 超过 15% 的回撤,暴露出对尾部风险的高度敏感
这些结果表明,即便在完全一致的环境下,模型结构与决策机制的差异也会被真实市场迅速放大。
风险管理决定长期表现
在所有模型中,MiniMax-M2 展现出了最为稳定的跨市场表现。其优势并非来自激进的收益追逐,而是源于对下行风险的持续抑制。
在美国市场中,MiniMax-M2 实现了 9.56% 的累计回报率,同时拥有 4.42 的索蒂诺比率,最大回撤仅为 -4.92%。这种稳健的风险控制结构,使其在不同市场环境中均能保持相对一致的表现。
实验结果显示,跨市场稳健性更多来自风险管理能力,而非单次市场判断的准确性。
相比之下,部分模型在单一市场中取得较好收益,却在其他市场迅速失效,暴露出策略结构高度依赖特定环境的问题。
市场结构对智能体性能的影响
研究进一步表明,市场的流动性与制度特征显著影响 AI 智能体的表现。在流动性充足、信息透明度较高的美国市场中,多个智能体实现了正向超额收益,包括 MiniMax-M2、DeepSeek-v3.1 和 Claude-3.7-Sonnet。
然而,在波动性更高、政策影响更强的 A 股市场中,所有智能体均未能跑赢 SSE-50 基准。其中,GPT-5 与 Qwen3-Max 分别录得 -3.53% 和 -3.86% 的显著损失。
在可预测性较低、制度干预频繁的市场中,自主智能体面临的挑战被显著放大。
这一结果提示,自动化交易系统对市场微观结构的适应能力,仍然是当前 LLM 智能体的一大短板。
跨市场泛化能力
多市场评估清晰地揭示了当前模型在泛化能力上的局限。DeepSeek-v3.1 是一个具有代表性的案例:它在美国市场实现了 8.39% 的累计回报率,索蒂诺比率达到 3.73,但在 A 股市场却转为 -1.23% 的负回报。
在加密货币市场中,该智能体通过维持较高现金仓位并执行「逢低买入」策略,重新获得了正向表现。这种策略切换并非源于显式规则,而是智能体在持续交互中形成的行为模式。
案例分析显示,智能体在决策中呈现出类似人类投资者的行为与脆弱性。DeepSeek-v3.1 曾通过自主检索贸易紧张相关新闻,成功规避了美股市场的一次显著下跌;但在 A 股市场中,它却直接采信了未经充分验证的「结构性慢牛」叙事,从而错失了后续行情。
结语
AI-TRADER 的研究结论为金融领域的自主智能体开发提供了重要启示。实验表明,复杂推理能力并不会自动转化为可盈利、可控风险且可泛化的交易系统。
当前 LLM 智能体在真实金融市场中仍明显受限,尤其在风险管理、信息验证与跨市场适应性方面。通过引入完全自主、实时决策与真实经济后果,AI-TRADER 为评估和改进高风险环境下的智能体提供了重要基准,也为下一代金融与现实世界自主系统的发展指明了方向。
论文原文
Fan, T., Yang, Y., Jiang, Y., Zhang, Y., Chen, Y., & Huang, C. (2025). AI-Trader: Benchmarking Autonomous Agents in Real-Time Financial Markets. arXiv preprint arXiv:2512.10971.
💬 想深入了解对冲基金策略、顶级研究员的思维框架与实战经验?
欢迎加入 LLMQuant知识星球,获取第一手资料与独家内容。
|
|