OpenAI深夜扔出核弹级AI!ChatGPT Agent颠覆职场:自动做PPT/Excel建模/规划全美行程!

新闻 · 发表于 2025-7-18 10:51

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

作者：微信文章
北京时间 7 月 18 日凌晨，美国科技公司 OpenAI 临时举行直播活动，正式推出了通用人工智能代理 ——ChatGPT 智能体。这一消息瞬间在科技圈掀起波澜，让人们对人工智能的未来应用充满了遐想。

ChatGPT Agent 究竟有多强大？它具备自主思考和行动的能力，宛如一位智能助手，能主动从自身丰富的技能库中挑选合适的工具，包括 Operator、Deep Research 和 ChatGPT 等，以此完成各种超乎想象的超复杂任务。简单来说，它整合了 Operator 智能体的网页交互能力、“深入研究”（Deep Research）功能的互联网信息搜集能力，以及 ChatGPT 强大的对话能力，堪称一个功能全面的统一智能体。这意味着 ChatGPT 不再仅仅是那个能陪你聊天、回答问题的机器人，它现在还能借助 “内置计算机”，代表用户处理复杂的多步骤任务，大大拓展了人工智能的应用边界。

OpenAI 介绍，ChatGPT 智能体拥有 “十八般武艺”，它能够通过互联网搜索或 API 获取数据，无论是深入的财务研究、制作精美的幻灯片，还是预定活动、规划行程，都不在话下。值得一提的是，在内部基准测试中，ChatGPT 智能体展现出了令人惊叹的实力，它竟能处理入门级投资银行分析师（1 - 3 年工作经验）的任务。像为财富 500 强公司构建符合准则的财务报表模型，或是为私有化交易构建杠杆收购模型，这些以往需要专业人士耗费大量精力的工作，如今 ChatGPT 智能体也能应对自如。其产品经理 Neel Ajjarapu 表示：“这个模型在处理新人入行第一年或第二年财务分析类型的工作时，表现相当出色。这些任务以往可能让员工熬夜奋战，尤其是在深夜被老板紧急安排时。”

在实际演示中，ChatGPT 智能体的表现更是让人眼前一亮。比如，根据结婚请柬上的日期、地点和着装要求，它仅用 10 分钟就完成了搜索工作，不仅列出了所有推荐的男装、鞋子，还附上了贴心的推荐理由和链接。在另一个案例中，当被要求根据美国职业棒球大联盟赛程，规划一条在 2025 赛季常规赛期间，走遍全美 30 座大联盟棒球队的观赛路线，并推荐酒店住宿，最后以电子表格的形式呈现并生成一张可视化路线图时，ChatGPT 智能体同样出色地完成了任务。不仅如此，用户若要求它分析三个竞争对手并制作幻灯片演示文稿，它也能智能地浏览网站、选择日期、筛选结果、运行代码，甚至自动生成经过精心润色的幻灯片演示文稿或电子表格。可以说，现在用户只需给出一个简单提示，ChatGPT Agent 就能包办一切，用户只需坐等结果即可。

从技术架构来看，ChatGPT Agent 通过其虚拟计算机处理任务，在推理与执行之间切换得极为流畅。面对复杂任务，它既能进行严谨的逻辑推理，又能切实执行任务，从而独立完成复杂的多步骤操作。例如，当用户要求它 “查看我的日历，并根据最新动态简要汇报即将举行的客户会议” 时，它能精准理解任务需求，主动从日历应用中提取关键信息，并整理出简洁明了的汇报内容。另外，ChatGPT Agent 的多工具集成能力也是一大亮点，它将 Operator 的网站交互能力、Deep Research 的信息整合能力以及 ChatGPT 的深度对话能力巧妙融合，形成了一个强大的统一智能体系统。同时，它还配备了可视化浏览器、文本浏览器和直接 API 访问权限等多种网络工具，为完成各种任务提供了有力支持。

不过，在面对一些敏感问题时，OpenAI 也有着自己的考量。当被问及是否会抢微软 PowerPoint、Excel 的生意时，OpenAI 选择回避，只是表示 AI 能够帮助人类生成初稿，后续仍需使用微软或其他公司的办公软件进行编辑。其核心意义在于大大减少人们制作演示文稿和分析所需的工作量，比如将原本需要数小时甚至数天的工作，缩短至短短 30 分钟。而对于全球股民高度关注的能否让 ChatGPT 智能体炒股这一问题，OpenAI 明确表示这类操作暂时受到限制。主要原因是担心 AI 出错可能导致不可挽回的高额损失。此外，ChatGPT 智能体在执行敏感或重要操作，如发送邮件、购买商品、提交个人数据时，都会明确征求用户授权。当用户使用 ChatGPT 智能体访问金融网站时，若离开当前标签页，工具便会停止运作，以此保障操作的安全性。

在安全性设计上，ChatGPT 智能体充分考虑了用户的安全需求。在执行涉及敏感或重要操作前，它一定会明确征得用户授权，让用户始终牢牢掌握控制权。同时，它还具备主动监督和风险缓解功能，对于高风险任务，如金融交易或敏感法律互动，会主动拒绝执行。

根据 OpenAI 公布的测试数据，ChatGPT Agent 在多项测试中成绩斐然。在 “人类终极考试”（Humanity's Last Exam，HLE）中，单次尝试通过率达 41.6%，取得新的最优成绩（SOTA），采用并行策略时分数更是提升至 44.4%；在 “前沿数学”（FrontierMath）基准中，准确率达 27.4%，大幅超越以往模型；在 BrowseComp 基准中以 68.9% 的成绩创下最优，比深度研究高出 17.4%；在 WebArena 中的表现也优于由 o3 驱动的 CUA 。在 Excel 编辑能力的 SpreadsheetBench 测试中，当获得直接编辑权限时，ChatGPT agent 以 45.5% 的得分显著超越 Excel Copilot 的 20.0%。在投行分析师 1 - 3 年级建模任务的内部评估中，ChatGPT agent 底层模型碾压 Deep Research 和 o3 模型。

ChatGPT Agent 的发布，无疑是人工智能领域的又一个重要里程碑，它为我们展示了人工智能在未来工作和生活中无限的应用潜力。但与此同时，其安全性和应用边界等问题也引发了广泛关注。未来，随着技术的不断发展和完善，ChatGPT Agent 将如何改变我们的工作和生活方式，让我们拭目以待。

账号		自动登录	找回密码
密码			注册

OpenAI深夜扔出核弹级AI!ChatGPT Agent颠覆职场:自动做PPT/Excel建模/规划全美行程!

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块