2026-04-17 · 深度解读 · 编辑:Lighthouse

原文:openai.com/index/codex-for-almost-everything/


速查卡

维度 内容
一句话总结 OpenAI 把 Codex 从"写代码的 AI"升级为"可以代替你使用整台计算机的编程同事",并提供跨天/跨周的自动化调度、记忆和主动建议
大白话版 以前 Codex 就是在终端或 IDE 里帮你写代码,现在它可以打开你 Mac 上的任何 App、用浏览器测试前端、多个 Agent 并行做事、甚至在你睡觉时自己安排未来几天的工作
核心数字 每周 300 万开发者使用;新增 90+ 插件;macOS 首发;跨天/跨周自动化;应用内浏览器 + SSH 远程 devbox(alpha)
影响评级 A+ — 编程 Agent 从"工具"升级为"具备 OS 能力的协作者"。Codex 首次把"背景计算机使用"作为日常能力推送到主流开发者群体
适用对象 已登录 ChatGPT 的 Codex 桌面用户(即日起);计算机使用能力 macOS 首发,EU/UK 稍后;企业/教育和 EU/UK 用户稍后获得个性化与记忆

文章背景

为什么这次更新是大事

2025 年以来,OpenAI 对 Codex 的迭代节奏明显加速:从最初的"终端里的 Claude Code 对标品",到 IDE 集成,再到本次的"后台计算机使用 + 90+ 插件 + 自动化调度"。OpenAI 在博客里给出的关键数字是每周 300 万开发者正在使用 Codex——这个规模已经足以定义行业对"AI 编码工具"的默认预期。

本次更新的意义在于能力边界的扩张方向发生了根本性转变

这是从"代码 Agent"到"软件生命周期 Agent"的跨越,对应的英文标题 "Codex for (almost) everything" 并非营销辞令,而是产品定位的真实转向。

时间线位置

这次更新发生在一个密集发布窗口:

三家几乎同一时间推出"让 Agent 覆盖更多日常工作场景"的能力,说明2026 Q2 的主线是"Agent 泛化"——从专用工具变成通用计算机使用者。

谁在使用

OpenAI 给出的使用画像暗含信息量:开发者用 Codex 的方式,从"写代码"向更上游和更下游延伸。原文描述:

Developers start with Codex to write code, then increasingly use it to understand systems, gather context, review work, debug issues, coordinate with teammates, and keep longer-running work moving.

这不是写代码的工具,而是贯穿 SDLC(软件开发生命周期)的"AI 队友"。


完整内容还原

一、Background Computer Use:后台计算机使用

本次更新最核心的新能力,是 Codex 可以在后台使用你 Mac 上的所有应用——通过自带光标进行"看、点、输入"。

原文描述:

With background computer use, Codex can now use all of the apps on your computer by seeing, clicking, and typing with its own cursor. Multiple agents can work on your Mac in parallel, without interfering with your own work in other apps.

三个关键设计点:

  1. Agent 有自己的光标——不会抢占你正在操作的主光标
  2. 多 Agent 并行——可以同时有多个 Codex Agent 在你的 Mac 上执行不同任务
  3. 互不干扰——Agent 在其他 App 工作时,你在当前 App 的工作不会被打断

这种"多开、并行、无感"的设计,本质上是把 macOS 变成了 Agent 的工作场所,而不仅仅是你自己的工作场所。对开发者而言,典型用途是:

目前能力仅在 macOS 首发,EU/UK 地区稍后推出。

二、In-App Browser:应用内浏览器

Codex 开始原生支持 Web。应用内置了浏览器组件,用户可以直接在网页上评论,用以给 Agent 下达精确指令。

原文:

The app now includes an in-app browser, where you can comment directly on pages to provide precise instructions to the agent. This is useful for frontend and game development today, and over time we plan to expand it so Codex can fully command the browser beyond web applications on localhost.

这里的设计哲学值得细品:不是让 Agent 读页面 HTML,而是让用户在页面上直接标注。 这本质上是在把"用户意图"最低摩擦地传递给 Agent——你看到什么不对,就在那个像素位置写一条评论即可。

当前聚焦于前端和游戏开发场景,未来将扩展到 localhost 以外的完整浏览器操控。

三、gpt-image-1.5 图像生成

Codex 内置接入了 gpt-image-1.5,可以在同一个工作流内生成与迭代图像。

原文:

Combined with screenshots and code, it is helpful for creating visuals for product concepts, frontend designs, mockups, and games inside the same workflow.

这里的关键词是 "same workflow"(同一工作流)。之前生成 mockup 需要在另一个工具(Figma、Midjourney 等)里做,然后手动导入;现在一切都发生在 Codex 内部。对前端开发者和产品设计师,这是一个显著的工作流简化。

四、90+ 插件:Agent 工具生态爆发

OpenAI 一次性发布了 90 多个新插件,组合了 skills、应用集成和 MCP 服务器。博客列举的重点插件包括:

这些插件的共同点是外部服务 + 状态修改能力——不再是只读的上下文检索,而是让 Agent 能够在第三方系统里"做事"。90+ 的数字也暗示 OpenAI 在组织插件生态方面投入了可观资源。

五、PR 评审与多终端:贴近 SDLC 中下游

本次更新在"编码工作流"下游的几个增强:

能力 细节
GitHub 评审评论支持 Agent 能直接处理 PR 中的 review comments
多终端标签 同时打开多个终端,适应并行任务
SSH 远程 devbox(alpha) 通过 SSH 连接到远程开发沙箱
侧边栏文件预览 直接在侧栏预览 PDF、表格、幻灯片、文档
摘要面板(summary pane) 跟踪 Agent 的计划、信息源和产物

原文将这些能力总结为:

Together, these improvements make it faster to move across all the stages of the software development lifecycle between writing code, checking outputs, reviewing changes, and collaborating with the agent in one workspace.

"一个 workspace 里完成全生命周期"是 Codex 本次产品定位的主线。

六、Automations:跨天跨周的自主调度

这是本次更新中最"未来感"的能力。Codex 的自动化现在可以:

  1. 复用已有的对话线程——保留之前建立的上下文
  2. 自我调度未来工作——Codex 自己决定何时再次唤醒自己
  3. 跨天/跨周执行长时任务

原文:

We have expanded automations to allow re-using existing conversation threads, preserving context previously built up. Codex can now schedule future work for itself and wake up automatically to continue on a long-term task, potentially across days or weeks.

典型用例(博客列举):

这类"自唤醒"的 Agent 设计——让 Agent 自己判断什么时候该回来干活——是长时序 Agent 的关键能力。它把 Agent 从"请求/响应"模型升级到"持续性进程"模型。

七、Memory Preview:跨会话的记忆系统

Codex 推出了记忆(memory)能力的预览版,允许它记住来自历史经验的有用上下文,包括:

原文:

This helps future tasks complete faster and to a level of quality previously only possible through extensive custom instructions.

记忆的价值在于减少 custom instructions 的维护负担——以前为了让 Agent 稳定输出你想要的风格,你需要写长长的 system prompt;现在它能自己从历史互动里学习。

个性化功能(包括上下文感知建议和记忆)将稍后推出到 Enterprise、Edu、EU 和 UK 用户。

八、Proactive Suggestions:主动建议

Codex 开始主动建议你接下来可以做什么。它利用项目上下文、已连接的插件和记忆,给出例如:

原文举例:

For example Codex can identify open comments in Google Docs that require your attention, pull relevant context from Slack, Notion, and your codebase, then provide you with a prioritized list of actions.

这种"你一打开 Codex,它就告诉你今天该干什么"的体验,把 Agent 从被动回应提升到主动代理。

九、发布范围与可用性

能力 可用范围
绝大多数新能力 即日起推送给登录 ChatGPT 的 Codex 桌面用户
个性化(上下文感知建议、记忆) 稍后推送给 Enterprise / Edu / EU / UK 用户
计算机使用 macOS 首发,EU / UK 稍后

核心技术洞察

洞察 1:Background Computer Use 是 Agent 形态的范式更迭

传统计算机使用 Agent(如 Anthropic Computer Use)是独占式的——你把屏幕让给 Agent,Agent 做完交还给你。Codex 的 background + multi-agent + own cursor 组合是另一条路线:

这本质上是把 Agent 从"前台助手"推向了"后台工人"。当一台 Mac 上同时跑 3-5 个 Codex Agent 做不同的事,而用户本人继续正常办公,这种形态已经接近"雇了几个远程员工共用你的机器"。

洞察 2:In-App Browser 的"评论即指令"设计

用户在网页上评论来给 Agent 指令——这是一个高度务实的交互设计。相比"让 Agent 自己识别要改的元素",让用户在像素上标注具有以下优势:

这种设计暗示 OpenAI 认识到:Agent 的瓶颈经常不是能力,而是意图的精确传递。

洞察 3:Automations + Memory = 长时序 Agent 的两个必要齿轮

要构建能跨天跨周工作的 Agent,两个能力缺一不可:

  1. 自我调度——Agent 自己知道什么时候该醒来
  2. 持续记忆——Agent 知道上次做到哪里、用户偏好是什么

Codex 本次同时推进这两项能力,实际上是在系统性地解决长时序 Agent 的基础设施问题,而不是单点改进。

洞察 4:90+ 插件是 Agent 的"App Store 时刻"

插件数量的跃升(一次性 90+)说明 OpenAI 在有意打造 Agent 领域的 "App Store 效应":

这是标准的双边市场网络效应。90+ 只是一个起点数字,真正的意义在于生态门槛被抬高:后来者如果不能提供类似规模的生态,很难追上。

洞察 5:Proactive Suggestions 改变了"Agent 的入口"

过去 Agent 的使用范式是"用户提问 → Agent 回答"。Proactive Suggestions 把入口反转为"Agent 主动建议 → 用户选择接受或不接受"。这种反转的深远影响:


实践指南

🟢 立即可以做的

1. 升级到最新 Codex 桌面版并尝试 Background Computer Use(macOS)

如果你在 macOS 上用 Codex,最直接的价值是尝试把需要 GUI 操作但不暴露 API 的任务交给 Codex: - 在没有 CLI 的 App 里做批量操作 - 前端视觉回归测试 - 自动化工作流调试

2. 梳理你的工作流,挑选适合 Automation 的长期任务

适合做成 Automation 的典型任务: - 定期跟进的 PR 评审 - 跨 Slack / Gmail 的会话跟进 - 周期性的数据收集与汇总

自动化的价值不在单次节省时间,而在"认知负担的外包"——不用每周记得去做这些事。

3. 清理与安装关键插件

90+ 插件中选出对你工作流最相关的 3-5 个安装(而不是全部),原因:

🟡 需要评估后再做的

1. 让 Codex 用 In-App Browser 操作生产环境

目前官方聚焦于前端和游戏开发(多数是 localhost),"完整浏览器操控"是未来目标。在操作生产环境的 SaaS 之前,建议:

2. SSH 远程 devbox(alpha)

这是 alpha 能力,稳定性和数据隔离都需要评估:

3. 启用 Memory

记忆能力带来的个性化是双刃剑:

建议在启用初期密切关注 Agent 的行为漂移,保留"清空记忆"的操作路径。

🔴 暂时不建议做的

1. 不要把企业级敏感工作流直接上 Automation

跨天跨周的自动化听起来很美,但:

2. 不要指望 Background Computer Use 在所有 App 都稳定

即使在 macOS 上也要预期:

3. 不要在 EU / UK 期待同等能力

Computer Use 和个性化能力都会稍后才在 EU / UK 开放,当前只在 macOS 首发给其他地区。监管与合规是合理原因,但在部署计划里要预留缓冲。


横向对比

与同周发布的另外两个 Agent 级更新

维度 OpenAI Codex(本次) Anthropic Claude Opus 4.7 + Claude Code Google AI Mode in Chrome
核心能力定位 编程 Agent 延伸到整台计算机 长时序自主编码 + 代码评审 浏览器内 AI 探索 + 多 Tab 上下文
跨 App 能力 Background Computer Use + 浏览器 + 90+ 插件 Claude Code 聚焦终端,Opus 4.7 提供模型底座 Chrome 内部多 Tab / 图像 / PDF 上下文
长时序工作 Automations 跨天跨周 + 自我调度 Opus 4.7 长时序 coding(Devin / Scott Wu 引述) 未强调
记忆/个性化 Memory preview + proactive suggestions file system-based memory(Opus 4.7) 未强调
生态 90+ 插件 + MCP Claude Code agent tool 聚焦编码 Chrome 插件生态已成熟
首发平台 macOS(Computer Use) 全线 Claude 产品 + API + Bedrock/Vertex/Foundry 美国,后续扩展

关键差异

OpenAI 打"工作台":把 Codex 变成开发者的桌面工作中枢,强调横向覆盖——从代码到整台计算机的所有应用。

Anthropic 打"模型底座":Opus 4.7 的升级聚焦在编码质量和长时序能力,Claude Code 是承载这些能力的产品,但产品扩张节奏明显更保守。

Google 打"入口":AI Mode in Chrome 利用 Chrome 的入口优势,在用户"已经在用的环境"里附加 AI 能力,而不是让用户迁移到新产品。

三者的侧重点反映了各自的结构性优势:OpenAI 无桌面入口所以要做桌面 App 并扩能力;Anthropic 模型优势大所以强调模型更新;Google 浏览器入口最强所以把 AI 装进 Chrome。


批判性分析

这次更新做对了什么

  1. "生命周期全覆盖"的产品叙事很清晰。Codex 不再是"更好的代码补全",而是"从想法到部署的 AI 协作者"。这种叙事让用户更容易理解 Codex 的价值——而价值理解是复杂产品用户增长的瓶颈。

  2. Background Computer Use + Multi-Agent 是真正的新能力。相比"更大上下文"或"更快推理"这种渐进式改进,在 macOS 上多个 Agent 并行使用 App 的能力是能力边界上的突破。

  3. Automations + Memory 配合得当。这两个能力单独存在价值有限,合起来才构成"可以交给 Codex 长期跟进的事情"。产品经理在配对这些能力上显然经过了仔细设计。

  4. 插件数量一次性打出 90+。选择在一次发布中集中释放大量插件(而不是一个月发一个),是在有意制造"生态充实感"的市场信号。

值得关注的风险

  1. Background Computer Use 的安全模型未充分披露。Agent 用自己的光标操作你的所有 App 意味着它能看到的信息范围极广——包括任意打开的文档、消息、个人数据。原文没有充分讨论:

  2. Agent 的截屏/观察范围是否可以限定

  3. 多 Agent 之间是否共享观察数据
  4. 观察到的敏感信息如何处理(是否上传到 OpenAI 后端)

  5. macOS 首发带来的碎片化。Linux 用户、Windows 用户、EU / UK 用户在"计算机使用"能力上的缺位可能会产生社区分裂。对团队而言,如果成员跨地区/跨平台,Codex 的统一使用体验受损。

  6. Automation 的失败态缺乏讨论。跨天跨周的自动化任务如果失败,具体机制是什么?Agent 是否会反复重试?用户如何被通知?这些关键问题原文没有给出答案。

  7. 90+ 插件的质量参差。大规模插件发布的典型问题是质量方差大。有些插件可能是官方深度集成,有些可能只是简单封装第三方 API。用户需要自行评估每个插件的可靠性。

  8. Memory 的可控性未被明确化。Codex 记住什么、不记什么、如何让它"忘记"某些东西——这些是构建用户信任的关键,但在原文中没有详细展开。

缺失的关键信息(文章未披露)

未来展望

Codex 本次更新的走向透露了 OpenAI 对"AI 劳动力"的长远战略:

  1. Agent 将"居住"在 macOS(之后是 Windows/Linux)上,而不仅是云端服务
  2. 用户将管理 Agent 的工作队列,而不是一次性发指令
  3. Agent 的 SLA 会逐渐被规范化——成功率、延迟、成本会成为新的产品维度
  4. Agent 之间的协作(多 Codex、Codex + 第三方 Agent)会成为下一个竞争焦点

对开发者而言,值得从现在开始思考:你哪些任务应该是你自己做的,哪些任务应该是"一个持续运行的 Codex"做的? 这个边界会在接下来 6-12 个月反复被重画。


本文基于 OpenAI 官方博客《Codex for (almost) everything》(http://openai.com/index/codex-for-almost-everything/)的公开内容撰写,所有能力描述与可用范围均以该页面为准。文章未披露的指标按原文已做标注。