2026-04-17 · 深度解读 · 编辑:Lighthouse
| 维度 | 内容 |
|---|---|
| 一句话总结 | OpenAI 把 Codex 从"写代码的 AI"升级为"可以代替你使用整台计算机的编程同事",并提供跨天/跨周的自动化调度、记忆和主动建议 |
| 大白话版 | 以前 Codex 就是在终端或 IDE 里帮你写代码,现在它可以打开你 Mac 上的任何 App、用浏览器测试前端、多个 Agent 并行做事、甚至在你睡觉时自己安排未来几天的工作 |
| 核心数字 | 每周 300 万开发者使用;新增 90+ 插件;macOS 首发;跨天/跨周自动化;应用内浏览器 + SSH 远程 devbox(alpha) |
| 影响评级 | A+ — 编程 Agent 从"工具"升级为"具备 OS 能力的协作者"。Codex 首次把"背景计算机使用"作为日常能力推送到主流开发者群体 |
| 适用对象 | 已登录 ChatGPT 的 Codex 桌面用户(即日起);计算机使用能力 macOS 首发,EU/UK 稍后;企业/教育和 EU/UK 用户稍后获得个性化与记忆 |
2025 年以来,OpenAI 对 Codex 的迭代节奏明显加速:从最初的"终端里的 Claude Code 对标品",到 IDE 集成,再到本次的"后台计算机使用 + 90+ 插件 + 自动化调度"。OpenAI 在博客里给出的关键数字是每周 300 万开发者正在使用 Codex——这个规模已经足以定义行业对"AI 编码工具"的默认预期。
本次更新的意义在于能力边界的扩张方向发生了根本性转变:
这是从"代码 Agent"到"软件生命周期 Agent"的跨越,对应的英文标题 "Codex for (almost) everything" 并非营销辞令,而是产品定位的真实转向。
这次更新发生在一个密集发布窗口:
三家几乎同一时间推出"让 Agent 覆盖更多日常工作场景"的能力,说明2026 Q2 的主线是"Agent 泛化"——从专用工具变成通用计算机使用者。
OpenAI 给出的使用画像暗含信息量:开发者用 Codex 的方式,从"写代码"向更上游和更下游延伸。原文描述:
Developers start with Codex to write code, then increasingly use it to understand systems, gather context, review work, debug issues, coordinate with teammates, and keep longer-running work moving.
这不是写代码的工具,而是贯穿 SDLC(软件开发生命周期)的"AI 队友"。
本次更新最核心的新能力,是 Codex 可以在后台使用你 Mac 上的所有应用——通过自带光标进行"看、点、输入"。
原文描述:
With background computer use, Codex can now use all of the apps on your computer by seeing, clicking, and typing with its own cursor. Multiple agents can work on your Mac in parallel, without interfering with your own work in other apps.
三个关键设计点:
这种"多开、并行、无感"的设计,本质上是把 macOS 变成了 Agent 的工作场所,而不仅仅是你自己的工作场所。对开发者而言,典型用途是:
目前能力仅在 macOS 首发,EU/UK 地区稍后推出。
Codex 开始原生支持 Web。应用内置了浏览器组件,用户可以直接在网页上评论,用以给 Agent 下达精确指令。
原文:
The app now includes an in-app browser, where you can comment directly on pages to provide precise instructions to the agent. This is useful for frontend and game development today, and over time we plan to expand it so Codex can fully command the browser beyond web applications on localhost.
这里的设计哲学值得细品:不是让 Agent 读页面 HTML,而是让用户在页面上直接标注。 这本质上是在把"用户意图"最低摩擦地传递给 Agent——你看到什么不对,就在那个像素位置写一条评论即可。
当前聚焦于前端和游戏开发场景,未来将扩展到 localhost 以外的完整浏览器操控。
Codex 内置接入了 gpt-image-1.5,可以在同一个工作流内生成与迭代图像。
原文:
Combined with screenshots and code, it is helpful for creating visuals for product concepts, frontend designs, mockups, and games inside the same workflow.
这里的关键词是 "same workflow"(同一工作流)。之前生成 mockup 需要在另一个工具(Figma、Midjourney 等)里做,然后手动导入;现在一切都发生在 Codex 内部。对前端开发者和产品设计师,这是一个显著的工作流简化。
OpenAI 一次性发布了 90 多个新插件,组合了 skills、应用集成和 MCP 服务器。博客列举的重点插件包括:
这些插件的共同点是外部服务 + 状态修改能力——不再是只读的上下文检索,而是让 Agent 能够在第三方系统里"做事"。90+ 的数字也暗示 OpenAI 在组织插件生态方面投入了可观资源。
本次更新在"编码工作流"下游的几个增强:
| 能力 | 细节 |
|---|---|
| GitHub 评审评论支持 | Agent 能直接处理 PR 中的 review comments |
| 多终端标签 | 同时打开多个终端,适应并行任务 |
| SSH 远程 devbox(alpha) | 通过 SSH 连接到远程开发沙箱 |
| 侧边栏文件预览 | 直接在侧栏预览 PDF、表格、幻灯片、文档 |
| 摘要面板(summary pane) | 跟踪 Agent 的计划、信息源和产物 |
原文将这些能力总结为:
Together, these improvements make it faster to move across all the stages of the software development lifecycle between writing code, checking outputs, reviewing changes, and collaborating with the agent in one workspace.
"一个 workspace 里完成全生命周期"是 Codex 本次产品定位的主线。
这是本次更新中最"未来感"的能力。Codex 的自动化现在可以:
原文:
We have expanded automations to allow re-using existing conversation threads, preserving context previously built up. Codex can now schedule future work for itself and wake up automatically to continue on a long-term task, potentially across days or weeks.
典型用例(博客列举):
这类"自唤醒"的 Agent 设计——让 Agent 自己判断什么时候该回来干活——是长时序 Agent 的关键能力。它把 Agent 从"请求/响应"模型升级到"持续性进程"模型。
Codex 推出了记忆(memory)能力的预览版,允许它记住来自历史经验的有用上下文,包括:
原文:
This helps future tasks complete faster and to a level of quality previously only possible through extensive custom instructions.
记忆的价值在于减少 custom instructions 的维护负担——以前为了让 Agent 稳定输出你想要的风格,你需要写长长的 system prompt;现在它能自己从历史互动里学习。
个性化功能(包括上下文感知建议和记忆)将稍后推出到 Enterprise、Edu、EU 和 UK 用户。
Codex 开始主动建议你接下来可以做什么。它利用项目上下文、已连接的插件和记忆,给出例如:
原文举例:
For example Codex can identify open comments in Google Docs that require your attention, pull relevant context from Slack, Notion, and your codebase, then provide you with a prioritized list of actions.
这种"你一打开 Codex,它就告诉你今天该干什么"的体验,把 Agent 从被动回应提升到主动代理。
| 能力 | 可用范围 |
|---|---|
| 绝大多数新能力 | 即日起推送给登录 ChatGPT 的 Codex 桌面用户 |
| 个性化(上下文感知建议、记忆) | 稍后推送给 Enterprise / Edu / EU / UK 用户 |
| 计算机使用 | macOS 首发,EU / UK 稍后 |
传统计算机使用 Agent(如 Anthropic Computer Use)是独占式的——你把屏幕让给 Agent,Agent 做完交还给你。Codex 的 background + multi-agent + own cursor 组合是另一条路线:
这本质上是把 Agent 从"前台助手"推向了"后台工人"。当一台 Mac 上同时跑 3-5 个 Codex Agent 做不同的事,而用户本人继续正常办公,这种形态已经接近"雇了几个远程员工共用你的机器"。
用户在网页上评论来给 Agent 指令——这是一个高度务实的交互设计。相比"让 Agent 自己识别要改的元素",让用户在像素上标注具有以下优势:
这种设计暗示 OpenAI 认识到:Agent 的瓶颈经常不是能力,而是意图的精确传递。
要构建能跨天跨周工作的 Agent,两个能力缺一不可:
Codex 本次同时推进这两项能力,实际上是在系统性地解决长时序 Agent 的基础设施问题,而不是单点改进。
插件数量的跃升(一次性 90+)说明 OpenAI 在有意打造 Agent 领域的 "App Store 效应":
这是标准的双边市场网络效应。90+ 只是一个起点数字,真正的意义在于生态门槛被抬高:后来者如果不能提供类似规模的生态,很难追上。
过去 Agent 的使用范式是"用户提问 → Agent 回答"。Proactive Suggestions 把入口反转为"Agent 主动建议 → 用户选择接受或不接受"。这种反转的深远影响:
1. 升级到最新 Codex 桌面版并尝试 Background Computer Use(macOS)
如果你在 macOS 上用 Codex,最直接的价值是尝试把需要 GUI 操作但不暴露 API 的任务交给 Codex: - 在没有 CLI 的 App 里做批量操作 - 前端视觉回归测试 - 自动化工作流调试
2. 梳理你的工作流,挑选适合 Automation 的长期任务
适合做成 Automation 的典型任务: - 定期跟进的 PR 评审 - 跨 Slack / Gmail 的会话跟进 - 周期性的数据收集与汇总
自动化的价值不在单次节省时间,而在"认知负担的外包"——不用每周记得去做这些事。
3. 清理与安装关键插件
90+ 插件中选出对你工作流最相关的 3-5 个安装(而不是全部),原因:
1. 让 Codex 用 In-App Browser 操作生产环境
目前官方聚焦于前端和游戏开发(多数是 localhost),"完整浏览器操控"是未来目标。在操作生产环境的 SaaS 之前,建议:
2. SSH 远程 devbox(alpha)
这是 alpha 能力,稳定性和数据隔离都需要评估:
3. 启用 Memory
记忆能力带来的个性化是双刃剑:
建议在启用初期密切关注 Agent 的行为漂移,保留"清空记忆"的操作路径。
1. 不要把企业级敏感工作流直接上 Automation
跨天跨周的自动化听起来很美,但:
2. 不要指望 Background Computer Use 在所有 App 都稳定
即使在 macOS 上也要预期:
3. 不要在 EU / UK 期待同等能力
Computer Use 和个性化能力都会稍后才在 EU / UK 开放,当前只在 macOS 首发给其他地区。监管与合规是合理原因,但在部署计划里要预留缓冲。
| 维度 | OpenAI Codex(本次) | Anthropic Claude Opus 4.7 + Claude Code | Google AI Mode in Chrome |
|---|---|---|---|
| 核心能力定位 | 编程 Agent 延伸到整台计算机 | 长时序自主编码 + 代码评审 | 浏览器内 AI 探索 + 多 Tab 上下文 |
| 跨 App 能力 | Background Computer Use + 浏览器 + 90+ 插件 | Claude Code 聚焦终端,Opus 4.7 提供模型底座 | Chrome 内部多 Tab / 图像 / PDF 上下文 |
| 长时序工作 | Automations 跨天跨周 + 自我调度 | Opus 4.7 长时序 coding(Devin / Scott Wu 引述) | 未强调 |
| 记忆/个性化 | Memory preview + proactive suggestions | file system-based memory(Opus 4.7) | 未强调 |
| 生态 | 90+ 插件 + MCP | Claude Code agent tool 聚焦编码 | Chrome 插件生态已成熟 |
| 首发平台 | macOS(Computer Use) | 全线 Claude 产品 + API + Bedrock/Vertex/Foundry | 美国,后续扩展 |
OpenAI 打"工作台":把 Codex 变成开发者的桌面工作中枢,强调横向覆盖——从代码到整台计算机的所有应用。
Anthropic 打"模型底座":Opus 4.7 的升级聚焦在编码质量和长时序能力,Claude Code 是承载这些能力的产品,但产品扩张节奏明显更保守。
Google 打"入口":AI Mode in Chrome 利用 Chrome 的入口优势,在用户"已经在用的环境"里附加 AI 能力,而不是让用户迁移到新产品。
三者的侧重点反映了各自的结构性优势:OpenAI 无桌面入口所以要做桌面 App 并扩能力;Anthropic 模型优势大所以强调模型更新;Google 浏览器入口最强所以把 AI 装进 Chrome。
"生命周期全覆盖"的产品叙事很清晰。Codex 不再是"更好的代码补全",而是"从想法到部署的 AI 协作者"。这种叙事让用户更容易理解 Codex 的价值——而价值理解是复杂产品用户增长的瓶颈。
Background Computer Use + Multi-Agent 是真正的新能力。相比"更大上下文"或"更快推理"这种渐进式改进,在 macOS 上多个 Agent 并行使用 App 的能力是能力边界上的突破。
Automations + Memory 配合得当。这两个能力单独存在价值有限,合起来才构成"可以交给 Codex 长期跟进的事情"。产品经理在配对这些能力上显然经过了仔细设计。
插件数量一次性打出 90+。选择在一次发布中集中释放大量插件(而不是一个月发一个),是在有意制造"生态充实感"的市场信号。
Background Computer Use 的安全模型未充分披露。Agent 用自己的光标操作你的所有 App 意味着它能看到的信息范围极广——包括任意打开的文档、消息、个人数据。原文没有充分讨论:
Agent 的截屏/观察范围是否可以限定
观察到的敏感信息如何处理(是否上传到 OpenAI 后端)
macOS 首发带来的碎片化。Linux 用户、Windows 用户、EU / UK 用户在"计算机使用"能力上的缺位可能会产生社区分裂。对团队而言,如果成员跨地区/跨平台,Codex 的统一使用体验受损。
Automation 的失败态缺乏讨论。跨天跨周的自动化任务如果失败,具体机制是什么?Agent 是否会反复重试?用户如何被通知?这些关键问题原文没有给出答案。
90+ 插件的质量参差。大规模插件发布的典型问题是质量方差大。有些插件可能是官方深度集成,有些可能只是简单封装第三方 API。用户需要自行评估每个插件的可靠性。
Memory 的可控性未被明确化。Codex 记住什么、不记什么、如何让它"忘记"某些东西——这些是构建用户信任的关键,但在原文中没有详细展开。
Codex 本次更新的走向透露了 OpenAI 对"AI 劳动力"的长远战略:
对开发者而言,值得从现在开始思考:你哪些任务应该是你自己做的,哪些任务应该是"一个持续运行的 Codex"做的? 这个边界会在接下来 6-12 个月反复被重画。
本文基于 OpenAI 官方博客《Codex for (almost) everything》(http://openai.com/index/codex-for-almost-everything/)的公开内容撰写,所有能力描述与可用范围均以该页面为准。文章未披露的指标按原文已做标注。