OpenAI把AI员工放进手机

幻兹网

发现

🔍

新搜索

我的

幻兹测评

OpenAI把AI员工放进手机

菠萝派

2026年05月15日

阅读 28 次

凌晨，OpenAI 给 Codex 补上了一个我认为迟早会来的功能。

远程控制。

一句话说，就是你现在可以用手机里的 ChatGPT，控制正在电脑上跑的 Codex。

这件事乍一听像小更新。

但如果你真的用过 Codex 或 Claude Code，就知道它解决的是一个很烦人的问题：

AI 明明说要替你干活，结果你人还得坐在电脑前陪它上班。

它要跑命令，你要批准。

它改了文件，你要看 diff。

它测试挂了，你要告诉它往哪儿修。

它方向跑偏，你要赶紧把它拉回来。

所以过去很多人的 Vibe Coding，爽是爽，但爽得不彻底。

你以为自己雇了一个 AI 员工。

实际情况更像你请了一个很聪明的实习生，然后你站在旁边一直盯着他别乱动。

Codex 这次更新远程控制，真正改变的就是这一点。

人已经出门了，任务还在家里的机器上继续跑。

地铁进站前看一眼，机场排队时批一下，Codex 不会因为你离开座位就停工。

这不是让你用手机写代码。

那太反人性了。

它真正想做的是：

让 AI 在你的电脑里继续干活，而你只在关键时刻像老板一样看一眼。

所以这篇测评不能只讲 GPT-5.5 有多强。

如果只看模型，GPT-5.5 是 OpenAI 这次更新的脑子。

但 Codex 远程控制，是它第一次更像一个可以被远程管理的员工。

这才是 GPT-5.5 硬刚 Claude 4.6 最值得看的地方。

不是谁更会聊天。

而是谁先让 AI 离开聊天框，进入你的真实工作流。

这篇到底测什么这篇我不想写成模型跑分。

因为光比跑分，很容易把这个更新写窄。

GPT-5.5 当然要看。

它是不是更稳，默认体验是不是更好，工具调用是不是更顺，幻觉有没有下降，这些都重要。

但这次真正有看点的地方，是 GPT-5.5 和 Codex 被放到了一起。

一个负责思考。

一个负责执行。

再加上手机端远程控制，整个事情的味道就变了。

它不再只是“我问 AI 一个问题”。

而是你给 AI 一个任务，它在电脑或远程环境里自己跑。

中途需要授权时，它来找你。

你在手机上看一眼，觉得没问题，就让它继续。

如果方向错了，你补一句话，它接着改。

这个工作方式，才是这篇文章真正要测的东西。

我会重点看五件事：GPT-5.5 能不能成为普通人的默认工作模型，Codex 远程控制能不能解决“人离开电脑，任务就断掉”的问题，手机端管理 Codex 到底适合哪些场景，Claude 4.6 + Claude Code 的优势还在不在，以及 OpenAI 是在追 Claude Code，还是在打开更大的 Agent 入口。

我目前的判断是：

Claude Code 仍然是开发者心里那个熟悉的工位。

但 Codex 这次开始像一个你可以随身管理的工程员工。

这两者的差别，就是接下来“谁能杀死比赛”的关键。

Codex远程控制，到底爽在哪最直接的场景，是任务不会因为你离开电脑就断掉。

比如你早上让 Codex 修一个登录 bug。

它读代码、改文件、跑测试，跑到一半需要执行一条命令。以前你只要离开座位，这个任务就卡在那里。

现在不一样。

你在楼下买咖啡，手机打开 ChatGPT，点进 Codex。

看到终端输出，看到它准备跑什么命令，确认不是危险操作，点一下批准。

它继续干。

你不是在手机上写代码。

你是在手机上管理一个正在写代码的 Agent。

这两件事差别很大。

手机写代码很痛苦，屏幕小，输入慢，看 diff 也不舒服。

但手机做审批、看进度、改方向，刚刚好。

这就是远程控制最聪明的地方。

它没有硬逼你在手机上完成完整开发，而是把手机变成一个 Agent 控制台。

地铁快进隧道前，你发现 Codex 的方向不对，只要补一句：“别重构整个模块，只修 Safari 兼容。”

机场排队的时候，测试挂了。你让它只看失败用例，不要扩大改动范围。

晚上出门吃饭前，突然想到一个小需求，也能开一个新线程，让 Codex 在家里的 Mac mini 上先跑起来。

这些场景都不宏大。

但它们很真实。

因为真正用 AI Coding 的人都知道，最烦的不是 AI 完全不会干。

最烦的是它干到 70%，突然等你一下。

你不在，它就停。

你回来，刚才那个工作流的热度也没了。

远程控制解决的就是这个“断气”的问题。

这不是远程桌面，是远程管理很多人听到手机控制电脑，第一反应可能是远程桌面。

但 Codex 这个方向不是传统远程桌面。

远程桌面是你把电脑屏幕搬到手机上，自己操作。

Codex 远程控制更像你把任务交给电脑里的 Agent，然后手机只负责几个关键动作：

看它做到哪一步，批准它能不能继续，判断结果能不能接受，发现跑偏时改一句方向。

手机不是第二块屏幕，更像一只工作对讲机：Codex 在机器里干活，你只在关键节点回一句。

这也是它和普通聊天 AI 的区别。

普通聊天 AI 解决的是“你现在问什么”。

Codex 远程控制解决的是“一个任务能不能持续往前走”。

这句话听起来有点朴素，但它很关键。

因为 Agent 真正进入工作流之后，人类不可能一直坐在旁边陪跑。

你需要的是一个可以被托管、被检查、被叫停、被改方向的系统。

这才像工作。

GPT-5.5强在哪里现在回到 GPT-5.5。

OpenAI 这次对 GPT-5.5 的定位很清楚：不是只做一个偶尔封神的模型，而是要做一个更稳的默认工作模型。

GPT-5.5 Instant 已经替代 GPT-5.3 Instant，成为 ChatGPT 的默认模型。

OpenAI 官方给了一组很具体的数字：在医疗、法律、金融这类高风险提示里，GPT-5.5 Instant 相比 GPT-5.3 Instant，幻觉声明减少了 52.5%。

这个数字不能说明它不会犯错。

但它说明 OpenAI 知道用户真正想要什么。

普通人每天用 ChatGPT，不是为了看它偶尔打出一拳神仙操作。

而是希望它少胡说，少跑偏，少把一个简单问题讲成一篇论文。

GPT-5.5 另一个优势，是工具链完整。

它可以接联网、文件分析、数据分析、图像理解、Canvas、图像生成、Memory。

这让它不像单点模型，更像一个总入口。

你今天让它分析一份 PDF，明天让它看一张产品截图，后天让它帮你整理表格，再过一天让 Codex 改一段代码。

这些任务不一定都属于开发。

但它们都属于现代人的工作。

这就是 ChatGPT 的优势。

Claude Code 很强，但它更像开发者工位。

ChatGPT 更像一个综合办公室。

GPT-5.5 的意义，是让这个办公室里的默认员工更稳一点。

Claude4.6还强吗当然强。

这里不能为了夸 OpenAI，就把 Claude 写弱。

Claude 4.6 这一代，尤其是 Opus 4.6 和 Sonnet 4.6，在代码、Agent、长上下文和复杂任务上都很硬。

Anthropic 对 Opus 4.6 的定位是最强模型，强调它在 coding、agents、enterprise workflows 上更可靠，也支持 1M token 上下文窗口。

Sonnet 4.6 则更像大多数人会直接接触的主力模型。Anthropic 说它在 coding、computer use、long-context reasoning、agent planning、knowledge work 和 design 上都有升级，Claude.ai 和 Claude Cowork 里也把它作为默认能力的一部分。

Claude Code 的心智也已经建立得很深。

很多开发者不是“听说 Claude Code 强”。

而是已经把它放进了自己的终端、IDE、远程机器和日常工作流里。

它能读代码库，能改项目，能跑测试，能长时间处理复杂任务。

更重要的是，开发者已经习惯把任务交给它。

这件事很值钱。

一个工具真正强，不是发布会上说自己能做什么。

而是用户下意识会把麻烦事交给它。

Claude Code 已经走到了这一步。

OpenAI是不是在追Claude Code 是。

但不只是追。

Claude Code 很早就把“AI Coding Agent”这个心智打出来了。

终端、IDE、Web、Mobile、Remote Control、云端任务、PR 工作流，这些东西 Anthropic 走得很靠前。

OpenAI 现在给 Codex 补远程控制，当然是在补课。

不承认这一点，就不诚实。

但 OpenAI 的路线也不只是复刻 Claude Code。

Claude Code 是从开发者出发。

Codex 是从 ChatGPT 这个超级入口往工程现场延伸。

这两条路很不一样。

Claude Code 的用户更明确：写代码的人，重度开发者，愿意和终端、项目、权限打交道的人。

Codex 背后站着 ChatGPT。

它面对的不只是程序员。

还有那些写内容、做产品、运营网站、做自动化、维护小工具的人。

他们不一定自认为是开发者。

但他们会越来越多地把工作交给 Agent。

这就是 OpenAI 真正想要的地方。

它不是只想让 Codex 成为一个代码工具。

它想让 Codex 成为 ChatGPT 的执行层。

你在 ChatGPT 里想清楚一件事。

Codex 去做。

你在手机上看进度。

必要时接管。

这个链路一旦跑顺，OpenAI 抢的就不是 Claude Code 的一个功能，而是未来工作流的入口。

谁更适合你如果你是重度开发者，每天都在大代码库里改东西、跑测试、处理复杂重构，Claude Code 仍然是非常稳的选择。

它的开发者心智更成熟，对复杂代码任务的信任感也更强。

尤其是你已经习惯 Claude Code 的工作方式，没必要因为 Codex 更新一个功能就立刻搬家。

如果你每天处理的是混合工作流，GPT-5.5 + Codex 会更有吸引力。

比如你上午写文章，下午分析表格，晚上改网站，第二天还要整理产品需求。

这种场景里，ChatGPT 的全工具链会更顺。

它不是单纯代码强。

它是很多活都能接。

如果你经常出门，但又有一台长期在线的机器，比如家里的 Mac mini、办公室工作站、远程开发环境，那 Codex 远程控制非常值得试。

因为它会改变你使用 Agent 的频率。

以前你会想：算了，回家再弄。

现在你可能会想：先丢给 Codex 跑着。

这就是习惯改变的开始。

如果你是团队或企业用户，就不要只看模型谁更聪明。

要看权限、审计、远程环境、RBAC、安全中继、数据留存。

Agent 进入真实工作流后，安全问题不会比能力问题小。

一个会改代码、会跑命令、会访问文件的 AI，必须被管起来。

这里 OpenAI 和 Anthropic 都在往企业级控制走。

谁能让团队放心放权，谁才有机会吃掉更大的市场。

真神打架，谁能杀死比赛我的判断是：短期内，谁都杀不死谁。

Claude Code 还没有被 Codex 干掉。

它在开发者心里的位置很稳。

尤其是深度 coding、复杂项目、长任务和开发者原生工作流里，Claude 4.6 + Claude Code 仍然是非常强的组合。

但 OpenAI 这次确实把刀架到了同一张桌上。

GPT-5.5 负责把默认体验做稳。

Codex 负责把执行能力接上。

远程控制负责让 Agent 不再被电脑桌限制。

这三件事放在一起，才是这次更新真正的威胁。

以前 Claude Code 更像“开发者的神器”。

现在 OpenAI 想把 Codex 变成“所有 ChatGPT 用户都能调动的工程员工”。

这件事的上限更大。

所以谁能杀死比赛，不取决于谁这周跑分更高。

取决于谁先让用户形成一个新习惯：

想到一个任务，不是打开聊天框问问看。

而是直接派一个 Agent 去做。

这才是未来工作方式的信号我觉得这篇最想提醒你的，不是 GPT-5.5 有多强，也不是 Claude 4.6 有没有输。

真正重要的是：

AI 工作方式正在从“对话”变成“托管”。

以前你问一句，它答一句。

现在你给一个目标，它自己干一段。

它卡住了，找你批准。

你在手机上看一眼，给个判断。

它继续往前走。

这就是下一代 AI 工作方式的样子。

人不再处理每一步。

人处理方向、权限和判断。

AI 不再只是坐在聊天框里等你发问。

它开始在你的机器里、浏览器里、代码库里、远程环境里，替你把事情往前推。

这次别只收藏新闻。

找一个真的小任务丢进去，看看自己能不能习惯把工作交给 Agent。

不要测“帮我写一个贪吃蛇”。

那种 demo 太轻了。

找一个你真的懒得做、但做完有价值的小任务。

修一个页面 bug。

整理一个旧项目。

补一组测试。

写一个内部工具。

让 Agent 跑起来，然后观察它什么时候需要你。

你会很快意识到一件事：

未来会用 AI 的人，不是最会提问的人。

是最会分配任务、检查结果、及时接管的人。

GPT-5.5 和 Claude 4.6 的真神打架，表面上是在争模型。

但真正被训练的，是我们自己的工作方式。

别等它变成标配之后，才发现自己还停在聊天框时代。

适合谁适合你：

已经在用 ChatGPT，想把 AI 从聊天扩展到执行有固定电脑或远程环境，想让 Codex 持续跑任务做内容、产品、开发、运营，工作流很杂想提前适应 Agent 工作方式不适合你：

只想问答，不需要 AI 执行任务不愿意处理权限、命令审批和代码变更对项目文件安全非常敏感，但又没有管理方案期待 AI 全自动完成一切，不想中途接管

☰