Codex × Chrome：让 AI 直接控制浏览器

canghe2026/5/15约 1445 字大约 5 分钟

这个案例介绍如何让 Codex 借助浏览器相关能力完成网页操作任务，比如打开页面、搜索内容、点击结果和返回链接。

最后核对

官方资料最后核对日期：2026-05-27。本文参考 Using Codex with your ChatGPT plan 与 Codex use cases。具体插件名称、安装流程和入口位置可能会随客户端版本或工作区配置变化。

适用场景

在半桶水课程里，它对应的是“资料查找 / 网页协作 / 人工审批”的工作流：Codex 可以帮你打开网页和整理结果，但涉及登录、提交、付款、删除的动作必须由人判断。

很多工作资料在网页里：搜索结果、后台页面、帮助文档、表单状态、活动页面。浏览器能力让 Codex 能看到页面并操作页面，但这类能力比普通文档任务风险更高。

这节练的是：让 Codex 完成低风险网页操作，并学会用来源链接和截图验证结果。

这一节适合：

第一次练习建议使用公开网页，不要直接使用公司后台、支付页面或个人账号页面。

这里说的“控制浏览器”，更准确地说，是让 Codex 借助浏览器或浏览器插件能力去完成网页交互。不同工作区里，入口可能叫 Chrome、Browser，也可能表现为浏览器插件或内置浏览能力。

因此，更稳妥的理解方式是：

如果你的客户端提供了 Chrome 相关插件或浏览器能力，常见流程通常类似这样：

第一次点击后会跳转到浏览器插件安装页，点击添加扩展即可

你可以像下面这样给出一个明确任务：

请使用浏览器能力打开 Bilibili，搜索“RAG 知识库 教程”，找一个适合新手入门的视频，并把标题和链接返回给我。

一个类似任务完成后，Codex 可能会：

完成这个案例后，至少确认：

可以保存成这个任务模板：

请使用浏览器能力完成一个低风险网页任务。

目标网站：
任务目标：
搜索词或页面路径：
允许操作：
禁止操作：
输出格式：
验收标准：

只允许浏览、搜索、读取和截图；涉及登录、提交、删除、付款或发布前必须先停下来问我。