Codex × Chrome:让 AI 直接控制浏览器
2026/5/15约 1445 字大约 5 分钟
Codex × Chrome:让 AI 直接控制浏览器
这个案例介绍如何让 Codex 借助浏览器相关能力完成网页操作任务,比如打开页面、搜索内容、点击结果和返回链接。
最后核对
官方资料最后核对日期:2026-05-27。本文参考 Using Codex with your ChatGPT plan 与 Codex use cases。具体插件名称、安装流程和入口位置可能会随客户端版本或工作区配置变化。
适用场景
- 让 Codex 帮你在网页里搜索资料。
- 让 Codex 打开某个站点并完成简单点击流程。
- 在不离开当前工作区的前提下,把浏览器操作接入任务链路。
在半桶水课程里,它对应的是“资料查找 / 网页协作 / 人工审批”的工作流:Codex 可以帮你打开网页和整理结果,但涉及登录、提交、付款、删除的动作必须由人判断。
这节解决什么
很多工作资料在网页里:搜索结果、后台页面、帮助文档、表单状态、活动页面。浏览器能力让 Codex 能看到页面并操作页面,但这类能力比普通文档任务风险更高。
这节练的是:让 Codex 完成低风险网页操作,并学会用来源链接和截图验证结果。
工作流卡
| 项目 | 内容 |
|---|---|
| 输入 | 目标网站、搜索词、允许操作、禁止操作、输出格式 |
| Codex 负责 | 打开网页、搜索、点击、读取页面、返回链接或摘要 |
| 人类判断 | 是否允许登录、是否允许提交、是否会暴露个人信息 |
| 输出 | 链接、摘要、截图、页面状态说明 |
| 验收 | 网站正确、来源可打开、结果相关、没有执行高风险动作 |
适合谁
这一节适合:
- 想让 Codex 帮忙查资料、找页面、整理链接的人。
- 想在本地网页或公开网页上做低风险检查的人。
- 需要让 AI 帮忙看页面状态,但不想自己反复点击的人。
第一次练习建议使用公开网页,不要直接使用公司后台、支付页面或个人账号页面。
使用前先理解一件事
这里说的“控制浏览器”,更准确地说,是让 Codex 借助浏览器或浏览器插件能力去完成网页交互。不同工作区里,入口可能叫 Chrome、Browser,也可能表现为浏览器插件或内置浏览能力。
因此,更稳妥的理解方式是:
- 在当前工作区确认是否已经启用了相关浏览器能力。
- 如果是第一次使用,按界面引导完成浏览器侧安装或授权。
- 安装完成后,再在任务里明确告诉 Codex 你想让它做什么。
一个常见流程
如果你的客户端提供了 Chrome 相关插件或浏览器能力,常见流程通常类似这样:
- 在 Codex 桌面 App 中找到对应的浏览器能力并启用。
- 按引导完成浏览器侧的插件安装或连接配置。
- 回到任务中,明确描述目标网页、搜索词和预期输出。

第一次点击后会跳转到浏览器插件安装页,点击添加扩展即可

任务示例
你可以像下面这样给出一个明确任务:
请使用浏览器能力打开 Bilibili,搜索“RAG 知识库 教程”,找一个适合新手入门的视频,并把标题和链接返回给我。一个类似任务完成后,Codex 可能会:
- 打开目标站点。
- 搜索你提供的关键词。
- 进入相关结果页。
- 把它认为最合适的结果链接返回给你。

你要重点检查什么
- 它打开的网站是不是你指定的那个站点。
- 搜索词有没有被错误改写。
- 点击结果后返回的是不是你真正需要的页面,而不是广告页或无关页。
- 如果涉及登录态、个人数据或付费后台,是否会超出你愿意授权的范围。
验收标准
完成这个案例后,至少确认:
- 浏览器能力已经启用,Codex 能打开目标页面。
- Codex 返回的链接可以再次打开。
- 搜索词、筛选条件和点击路径没有偏离任务。
- 如果有截图,截图能证明页面状态。
- 没有登录、提交、删除、付款或发布等高风险动作。
复用方式
可以保存成这个任务模板:
请使用浏览器能力完成一个低风险网页任务。
目标网站:
任务目标:
搜索词或页面路径:
允许操作:
禁止操作:
输出格式:
验收标准:
只允许浏览、搜索、读取和截图;涉及登录、提交、删除、付款或发布前必须先停下来问我。风险提醒
- 浏览器相关能力通常比纯文本任务权限更高,第一次使用时建议从只读、低风险页面开始。
- 不要直接让 Codex 操作带有支付、删除、发帖、提交表单等高风险页面,除非你准备全程复核。
- 如果教程依赖插件安装,未来界面名称或入口位置可能变化,因此文档里应优先描述“能力和流程”,而不是把某个按钮位置写死。