给 Agent 装上眼睛和手：OpenCLI 深度体验

Agent 联网全是坑——搜索 API 贵且飘、Puppeteer 秒封、Jina 抓不了登录页。OpenCLI 换了个思路：直接把你已经登录的 Chrome 借给 Agent 用。

用 AI Agent 做过实际项目的人，大概都踩过”联网”这个坑。

让 Agent 搜个东西，调 Tavily——结果相关度低到 0.2，月费 $49 起步；用 Puppeteer——Cloudflare 五层检测一碰就死；Jina Reader 对公开页面不错，但碰到公众号文章这种需要验证的就抓瞎。

每个方案看着都能用，真到关键时刻全掉链子。Reddit 上有人总结得到位： “大部分时间能用——直到它不能。”

Agent 联网到底有几条路

先说清楚现状。Agent 从网上获取信息，主流方案大概这几类：

搜索 API （Tavily、Serper、Brave Search、Exa）

Agent 不直接访问网页，而是调搜索 API 拿结果。问题是：搜索质量取决于 API 本身，Tavily 专为 Agent 设计但贵且结果飘忽，Serper 便宜但只返回链接不提取内容，Brave 中文搜索差且国内经常连不上，Exa 语义检索强但 $150/月。博查（0.02 元/次）是国内最实用的，但只解决搜索不解决内容提取。

网页转 Markdown 服务（Jina Reader、Firecrawl）

把 URL 变成干净的 Markdown 给 Agent。Jina Reader 国内可用，甚至不需要注册，直接 r.jina.ai/目标URL 就能转，对公开页面很好用。但遇到反爬或需要验证的页面（比如公众号文章）就没辙了，毕竟它没有你的登录态。Firecrawl 免费版要绑信用卡还有双重计费陷阱。这类服务的共同天花板是：需要登录才能看的内容，全抓不到。

浏览器自动化（Puppeteer、Playwright）

Agent 自己操控浏览器。技术上最灵活，但反爬是噩梦。Cloudflare 对 Puppeteer/Playwright 是秒封级别，你需要加 stealth 补丁、代理池、验证码处理，复杂度比你的业务逻辑还高。Reddit 上有人吐槽：”让 Agent 用 Puppeteer 访问网站，就像让机器人模仿人类逛商场，保安一眼就看出来了。”

MCP Server

协议层面标准化了，但底层还是调上面这些工具。Google 官方的 Chrome DevTools MCP 需要开远程调试端口，有安全风险。大多数 MCP 搜索 Server 质量取决于背后的 API。

这些方案有个共同的死穴：拿不到你的登录状态。

Twitter 的时间线、Reddit 的个性化首页、知乎的登录内容、小红书的创作者数据——这些都需要登录才能访问。而上面的方案要么拿不到登录态，要么需要你自己导 Cookie、配 OAuth、绑信用卡。

OpenCLI 的路：直接借你的 Chrome

OpenCLI 的思路很简单：你的 Chrome 已经登录了所有网站，Agent 为什么不能直接用？

opencli weixin download –url”

三秒出干净 Markdown。不需要 API Key，不需要绑卡，不需要处理 OAuth。你的 Chrome 能访问什么，Agent 就能访问什么。

这意味着反爬问题也跟着解了——因为 Agent 用的是你真实浏览器的 session，不是 Puppeteer 那种裸奔的 headless Chrome。Cloudflare 看到的是你的真实 Chrome 指纹。

Token 消耗极低。每次调用吃掉大量 context。OpenCLI 直接返回结构化 JSON/YAML，Agent 拿到就能处理。社区有人实测：OpenCLI 的 token 消耗比 Playwright MCP 少一个数量级。

和 Puppeteer/Playwright 到底什么关系

底层技术上，OpenCLI 用的就是 Chrome CDP 协议，跟 Puppeteer/Playwright 同源。区别在封装层。Puppeteer/Playwright 给你的是 API——你得写代码，自己处理选择器、等待、错误重试。Agent 需要先写代码，再执行，再解析结果，链路长，每一步都可能出错。OpenCLI 给你的是命令——Agent 直接跑一行 shell，拿结构化输出。821 条命令覆盖 145 个网站，每个命令都预适配了对应的页面结构。

打个比方：Puppeteer 是给你原材料让你自己盖房子，OpenCLI 是给你一把钥匙直接住进去。

当然代价是灵活性。超出了预适配命令范围的网站，你得回退到 opencli browser 通用模式或 Puppeteer。但 145 个网站的覆盖面，日常使用基本够用。

安装：让 Agent 自己装

你不需要手动操作。把项目地址发给你的 Agent（Claude Code、Codex、Cursor 都行），让它：

git clone opencli& & npm install&& npm run build& &npm link

如果你用的是 Claude Code 或兼容 skills 机制的 Agent，更简单：

npx skills add jackwener/opencli

Agent 会自动读取 skills 里所有可用命令，直接就能调用。不需要你教它怎么用。

前提是机器上有 Node.js 22+ 和 Chrome。第一次运行自动启动守护进程，之后所有命令复用同一个浏览器实例。

小红书（笔记搜索、创作者数据、发布、评论）

抖音（视频搜索、评论、直播）

淘宝（搜索、详情、购物车、评价）

闲鱼（搜索、发布、聊天）

大众点评（搜索、店铺详情）

豆瓣（电影/图书/Top250）

BOSS直聘（搜索、打招呼、简历、面试邀请）

携程（机票、酒店）

贝壳找房（二手房、租房、成交记录）

雪球（股票、自选股、K线）

今日头条（热榜、文章管理）

百度贴吧（搜索、帖子）

36氪（文章、热榜）

即刻（动态、发布、搜索）

飞书（文档、消息、日历）

企业微信（通讯录、消息、日程）

知识星球（话题、搜索）

小鹅通（课程、视频）

小宇宙（播客、转录稿）

幕布（文档、搜索）

flomo （笔记）

AIbase （AI日报）

什么值得买（好价搜索）

夸克网盘（文件管理）

V2EX （签到、话题）

AI 对话工具（网页 & 桌面）：

to、LessWrong、Lobsters、Bloomberg、Reuters、BBC、Pixiv、Steam、Amazon、arXiv、PubMed、Wikipedia、Docker Hub、npm、PyPI、Crates.io、Maven、RubyGems、NuGet、Binance、CoinGecko、DefiLlama、HuggingFace、MDN、OEIS、RFC……

还有 12 个外部 CLI 集成：GitHub（gh）、Docker、Notion、Obsidian、Telegram、Vercel、Discord CLI、长桥证券等。

DOM 选择器脆弱。 821 条命令依赖网页的 DOM 结构，网站改版对应的命令可能失效。GitHub Issues 里约 35% 的 bug 来自网站更新页面结构。维护者响应速度还行，1-3 天回 Issue，基本每周发新版。但这是所有基于 DOM 的方案都逃不掉的问题。

同一站点避免并发。当前版本同一网站的并发命令共享浏览器窗口，存在竞争问题（正在修复中）。Agent 做批量操作时最好串行执行，或等 per-command workspace 隔离上线。

多 Profile 用不同端口。如果你有多个 Chrome Profile，每个 Profile 需要用不同的 daemon 端口，否则后连接的会覆盖前一个。

Agent 的能力 = 模型 + 工具。现在模型能力已经很强了，瓶颈在工具层——Agent 能看到的信息、能执行的操作太少。

OpenCLI 填的是最实际的一块：让 Agent 获得跟你自己坐在浏览器前一模一样的操作能力。不需要注册任何服务，不需要绑信用卡，不需要处理反爬。你 Chrome 里已经登录的网站，Agent 直接就能用。

在所有 Agent 联网方案里，这是目前我见过的成本最低、覆盖最广、上手最快的。

Agent skills 一键集成（Claude Code / Cursor）：

npx skills add jackwener/opencli

本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体)，仅供学习参考。用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权，请联系我们反馈本站将在三个工作日内改正。