操控浏览器,让 OpenClaw 解锁超能力

1. 配置:OpenClaw 浏览器模式
在上一篇文章《OpenClaw 写公众号,3步就够了》中,我提到了 OpenClaw 收集信息的 4 种方案,当时对 方案2:通过 OpenClaw Browser Relay 控制浏览器 的评价是"比较繁琐"。
但最近 OpenClaw 官方文档更新了中文版,浏览器章节写得挺清楚。加上有些场景确实需要浏览器(比如 Gemini Deep Research、受反爬虫限制的网页),于是决定把这坑填上。
1.1. 安装 GUI
我的 OpenClaw 安装环境是腾讯云轻量服务器,OpenCloudOS 9 操作系统,没有 GUI。
在无 GUI 的环境中,OpenClaw 只能使用 headless 模式,有几个硬伤:
- 遇到验证码直接卡死
- 无法登录需要账号密码的系统
- 容易被反爬虫系统拦截
- 很多现代网页 JS 渲染异常
所以需要先安装 GUI,并安装桌面版浏览器,让 OpenClaw 来操作。
1.2. 安装 GNOME
GNOME 是 Linux 主流的桌面环境之一,提供完整的图形界面支持。
参考《OpenCloudOS 桌面安装指南》:
# 查看可用包组
dnf group list
# 安装 GUI
dnf group install "Server with GUI" -y
# 设置为图形模式并重启
systemctl set-default graphical.target
reboot
# 验证显示服务
systemctl status gdm.service1.3. 配置 XRDP
XRDP 是开源的远程桌面协议实现,让 Windows/Mac 的远程桌面客户端能连接到 Linux 服务器。
# 安装并启动
dnf install -y xrdp
sudo systemctl start xrdp
sudo systemctl enable xrdp
# 权限修复:解决证书读取失败
sudo chown root:xrdp /etc/xrdp/cert.pem /etc/xrdp/key.pem
sudo chmod 640 /etc/xrdp/cert.pem /etc/xrdp/key.pem
# 会话配置:解决 root 登录闪退
cat <<EOF > ~/.Xclients
#!/bin/bash
export GNOME_SHELL_SESSION_MODE=classic
exec gnome-session
EOF
chmod +x ~/.Xclients
systemctl restart xrdp1.4. 安装 Brave 浏览器
Brave 是基于 Chromium 的隐私保护浏览器,OpenClaw 官方推荐使用。
curl -fsS https://dl.brave.com/install.sh | sh装好后用 Windows 远程桌面(mstsc)或 Mac(Microsoft Remote Desktop)登录服务器,打开 Brave 登录常用账号(Gemini、Kimi 等)。

1.5. 配置 OpenClaw
修改 ~/.openclaw/openclaw.json:
"browser": {
"enabled": true,
"defaultProfile": "openclaw",
"color": "#FF4500",
"headless": false,
"noSandbox": true,
"attachOnly": false,
"executablePath": "/usr/bin/brave-browser"
}两个关键配置:
headless: false— GUI 环境必需noSandbox: true— root 用户运行必需,否则 Brave 拒绝启动
配置完成后重启 Gateway:
openclaw gateway restart2. 实战:让 OpenClaw 学会 Gemini Deep Research
配好环境后,立刻测试一个之前无法完成的场景:用 Gemini Deep Research 做深度调研。
2.1. 第一次翻车
指令:“使用 Brave 访问 Gemini,用 Deep Research 调研 OpenClaw”。
结果 OpenClaw 直接把"深度研究模式"当成提示词发给 Gemini,完全没理解 Deep Research 是个需要先启用的工具。

2.2. 纠正方法
告诉它正确流程:
“不要直接发提示词,而是在 Gemini 里先切换「工具」为「Deep Research」,再把问题发给它。”

2.3. 固化成 Skill
让 OpenClaw 把这套操作写成 Skill,提示词:
将刚才你使用 Gemini Deep Research 的方法总结成 Skill,并在以后处理相同的场景中使用
后续只需说"使用 Gemini Deep Research 研究 xxx",它就会自动:
- 打开 Gemini
- 启用 Deep Research 模式
- 输入研究主题
- 获取并汇总报告
最终成功产出完整的 OpenClaw 调研报告,涵盖项目演进、架构设计、安全事件等维度。

3. 越灵活,越危险
浏览器模式解锁了很多原本做不到的事:
- 直接操作网页版邮箱(省掉 IMAP/SMTP 配置)
- 访问反爬虫保护的网页(如 GZ 号)
- 通过网页操作内部业务系统
理论上,只要是你在浏览器里能完成的操作,OpenClaw 现在都能替你自动化。
但安全问题必须引起重视。浏览器模式下,OpenClaw 拥有和操作你本地电脑几乎同等的权限:
- 只让它登录必要的网页
- 绝不登录包含核心数据的系统
- 遇到验证码等验证,仍需人工介入登录服务器完成
说白了,你给了它操控浏览器的能力,就等于给了它你的"数字身份"。方便是真方便,但风险也是真风险。
当你要获得更多灵活性时,就势必会失去一些安全性和稳定性。怎么权衡,需要慎重考虑。