操控浏览器,让 OpenClaw 解锁超能力

操控浏览器,让 OpenClaw 解锁超能力

February 28, 2026

1. 配置:OpenClaw 浏览器模式

在上一篇文章《OpenClaw 写公众号,3步就够了 》中,我提到了 OpenClaw 收集信息的 4 种方案,当时对 方案2:通过 OpenClaw Browser Relay 控制浏览器 的评价是"比较繁琐"。

但最近 OpenClaw 官方文档更新了中文版 ,浏览器章节写得挺清楚。加上有些场景确实需要浏览器(比如 Gemini Deep Research、受反爬虫限制的网页),于是决定把这坑填上。

1.1. 安装 GUI

我的 OpenClaw 安装环境是腾讯云轻量服务器,OpenCloudOS 9 操作系统,没有 GUI。

在无 GUI 的环境中,OpenClaw 只能使用 headless 模式,有几个硬伤:

  • 遇到验证码直接卡死
  • 无法登录需要账号密码的系统
  • 容易被反爬虫系统拦截
  • 很多现代网页 JS 渲染异常

所以需要先安装 GUI,并安装桌面版浏览器,让 OpenClaw 来操作。

1.2. 安装 GNOME

GNOME 是 Linux 主流的桌面环境之一,提供完整的图形界面支持。

参考《OpenCloudOS 桌面安装指南 》:

# 查看可用包组
dnf group list

# 安装 GUI
dnf group install "Server with GUI" -y

# 设置为图形模式并重启
systemctl set-default graphical.target
reboot

# 验证显示服务
systemctl status gdm.service

1.3. 配置 XRDP

XRDP 是开源的远程桌面协议实现,让 Windows/Mac 的远程桌面客户端能连接到 Linux 服务器。

# 安装并启动
dnf install -y xrdp
sudo systemctl start xrdp
sudo systemctl enable xrdp

# 权限修复:解决证书读取失败
sudo chown root:xrdp /etc/xrdp/cert.pem /etc/xrdp/key.pem
sudo chmod 640 /etc/xrdp/cert.pem /etc/xrdp/key.pem

# 会话配置:解决 root 登录闪退
cat <<EOF > ~/.Xclients
#!/bin/bash
export GNOME_SHELL_SESSION_MODE=classic
exec gnome-session
EOF
chmod +x ~/.Xclients

systemctl restart xrdp

1.4. 安装 Brave 浏览器

Brave 是基于 Chromium 的隐私保护浏览器,OpenClaw 官方推荐使用。

curl -fsS https://dl.brave.com/install.sh | sh

装好后用 Windows 远程桌面(mstsc)或 Mac(Microsoft Remote Desktop)登录服务器,打开 Brave 登录常用账号(Gemini、Kimi 等)。

1.5. 配置 OpenClaw

修改 ~/.openclaw/openclaw.json

"browser": {
    "enabled": true,
    "defaultProfile": "openclaw",
    "color": "#FF4500",
    "headless": false,
    "noSandbox": true,
    "attachOnly": false,
    "executablePath": "/usr/bin/brave-browser"
}

两个关键配置

  • headless: false — GUI 环境必需
  • noSandbox: true — root 用户运行必需,否则 Brave 拒绝启动

配置完成后重启 Gateway:

openclaw gateway restart

2. 实战:让 OpenClaw 学会 Gemini Deep Research

配好环境后,立刻测试一个之前无法完成的场景:用 Gemini Deep Research 做深度调研。

2.1. 第一次翻车

指令:“使用 Brave 访问 Gemini,用 Deep Research 调研 OpenClaw”。

结果 OpenClaw 直接把"深度研究模式"当成提示词发给 Gemini,完全没理解 Deep Research 是个需要先启用的工具。

2.2. 纠正方法

告诉它正确流程:

“不要直接发提示词,而是在 Gemini 里先切换「工具」为「Deep Research」,再把问题发给它。”

2.3. 固化成 Skill

让 OpenClaw 把这套操作写成 Skill,提示词:

将刚才你使用 Gemini Deep Research 的方法总结成 Skill,并在以后处理相同的场景中使用

后续只需说"使用 Gemini Deep Research 研究 xxx",它就会自动:

  1. 打开 Gemini
  2. 启用 Deep Research 模式
  3. 输入研究主题
  4. 获取并汇总报告

最终成功产出完整的 OpenClaw 调研报告,涵盖项目演进、架构设计、安全事件等维度。

3. 越灵活,越危险

浏览器模式解锁了很多原本做不到的事:

  • 直接操作网页版邮箱(省掉 IMAP/SMTP 配置)
  • 访问反爬虫保护的网页(如 GZ 号)
  • 通过网页操作内部业务系统

理论上,只要是你在浏览器里能完成的操作,OpenClaw 现在都能替你自动化。

但安全问题必须引起重视。浏览器模式下,OpenClaw 拥有和操作你本地电脑几乎同等的权限:

  • 只让它登录必要的网页
  • 绝不登录包含核心数据的系统
  • 遇到验证码等验证,仍需人工介入登录服务器完成

说白了,你给了它操控浏览器的能力,就等于给了它你的"数字身份"。方便是真方便,但风险也是真风险。

当你要获得更多灵活性时,就势必会失去一些安全性和稳定性。怎么权衡,需要慎重考虑。

最后更新于