轻松驾驭网页任务!来看看 Hermes Agent 浏览器自动化实战中的 5 大必备工具吧!

轻松驾驭网页任务!来看看 Hermes Agent 浏览器自动化实战中的 5 大必备工具吧!

🔥 Hermes Agent 浏览器自动化实战:5 个核心工具轻松搞定网页任务!

任务概述

今天的任务是要在 Google Chrome 浏览器中打开百度聊天页面(https://chat.baidu.com/)来查找今天的新闻,并把我们的对话内容截图保存到桌面上。

使用工具与技能

1. 浏览器自动化工具集

browser_navigate

  • 功能:导航到指定网址
  • 使用:打开百度聊天页面
  • 返回信息:页面标题、快照数据和网址状态

browser_snapshot

  • 功能:获取页面的可访问性快照
  • 使用:观察页面元素结构,找出可以互动的元素
  • 参数:full=true 获取完整内容,full=false 获取紧凑视图

browser_type

  • 功能:向输入框输入文本
  • 使用:在搜索框输入“今天的新闻有哪些?”
  • 参数:ref 元素引用 ID(例如 @e18)

browser_press

  • 功能:模拟键盘操作
  • 使用:按 Enter 提交查询,按 Down 键选择选项
  • 参数:key 键名(比如 Enter, Down, Tab)

browser_vision

  • 功能:截图并分析页面的视觉内容
  • 使用:获取页面的截图
  • 结果:截图会保存到 /home/.hermes/cache/screenshots/

2. 代码执行工具

execute_code

  • 功能:执行 Python 脚本来完成系统操作
  • 使用:将截图从缓存目录复制到用户桌面
  • 脚本操作:
    • 确保桌面目录是存在的
    • 将截图文件复制到 Desktop/对话截图.png

技术架构

这次的任务展示了 Hermes Agent 的基本功能:

  1. 浏览器工具链:拥有完整的自动化能力,支持导航、互动、截图和视觉分析
  2. 代码执行:能够执行系统命令和处理文件操作
  3. 持久化存储:截图自动保存到指定的缓存目录

执行结果

任务执行情况

  • ✅ 成功打开百度的聊天界面
  • ✅ 成功输入并提交了查询内容
  • ✅ 成功获取了页面上的新闻汇总
  • ✅ 截图已保存至桌面:/home/Desktop/对话截图.png

系统详情

  • 日期:2026 年 4 月 11 日
  • 操作系统:Linux 环境
  • 浏览器类型:Google Chrome(通过 Browserbase 运行)
  • 使用模型:QwenPaw-Flash-9B-Q8_0(由 custom 提供)

这份文档是 Hermes Agent 自动生成的,详细记录了工具的使用过程及结果。

来源:百家号
原文标题:Hermes Agent 浏览器自动化实战:5 个核心工具轻松搞定网页任务!
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!

《轻松驾驭网页任务!来看看 Hermes Agent 浏览器自动化实战中的 5 大必备工具吧!》有8条评论

发表评论