当前位置: 首页 > news >正文

Midscene.js:重新定义UI自动化的新时代工具

image

前言

Midscene.js 是一个创新的、面向开发者的 UI 自动化解决方案,并通过人工智能技术简化自动化脚本的编写与维护。

它提供了三种核心方法——交互(.ai, .aiAction)、提取(.aiQuery)和断言(.aiAssert),使开发者能够以自然语言描述步骤并执行复杂的UI操作。

它不仅支持通用的大规模语言模型(LLM),还兼容开源模型 UI-TARS,为用户提供了更多的选择。

安装

方式一:从 Chrome 应用商店下载插件快速体验

https://chromewebstore.google.com/detail/midscenejs/gbldofcpkknbggpkmbdaefngejllnief?utm_source=ext_app_menu

方式二:在 **github **下载源码运行

https://github.com/web-infra-dev/midscene

配置模型和服务商

这里我们以 **Chrome **插件进行演示

常用的主要配置项如下,其中 OPENAI_API_KEY 是必选项:

名称描述
OPENAI_API_KEY必选项。你的 OpenAI API Key (如 “sk-abcdefghijklmnopqrstuvwxyz”)
OPENAI_BASE_URL可选。API 的接入 URL。常用于切换到其他模型服务,如 https://some_service_name.com/v1
MIDSCENE_MODEL_NAME可选。指定一个不同的模型名称 (默认是 gpt-4o)。常用于切换到其他模型服务

image

这里要注意,环境变量的KEY=VALUE等于符号左右两侧不能有空格,否则会报错

基本使用

Midscene** 核心操作分为行为**、查询断言,如下图所示:

image

行为

用于控制界面,包括对界面定位、点击、滚动、键盘输入、悬停、等待。

基本用法:

await mid.aiAction('在搜索输入框中输入你好,然后按回车执行搜索');
await mid.aiAction('将鼠标移动到新闻列表中的第二项,然后点击它');// 使用 `.ai` 简写
await mid.ai('将鼠标移动到新闻列表中的第二项,然后点击它');

查询

用于从 UI 提取自定义数据,不仅可以返回页面上直接书写的数据,还能基于“理解”返回数据。

基本用法:

const dataA = await mid.aiQuery({time: '左上角展示的日期和时间,string', userInfo: '用户信息,{name: string}',tableFields: '表格的字段名,string[]',tableDataRecord: '表格中的数据记录,{id: string, [fieldName]: string}[]'
});

最后AI会按照你的格式将数据整理返回

断言

为了确保提取的数据符合预期,通常会结合使用 .aiAssert 方法来进行断言。

基本用法:

await mid.aiAssert('"路由器" 的价格是 139');

这段代码将会检查页面上的“路由器”产品的价格是否确实是 139。如果不符合预期,则测试将失败。

注意事项

使用清晰、详细的步骤描述非常重要。过于简略的指令可能会导致不稳定的结果或者运行失败。

Midscene 目前无法规划包含条件和循环的步骤。

为了避免 AI 幻觉造成的错误断言,在需要高准确性的场景可以结合 .aiQuery 和普通 JavaScript 断言来替代 .aiAssert

调试配置

设置 MIDSCENE_DEBUG_AI_PROFILE 变量,就可以看到每次调用 AI 的时间和 token 数量。

MIDSCENE_DEBUG_AI_PROFILE=1

总结

Midscene.js 是一款创新的面向开发者的 UI 自动化解决方案,通过人工智能技术简化自动化脚本的编写与维护。

它提供了交互、提取和断言三种核心方法,支持通用的大规模语言模型(LLM)和开源模型 UI-TARS

– 欢迎点赞、关注、转发、收藏【我码玄黄】,各大平台同名。

http://www.lryc.cn/news/527866.html

相关文章:

  • 【C语言基础】编译并运行第一个C程序
  • 处理 .gitignore 未忽略文件夹问题
  • php-phar打包避坑指南2025
  • 卡特兰数学习
  • 第05章 10 地形梯度场模拟显示
  • 2023CISCN初赛unzip
  • 计算机网络 (55)流失存储音频/视频
  • Linux通过docker部署京东矩阵容器服务
  • 【MySQL】悲观锁和乐观锁的原理和应用场景
  • Java Web-Tomcat Servlet
  • 老牌工具被破!
  • 在计算机上本地运行 Deepseek R1
  • MongoDB中常用的几种高可用技术方案及优缺点
  • 【GoLang】利用validator包实现服务端参数校验时自定义错误信息
  • 异或哈希总结
  • 【Rust自学】15.7. 循环引用导致内存泄漏
  • C#AWS signatureV4对接Amazon接口
  • C语言操作符(下)
  • 学习资料收藏 游戏开发
  • 我的2024年总结
  • freeswitch在centos上编译过程
  • docker如何查看容器启动命令(已运行的容器)
  • 正则表达式以及Qt中的使用
  • 当高兴、尊重和优雅三位一体是什么情况吗?
  • Vue 3 中的 TypeScript:接口、自定义类型与泛型
  • 【Super Tilemap Editor使用详解】(十六):高级主题:深入理解 Super Tilemap Editor
  • 如何运用python爬虫爬取知网相关内容信息?
  • 2025年数学建模美赛 A题分析(2)楼梯使用频率数学模型
  • 云原生:构建现代化应用的基石
  • 18.Word:数据库培训课程❗【34】