更新日志
v1.10 - BDD 风格脚本、Doubao-Seed-2.1 与 MCP 下线
v1.10 新增 BDD 风格的 Gherkin 脚本执行能力,升级推荐模型到 Doubao-Seed-2.1,并正式下线 MCP server 包,后续推荐通过 Skills 与各平台 CLI 让 AI Agent 驱动 Midscene。
BDD 风格脚本(Gherkin)
- 新增
agent.runGherkinScenario(),可在 JavaScript / TypeScript 中直接运行 Gherkin 场景。 - YAML flow 新增
runGherkinScenario步骤,可把自然语言场景写成Given/When/Then结构并按步骤执行。 Given/When会映射为aiAct,Then以及跟随它的And/But会映射为aiAssert,让测试用例既保持自然语言可读性,又有稳定的步骤结构。- 当前支持围绕单个
Scenario的 Gherkin 子集,BDD 相关能力仍处于 Beta 阶段。详见:BDD 风格脚本(Gherkin)
新增模型支持
- 推荐并支持
Doubao-Seed-2.1-turbo,在当前私有测评集中具备很快的定位速度和良好的定位效果。 - 豆包 Seed 系列统一使用
MIDSCENE_MODEL_FAMILY="doubao-seed",同时继续兼容旧的doubao-visionfamily。详见:常用模型配置、模型策略
MCP 下线
- Midscene 不再发布 MCP server 包,包括
@midscene/web-bridge-mcp、@midscene/android-mcp、@midscene/ios-mcp、@midscene/harmony-mcp、@midscene/computer-mcp和@midscene/mcp。 - 需要 AI 编程 Agent 操作浏览器、移动设备或桌面应用时,请改用 Skills 与各平台 CLI。
- 如果仍依赖 MCP server,请将 Midscene 固定在
1.9.8。这是最后一个包含 MCP 支持的版本。详见:MCP 集成已下线
v1.9 - 新增模型支持、YAML 自动化与 AndroidWorld Benchmark
v1.9 版本扩展了模型支持,改进了 YAML 自动化,并提升了报告查看、Android 自动化、Web 输入和桌面自动化的稳定性。
AndroidWorld Benchmark
Midscene 新增 AndroidWorld benchmark 报告。使用 v1.9.5 测试时,Midscene 达到 Pass@1 93.10%、Pass@2 95.69%、Pass@3 97.41%。详见:AndroidWorld Benchmark 报告
新增模型支持
- 新增 Kimi 和 Xiaomi MiMo 模型支持。详见:常用模型配置
模型与规划更新
aiAct支持图片提示。MIDSCENE_MODEL_REASONING_ENABLED支持default,适配模型默认思考行为。- Gemini thinking content 与 GPT-5 reasoning 配置处理更完整。
aiAct在缓存失效时会回退到模型规划,并清空对应缓存。- AI 请求错误会包含重试次数信息;模型响应解析失败时会保留原始响应;解析后的 locate 结果会先校验再使用。
- 模型 dump 会暴露更多模型响应元数据,包括 raw choice message,以及 usage 中的响应模型名。
deepLocate的搜索区域会显示在报告上。
Chrome 扩展
- Chrome 扩展 Bridge mode 支持文件上传。
- Bridge mode 文件上传支持 file chooser accept 过滤与 WSL 文件路径。
YAML、CLI 与 MCP
1.9.8是最后一个包含 MCP 支持的 Midscene 版本。后续版本会下线 MCP server 包,改为推荐 Skills 与各平台 CLI。- 各平台 CLI 支持传入 agent behavior init args。
- CLI 的 YAML 脚本新增 HarmonyOS target,HarmonyOS 自动化可以通过与 Web、Android、iOS、Computer 一致的脚本运行器流程执行。详见:YAML 脚本自动化、HarmonyOS API
- YAML Web config 支持自定义 HTTP headers。
- YAML Web config 支持通过
downloadPath指定浏览器下载目录。 - YAML 执行会暴露真实错误,不再只落到静默的 "not executed" 结果。
- YAML 批量执行支持重试失败用例。
- YAML 成功执行后会打印报告路径。
- 显式指定的 YAML report 文件名会被正确保留。
- CLI / MCP / Skill 流程可以通过共享参数暴露
deepLocate/deepThink控制项。 - Assert CLI / MCP 工具会转发自定义失败信息,让断言失败更清晰。
- CLI 会从 CLI 包自身解析
@rstest/core,并延迟加载 Rstest core,让外部启动路径下的 framework 执行更稳定。
报告
recordToReport支持自定义截图。- Report 导出会让图片路径与导出的截图保持一致。
- Report 新增 JSON tree view,方便查看结构化任务和模型数据。
- 优化 Report 截图、标签、Playground server origin 处理与上下文间距。
Studio 与 Recorder
- 稳定 Studio recorder 描述与预览输入合并行为。
- Studio 会更安全地处理无效的模型环境变量配置。
- Recorder 工作流支持生成 Markdown replay output。
Android 自动化
- 改进 Android action controls 和规划提示,提升原生移动端自动化流程的稳定性。
Computer 自动化
- Computer desktop automation 新增 Intel packaging。
- Libnut 滚动现在每个 tick 会发出完整的一次 wheel delta。
问题修复
- 修复 Web integration 中
longPress时长被限制在 600ms 的问题。 - 修复 Web 输入框在输入过程中重新渲染时可能丢字符的问题。
- 修复部分环境下 HarmonyOS MCP 因
photon/sharpWASM 初始化失败而无法启动的问题。 - 修复 Computer RDP 首帧空白截图问题。
- 自动修复 Computer phased-scroll helper 缺失可执行权限的问题。
- 补充 elevated Windows 应用输入丢失警告。
- 补充 Computer 自动化的 IPv6 RDP host 支持。
文档更新
- 补充 Azure OpenAI-compatible endpoint 配置说明。
v1.8 - Midscene Studio 桌面端与多平台增强
v1.8 版本带来全新的桌面端应用 Midscene Studio,新增长按/清空输入等多项 API,并对模型规划行为、设备集成、报告系统和 MCP 工具集进行了全面升级。
全新桌面端应用 Midscene Studio(Beta)
Midscene Studio 是一个基于 Electron 的桌面应用,把多平台 Playground 整合进一个原生界面,开箱即用。当前处于 Beta 阶段,可从 latest release 页面 选择 midscene-studio-beta-* 资源下载最新版 Studio,欢迎试用并反馈问题:
- 多平台 Playground:Web、Android、iOS、HarmonyOS、Computer 在同一个 Studio 应用中无缝切换
- 设备交互预览:Android / iOS / HarmonyOS 设备预览支持手动鼠标和触控控制;Web 预览支持实时画面流式渲染
下一步:在 Studio 中录制生成可回放的 Midscene 脚本
我们正在 Studio 中打造一条「录制 → 脚本 → 回放」的闭环工作流:直接在 Studio 里对真实设备进行操作录制,自动生成结构化的 Midscene 脚本,并能即时在 Studio 内重新回放、调试、导出。该能力将在后续版本中陆续开放,敬请期待。
YAML 工 作流增强
- Android runAdbShell timeout:在 JavaScript API 和 YAML 脚本中都支持
timeout选项。详见:Android API、YAML 脚本自动化
新增交互 API
agent.aiLongPress():对指定元素执行长按操作,适用于触发长按菜单等场景。详见 API 文档agent.aiClearInput():清空指定输入框的内容,适合把清空当作独立一步的场景。详见 API 文档
设备与平台集成
- iOS 连接外部 WDA 会话:iOS 支持连接已有的 WebDriverAgent 会话,方便复用外部 WDA 环境
- iOS 设备实现可覆盖:允许使用自定义 iOSDevice 实现,便于深度扩展或定制
- Computer 远程桌面:Computer MCP / CLI 连接工具支持传入 RDP 连接选项,可直接接管远程 Windows 桌面
agentForComputer命名修正:新增agentForComputer作为主推 API,原有agentFromComputer保留为向后兼容别名- Puppeteer CLI viewport 选项:Puppeteer CLI 新增窗口尺寸配置,方便在命令行中指定运行时的浏览器视口
模型与规划行为
- 使用意图与配置槽位分离:模型使用意图与实际解析到的配置槽位分离,多模型 Planning、定位和报告展示更清晰
- 默认关闭原生思考:对于已支持的模型系列,Midscene 默认关闭模型原生思考,以提升执行速度和稳定性。详见:模型原生的思考模式
- 豆包低延迟模式:支持豆包低延迟模式配置方式,可通过
MIDSCENE_MODEL_EXTRA_BODY_JSON={"service_tier":"fast"}开启。详见:常用模型配置 - GLM-5V-Turbo 支持:新增智谱 GLM-5V-Turbo 模型支持。详见:常用模型配置
- 滚动选择规划优化:优化滚动选择(scrollable select)的规划流程,提升复杂下拉与滚轮选择场景的成功率
MCP 与平台 CLI
- 新增
assertMCP 工具:MCP 新增基于aiAssert的断言工具,AI 助手可以直接调用断言能力。详见:MCP 服务 - Assert 支持图片提示:Assert CLI / MCP 工具支持传入图片作为提示词,便于结合参考图进行断言
- 平台 CLI 接受裸初始化参数:各平台 CLI 简化参数传递方式,直接接受平台 Agent 构造参数
- Playwright fixture 透传 Agent 选项:
PlaywrightAiFixture支持透传PlaywrightAgent构造参数,便于复用 fixture 时自定义 Agent 配置
报告系统
- CLI 合并报告:CLI 新增
report-tool merge子命令,可将多份报告文件合并为一个,便于集中查看 - 报告中记录截图工具调用:截图工具(
take_screenshot)的调用现在会在报告中显示,便于排查截图相关问题
Chrome 扩展
- Chrome Web Store 发布自动化:扩展发布到 Chrome Web Store 的流程已自动化,缩短发布周期
问题修复
- 修复
aiAct在动作真正执行前就触发完成状态的问题 - 修复 Insight prompt 在部分场景下优先使用参考图而不是当前截图的问题
- 修复新标签页导航后的 Bridge 连接问题
- 修复 iOS / HarmonyOS / Computer Playground 点击投影问题
- 修复 HarmonyOS 单次调用
autoDismissKeyboard的配置不生效问题 - 修复 Android Playground 视频流内存占用过高的问题
- 修复 Computer 滚动默认距离与 Web 不一致的问题
- 修复部分模型返回归一化 [0,1000] 坐标超出范围的边界问题
- 修复 Bridge 模式下
aiAct选项未被继承的问题 - 修复 Action API 返回值与文档不一致的问题
- 修复
maxTokens与意图模型配置不匹配的问题 - 修复服务端端口探测时未使用
0.0.0.0与实际监听 host 不一致的问题 - 修复
aiAct中 deepThink 标记在报告中丢失的问题 - 修复 iOS 输入时偶发的字符丢失问 题
- 修复 HarmonyOS system action 延迟覆盖逻辑
v1.7 - 灵活处理报告文件、支持 Qwen 3.6 模型
灵活处理报告文件
从 v1.7.0 开始,你可以把报告文件中的原始截图和 JSON 数据提取出来,或者把报告转录为 Markdown,方便其他工具继续消费这些内容。
示例
你可以把报告文件解析为这样一份 Markdown 文件:
进一步,你可以结合 Remotion Skill 解析这份 Markdown 文件,并生成一个个性化的回放视频。
视频生成结果如下:
Midscene 支持通过命令 行工具或者 JavaScript SDK 来解析报告文件,使用方法详见:解析报告文件
新增 Qwen 3.6 模型支持
适配了 Qwen 3.6 模型,可以在 Midscene 中使用最新的通义千问模型。详见:模型配置
Chrome 扩展录制语言设置
Chrome 扩展的录制设置中新增了 YAML 输出语言选项,支持 English、Chinese、Japanese 等多种语言,也可设为 Auto 自动跟随系统语言。
Android / 鸿蒙端改进
- Android 和鸿蒙端新增
terminate操作,支持强制停止指定应用,方便在测试中重置应用状态。详见:Android API、鸿蒙 API - 修复 Android 端在 X/Twitter 上输入时 placeholder 文本被意外保留的问题
- 修复 Android Playground 局域网访问问题
调试体验改进
- 执行日志支持保存到磁盘,便于事后排查问题
- Playground 配置页面保存模型配置时,可运行连通性测试,及时发现配置错误
- Skill CLI 的
run命令支持通过--image参数传入图片作为提示
问题修复
- 修复文件选择器缺失文件时错误提示不清晰的问题
- 修复 CLI 批量运行时错误信息汇总不完整的问题
- 修复 YAML 脚本中
aiScroll缩进格式错误的问题 - 修复
aiLocate元素定位框不准确的问题 - 修复截图失败时缺少降级方案的问题
- 修复部分模型返回空响应时未正确处理的问题
- 修复 CDP 连接模式下标签页复用问题
- 修复
aiQuery在特定数据结构下结果缺失的问题 - 修复 AutoGLM 启动应用时参数格式不正确的问题
- 修复 Playground 中部分下拉菜单显示异常的问题
- 修复模型配置中自定义请求头别名不生效的问题
v1.6 - CDP 连接、双指缩放与多模型增强
v1.6 版本新增了 CDP 浏览器连接模式、跨平台双指缩放手势、GPT-5/GPT-5.4 模型支持,同时对元素定位、报告系统、Chrome 扩展等进行了多项改进。
新增 CDP 浏览器连接模式
支持通过 CDP (Chrome DevTools Protocol) 直接连接已有的浏览器实例进行自动化,无需由 Midscene 启动浏览器,适用于需要复用已有浏览器会话的场景。详见:Skills - Browser Automation、YAML 脚本运行器 - CDP 连接模式
新增跨平台双指缩放手势
在 Android、iOS、鸿蒙等移动端平台支持 pinch/zoom 双指缩放操作,可用于地图缩放、图片预览等场景。详见:API 文档 - aiPinch
新增 GPT-5 / GPT-5.4 与 Codex app-server provider 支持
适配了 GPT-5 和 GPT-5.4 模型,同时新增 Codex app-server provider,开发者可以使用最新的 OpenAI 模型进行视觉理解与自动化操作。详见:模型配置、模型策略
新增模型请求 extraBody 参数
新增 extraBody 配置,开发者可以在模型 API 请求中传递额外的自定义参数,满足特定模型或部署环境的需求。详见高阶配置中的 MIDSCENE_MODEL_EXTRA_BODY_JSON 环境变量
deepThink 更名为 deepLocate
元素定位相关 API 中的 deepThink 参数正式更名为 deepLocate,更准确地表达其"深度定位"的含义。原有 deepThink 参数仍可使用,但建议逐步迁移。详见:API 文档
Skill CLI 与平台工具增强
- Skill CLI 自定义接口:Skill CLI 支持自定义接口,开发者可以更灵活地扩展 Skill 能力。详见:Skills 文档
- 统一 MCP 工具导出:所有平台包(Web、Android、iOS 等)统一导出 MidsceneTools,在 MCP 场景下集成更简单。详见:MCP 服务
- iOS 终止指定应用:iOS 端支持通过 bundleId 终止指定应用,方便测试流程中重置应用状态。详见:iOS API
- CLI 版本查看:CLI 新增版本查看功能,健康检查中显示各包版本信息,便于排查环境问题
任务取消支持
aiAct 新增 AbortSignal 支持,开发者可以在任务执行过程中随时取消操作,避免长时间等待。详见:API 文档 - aiAct
元素定位优化
优化了 deepLocate 的定位流程,在复杂界面下的定位效率和准确率均有提升。
报告与回放改进
- 大型报告加载更快:报告中的截图支持懒加载,包含大量步骤的报告打开速度显著提升
- 移动端报告更直观:报告回放时展示设备外壳,更直观地还原移动端操作场景
- 时序信息更精确:报告中 AI 调用和操作执行的时序信息精度更高,便于定位性能瓶颈
稳定性改进
- AI 规划偶发解析失败时自动重试一次,减少因网络抖动导致的测试中断
- 设备健康检查新增监控器检测,帮助排查无头环境下的显示问题
Chrome 扩展改进
- 修复录制停止后生成脚本时的崩溃问题
- 修复长时间录制时因消息序列化性能问题导致的卡顿
- Bridge 模式新增启停控制按钮,修复确认操作时连接断开的问题
问题修复
- 修复 MCP 服务在某些情况下变成僵尸进程占用 100% CPU 的问题
- 修复页面跳转过程中截图失败未重试的问题
- 修复 Android 端部分场景下文字输入丢失的问题
- 修复
aiNumber在某些格式下提取结果不正确的问题 - 修复
aiScroll不传参数时的调用异常 - 修复使用 AutoGLM 模型时返回/主页操作在不同平台上的兼容问题
- 修复报告中模型名称包含
/时显示异常的问题 - 修复报告回放结束后播放器未正确重置的问题
- 修复 Playground 中 Deep Think 开关未正确读取环境变量配置的问题
- 修复高分辨率设备截图中光标大小显示不正确的问题
- 修复 Linux 环境下 Chrome 启动路径解析失败的问题
- 修复页面包含 iframe 时元素定 位不准确的问题
- 修复鸿蒙端在特定渲染分辨率下屏幕信息解析错误的问题
- 修复 Playground 中取消任务后设备方向显示不正确的问题
v1.5 - HarmonyOS(鸿蒙)自动化支持
v1.5 版本新增了 HarmonyOS 自动化支持,新增 Qwen3.5 和 doubao-seed 2.0 模型支持,同时对桌面自动化、报告系统、Chrome 扩展等进行了多项改进。
新增 HarmonyOS(鸿蒙)自动化支持
新增 @midscene/harmony 包,正式支持 HarmonyOS 平台自动化。Midscene 的自动化能力从 Web、Android、iOS、桌面进一步扩展到鸿蒙生态。
新增 Qwen3.5 与 doubao-seed 2.0 模型支持
适配了通义千问 Qwen3.5 和豆包 doubao-seed 2.0 模型,开发者可以使用更新的模型获得更好的视觉理解效果。
新增通用模型推理配置
新增 MIDSCENE_MODEL_REASONING_EFFORT 环境变量,作为通用的模型推理强度配置参数,方便开发者在不同模型间统一控制推理行为。
桌面自动化改进
- Xvfb 虚拟显示器支持:在无头 Linux 环境下支 持 Xvfb 虚拟显示器,适用于 CI/CD 服务器等无 GUI 环境的桌面自动化
- 连接健康检查:桌面自动化连接时新增健康检查,提升连接可靠性
- macOS 输入优化:macOS 上所有文本输入改用剪贴板方式,避免输入法(IME)导致的输入异常
- 鼠标控制失败检测:自动检测鼠标控制失败并提示管理员权限需求
- 停止执行优化:在停止执行时通过检查 destroyed 状态及时中断截图操作,避免无效等待
截图与显示优化
- 自定义截图缩放:支持自定义截图缩放比例(screenshot shrink),在保证识别准确性的前提下优化性能
- Android 缩放比解耦:将 scalingRatio 从 size() 方法中解耦,提升灵活性
报告系统改进
- 时序信息更详细:报告中的时序信息粒度更细,帮助开发者更精确地分析性能瓶颈
- 合并报告支持目录模式:
mergeReports支持目录模式的报告文件
Chrome 扩展改进
- 新增始终拒绝选项:Chrome 扩展新增"始终拒绝"选项,并修复确认弹窗的竞态条件
- CLI 结束后关闭 Bridge 服务:CLI 命令完成后自动关闭 Bridge 服务器,避免残留进程
问题修复
- 修复表单渲染中 input mode schema 的
z.preprocess处理问题 - 修复 Android 滑动参数传递问题
- 修复 Web 端尺寸计算问题
- 修复
BASE_URL_FIX_SCRIPT闭合标签未被 HTML 解析器识别的问题 - 修复 PlaywrightAgent/PuppeteerAgent 构造函数中 page 为 undefined 的保护处理
v1.4 - Skills:让 AI 助手直接操控你的设备
v1.4 版本推出了 Midscene Skills —— 一套可安装到 Claude Code、OpenClaw 等 AI 助手中的技能包,让 AI 助手直接操控浏览器、桌面、Android 和 iOS 设备。同时本版本还包含独立桌面 MCP 服务、各平台 CLI 独立入口、AI 规划增强等多项改进。
Midscene Skills —— AI 助手的设备操控技能包
Midscene Skills 是一套可安装到 Claude Code、OpenClaw 等 AI 助手中的技能包。安装后,AI 助手可以通过自然语言直接操控浏览器、桌面、Android 和 iOS 设备。
各平台包(@midscene/android、@midscene/ios、@midscene/web 等)现在各自暴露了独立的 CLI 入口,Skills 正是基于此能力构建。
覆盖平台:
- 浏览器(Puppeteer 无头模式)
- Chrome Bridge(用户自己的桌面 Chrome)
- 桌面(macOS、Windows、Linux)
- Android(通过 ADB)
- iOS(通过 WebDriverAgent)
独立桌面自动化 MCP 包
新增 @midscene/computer-mcp 包,将 PC 桌面自动化能力以独立 MCP 服务的形式提供。开发者可以直接在 Cursor、Trae 等支持 MCP 的工具中使用桌面自动化能力,无需额外集成。
详见文档:PC 桌面自动化
Chrome 扩展支持 MCP 后台连接
Chrome 扩展新增后台 Bridge 模式的 MCP 连接支持,可以将桌面浏览器作为 MCP 工具暴露给 AI 助手,进一步打通 MCP 生态。
AI 规划能力增强
aiAct新增deepLocate选项:在执行操作时启用深度定位,提升复杂界面下的元素定位准确率- Swipe 与 DragAndDrop 语义区分:模型现在能更精确地区分滑动和拖放操作,减少手势规划错误
- LLM 规划增加页面导航限制:防止模型在规划时生成不合理的页面跳转操作,提升任务执行稳定性
- macOS 键盘输入改用 AppleScript:提升桌面自动化中键盘输入的稳定性和兼容性
- 鼠标移动操作:新增 cursor move 动作支持
YAML 脚本与文件上传增强
- YAML
aiTap支持fileChooserAccept:在 YAML 脚本中可直接处理文件上传对话框 - 支持目录上传:Web 端支持
webkitdirectory类型的文件夹选择上传
Chrome 扩展 Bridge 模式缓存
Bridge 模式下新增缓存支持,复用已有的 AI 规划结果,减少重复调用,提升调试效率。
Android 改进
- 优化文字输入逻辑,提升输入稳定性
iOS 改进
- Playground 实时画面流:iOS Playground 新增实时画面展示,调试时可实时预览设备屏幕。
v1.3 - PC 桌面自动化支持
v1.3 版本带来了全新的 PC 桌面自动化能力,大幅优化了 Android 截图性能,并对报告系统和稳定性进行了多项改进。
全新 PC 桌面自动化支持
Midscene 现在支持 PC 桌面自动化,在 Windows、macOS 和 Linux 上驱动原生键盘和鼠标。无论是 Electron、Qt、WPF 还是原生桌面应用,都可以通过视觉模型方案进行自动化。
核心能力:
- 鼠标操作: 单击、双击、右键、移动鼠标、拖放
- 键盘输入:文本输入、组合键(Cmd/Ctrl/Alt/Shift)
- 屏幕截图:捕获任意显示器的截图
- 多显示器支持:同时操作多个显示器
使用方式:
- 支持使用 Computer Playground 零代码试用
- 支持 JavaScript SDK 脚本编写
- 支持 YAML 格式的自动化脚本和命令行工具
- 支持 HTML 报告回放所有操作路径
详见文档:PC 桌面自动化
Android 截图性能大幅提升
开启 Scrcpy 截图模式后,截图耗时从原来的 500–2000ms 降低到 100–200ms,显著提升 Android 自动化的响应速度,特别适用于远程设备调试和高帧率场景。
详见文档:Scrcpy 截图模式
深度思考模式增强
aiAct 的深度思考(deepThink)模式现在不仅用于元素定位,还能优化整体任务规划,在复杂表单、多步骤流程等场景下获得更好的执行效果。
报告体验优化
- 时间线折叠:新增折叠切换按钮,方便查看长任务流程
- 时间单位改为秒:更易读
- 步骤同步高亮:侧边栏步骤高亮与播放器回放实时同步
- 内存占用降低:优化报告生成机制,有效降低运行时内存占用
移动端改进
Android
- 特殊字符和 Unicode 输入更稳定
- Launch 操作时应用包名匹配更宽松(忽略大小写和空格)
- 部分设备截图异常时自动重试
iOS
- Bundle ID 匹配更宽松(忽略大小写和空格)
Web 自动化改进
- 修复 Puppeteer 在非活动标签页截图时可能挂起的问题
- 修复 headed 模式下窗口尺寸不准确的问题
shareBrowserContext模式下支持保留 localStorage 和 sessionStorage- Playwright 多项目配置下,报告中自动区分不同浏览器的测试用例
- 修复 YAML 脚本中 input 操作的
typeOnly模式不生效的问题
其他改进
- 图片处理性能提升
- SVG 图标缓存问题修复
- Playground 模型配置错误现在会显示具体原因
v1.2 - 智谱 AI 开源模型支持与文件上传支持
v1.2 版本中我们加入了对智谱 AI 开源模型的支持,新增了文件上传功能,修复了多个影响使用体验的问题,让自动化测试 更加可靠。
新增智谱 AI 开源模型支持
智谱 GLM-V 视觉模型
- 智谱 GLM-V 系列模型是智谱 AI 推出的开源视觉模型,有多种参数的版本,支持云端部署和本地部署。
- 详见:GLM-V 模型配置
智谱 AutoGLM 移动端自动化模型
- 智谱 AutoGLM 是智谱 AI 推出的开源移动端自动化模型,能够根据自然语言指令理解手机屏幕内容,并结合智能规划能力生成操作流程完成用户需求。
- 详见:AutoGLM 模型配置
文件上传功能上线
在 Web 自动化场景中,文件上传是一个常见需求。v1.2 版本为 web 端新增了文件上传能力,支持通过自然语言操作文件输入框,让表单自动化更加完整。
详见:aiTap 文件上传
缓存机制优化
修复了缓存在 DOM 变更后未能及时更新的问题。当页面 DOM 发生变化导致缓存验证失败时,系统现在会自动更新缓存,避免因使用过期缓存而导致的 操作失败,提升自动化脚本的稳定性。
报告与 Playground 改进
深度思考标记优化
- 修复了
.aiAct()方法使用深度思考(deepThink)时,报告中未正确显示标记的问题。现在你可以在报告中清晰地看到哪些操作使用了深度思考能力 - 优化了报告中 summary 行的样式,提升整体可读性
Playground 稳定性提升
- 修复了 Playground 在使用 agentFactory 模式时,未在
getActionSpace中正确创建 agent 实例的问题,确保各种使用模式下的正常运行 - 优化了 Playground 输出展示,防止超长的 reportHTML 内容影响界面显示
模型配置更新
针对通义千问(Qwen)模型的深度思考功能,更新了相关配置参数,确保与模型最新版本的兼容性。
v1.1 - aiAct深度思考与可扩展的 MCP SDK
v1.1 版本在模型规划能力与 MCP 扩展性上实现优化,让复杂场景的自动化更稳定,同时为企业级 MCP 服务部署提供更灵活的方案。

