学习 字节UI TARS GUI Agent
网上针对的资料还是非常多的,主要是围绕字节的论文做一些分析,这个其实还是非常重要的,了解该模型的实际原理,这里做动手的就不详细描述了。我们主要从实际的部署上看看
我们先看看UI TARS和UI TARS desktop 查了很多资料有点类似claude 不过这个是闭源模型
所以无法本地进行部署
先看看github UI TARS
https://github.com/bytedance/UI-TARS-desktop/blob/main/docs/quick-start.md
可以进行下载最新版本的Ui tars desktop
前端的客户端可以正常下载后,后面就是如何在本地部署服务端的,可以参考如下blog中的做法
直接下载 docker 和gguf后的模型 可以成功的运行
在低显存环境下运行UI-Tars 1.5 7B模型并在UI-Tars-Desktop上使用_ui-tars-7b本地部署-CSDN博客
docker run -d -it --name ui-tars --gpus all -v /home/test/ui-tars/models:/models -p 8000:8000 ghcr.io/ggml-org/llama.cpp:server-cuda --port 8000 --host 0.0.0.0 -m /models/UI-TARS-1.5-7B-GGUF/UI-TARS-1.5.gguf --mmproj /models/UI-TARS-1.5-7B-GGUF/mmproj-model-f16.gguf -a ui-tars-1.5-7B --api-key xxxx -c 228000 --threads 10
客户端的设置 如下:
不过效果很一般,这里可能是有两个原因 1 是因为本身模型开源的是没有商业的好,2另外一种是量化后的gguf模型不行