2026/1/8 7:45:38
网站建设
项目流程
php网站模板带后台,滁州网站开发,北京网站优化服务商,如何做美食网站设计1. 背景
智谱开源了基于AutoGLM构建的Phone Agent#xff0c;短短两天star就到了6.7K#xff0c;只需要输入帮我在美团上搜索下附件的火锅店#xff0c;Phone Agent即可自动操作手机#xff0c;打开美团#xff0c;输入火锅#xff0c;点击搜索等操作一气呵…1.背景智谱开源了基于AutoGLM构建的Phone Agent短短两天star就到了6.7K只需要输入帮我在美团上搜索下附件的火锅店Phone Agent即可自动操作手机打开美团输入火锅点击搜索等操作一气呵成。和上周爆火的字节AI手机有异曲同工之妙。抱着浓厚的兴趣第一时间研读并上手实战了一番遂记录下部署过程源码分析以及调试运行。2.功能介绍Phone Agent能够以多模态方式理解手机屏幕内容并通过自动化操作实现用户的请求任务。项目通过ADB(Android Debug Bridge)来控制设备以视觉语言模型进行屏幕感知再结合智能规划能力生成并执行操作流程。用户输入一句话打开B站搜一下 one little finger儿歌并收藏一下Phone Agent即可自动解析意图、理解当前界面、规划下一步动作并完成整个流程。系统内置敏感操作确认机制并支持在登录或验证码场景下进行人工接管。支持远程ADB调试能力可通过Wifi或者网络连接设备实现灵活的远程控制与开发。3. 部署教程本人部署环境如下手机华为P70采用ADB中的USB连接方式windows 10操作系统采用vllm进行部署显卡为A40 48G模型为Autoglm-Phone-9B(模型加载需20G显存执行任务时占用42G显存)3.1 Python环境Python版本: 3.12.11uv作为包管理3.2 ADB安装下载并安装官方ADB安装包选择并下载platform-tools-latest-windows.zipADB加入到环境变量PATH中例如D:\ws\学习\Phone Agent\platform-tools3.3 设备启动开发者模式和USB调试启用开发者模式: 华为P70位置为设置-关于手机-HarmononyOS版本连续点击7次左右直到弹出开发者模式已启用启用USB调试: 开发者模式开启后在设置-系统和更新-开发人员选项-USB调试勾选启用。设备检测: 使用USB连接手机连接方式选传输文件弹出是否允许USB调试点击确定。然后在CMD窗口执行adb devices查看设备列表展示如下内容即说明安装成功。3.4 安装ADB Keyboard下载输入法安装包ADBKeyboard.apk并在CMD中执行adb install ADBKeyboard.apk。安装完成后需要在设置-系统和更新-语言和输入法-ADB Keyboard勾选启用。3.5 模型部署安装依赖: pip install -r requirements.txt下载模型: 在Model Scope中采用git clone下载模型AutoGLM-Phone-9B模型启动nohup python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --allowed-local-media-path ~/media \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs {\max_pixels\:5000000} \ --max-model-len 25480 \ --chat-template-content-format string \ --limit-mm-per-prompt {\image\:10} \ --model /path/AutoGLM-Phone-9B \ --host 172.16.0.32 \ --port 9000 logs/vllm_9000.log 21 测试模型部署:python scripts/check_deployment_cn.py --base-url http://172.16.0.32:9000/v1 --model autoglm-phone-9b #返回结果即模型部署成功 think用户想要比较这个洗发水在京东和淘宝上的价格然后选择最便宜的平台下单。当前在小红书app上显示的是一个关于LUMMI MOOD洗发水的帖子。 我需要 1. 先启动京东app搜索这个洗发水 2. 查看京东的价格 3. 再启动淘宝app搜索这个洗发水 4. 查看淘宝的价格 5. 比较价格后选择最便宜的京东或淘宝下单 首先我需要从当前的小红书界面退出然后启动京东app。/think answerdo(actionLaunch, app京东)4. 整体流程首先用户输入任务: 美团搜索附近火锅第一次执行任务时创建system_message并且截取当前手机屏幕图片将用户问题及截屏图作为输入调用模型模型输出思考过程及执行动作启动美团然后采用adb进行启动美团app然后将美团首页截图并调用模型模型分析搜索框位置并执行文本输入文本输入完成后再截图模型识别搜索按钮并进行点击完成任务。完整的过程记录如下Task: 美团搜索附近火锅 1. 思考过程: -------------------------------------------------- 用户想要在美团搜索附近的火锅。我需要 1. 启动美团应用 2. 在美团中搜索附近火锅 首先我需要启动美团应用。根据允许的应用列表美团是可用的应用之一。 当前屏幕显示的是系统桌面我可以看到各种应用图标。我应该使用Launch功能直接启动美团应用。 -------------------------------------------------- 执行动作: { action: Launch, app: 美团, _metadata: do } 2. 思考过程: -------------------------------------------------- 好的美团应用已经打开了。我可以看到美团的主页面顶部有一个搜索框显示京都念慈庵。我需要点击这个搜索框 然后输入附近火锅进行搜索。 搜索框位于屏幕顶部大约在坐标 (389, 114) 附近。 -------------------------------------------------- 执行动作: { action: Tap, element: [ 389, 114 ], _metadata: do } 3. 思考过程: -------------------------------------------------- 好的搜索框已经被激活了我可以看到键盘出现了搜索框中显示附近好吃的火锅。现在我需要输入附近火锅来搜索 。根据指南Type操作会自动清除现有文本所以我直接输入即可。 -------------------------------------------------- 执行动作: { action: Type, text: 附近火锅, _metadata: do } 4. 思考过程: -------------------------------------------------- 很好我已经输入了附近火锅现在可以看到搜索框中显示附近火锅并且下方出现了相关的搜索建议包括 - 附近好吃的火锅店 - 附近火锅 - 附近火锅店推荐 - 附近自助火锅 以及一些具体的火锅店信息如杨家火锅滨湖店、丽清大别山鹅火锅等。 现在我需要点击搜索按钮来执行搜索。搜索按钮在右上角黄色按钮坐标大约在(867, 129)。 -------------------------------------------------- 执行动作: { action: Tap, element: [ 867, 129 ], _metadata: do } 5. 思考过程: -------------------------------------------------- 太好了搜索结果已经显示出来了。我可以看到附近火锅的搜索结果包括 1. 许府牛火锅(合肥悦方店) - 评分4.3963条评论¥50/人距离1.9km 2. 2014海鲜烧烤·涮羊肉·羊蝎子... - 评分4.9572条评论¥78/人距离2.4km 3. 浪里寻·臻牛养生牛肉火... - 评分5.04.9万条评论¥63/人距离3.4km 页面显示了多个筛选选项全部、外卖、团购、地点、笔记等。当前显示的是全部选项卡。 任务已经完成我成功在美团搜索了附近的火锅店并显示了搜索结果。 -------------------------------------------------- 执行动作: { _metadata: finish, message: 任务完成我已经成功在美团搜索了附近的火锅店。搜索结果显示了多家附近的火锅店包括\n\n1. **许府牛火锅(合肥悦方店)** - 评分4.3分963条评论人均¥50距离1.9km\n2. **2014海鲜烧烤·涮羊肉·羊蝎子** - 评分4.9分572条评论人均¥78距离2.4km \n3. **浪里寻·臻牛养生牛肉火** - 评分5.0分4.9万条评论人均¥63距离3.4km\n\n页面还提供了多种筛选选项全部、外卖、团购、地点等你可以根据需要选择合适的筛选条件来查看更多火锅店 信息。 } 5. 总结与思考(1) Phone Agent总体的思想是基于用户的输入以及每一步手机的截屏让模型判断当前所处任务的环节以及下一步的执行动作。(2) 所有的执行环节均由adb操作相应指令包括启动app、单击、双击、滑动、后退、文本输入等。(3) 作为学习参考项目整体的交互流程还是相对冗余的简单的4步操作模型每次都需要分析判断因此耗时很长。(4) 如果有新app需要高效地自动执行该如何保障模型的识别准确率学习资源推荐如果你想更深入地学习大模型以下是一些非常有价值的学习资源这些资源将帮助你从不同角度学习大模型提升你的实践能力。一、全套AGI大模型学习路线AI大模型时代的学习之旅从基础到前沿掌握人工智能的核心技能因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取二、640套AI大模型报告合集这套包含640份报告的合集涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师还是对AI大模型感兴趣的爱好者这套报告合集都将为您提供宝贵的信息和启示因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取三、AI大模型经典PDF籍随着人工智能技术的飞速发展AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型如GPT-3、BERT、XLNet等以其强大的语言理解和生成能力正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取四、AI大模型商业化落地方案作为普通人入局大模型时代需要持续学习和实践不断提高自己的技能和认知水平同时也需要有责任感和伦理意识为人工智能的健康发展贡献力量。