12月9号,智谱在他们的微信公众号上宣布,他们的核心AI Agent模型AutoGLM正式开源了。
这个AutoGLM的目标是让AI真正掌握“使用手机”,不仅仅是说说而已。它能帮助用户在外卖App上完成从选菜到下单的整个过程;在云手机中处理通知、点赞和评论等;在销售、客服和考勤等场景中,自动化完成那些重复的操作。
智谱透露,AutoGLM预计将在2024年10月25日发布,业内普遍认为它是第一个具备“Phone Use”(手机操作)能力的AI Agent。
到了2025年,智谱推出了AutoGLM 2.0,这一版本验证了强化学习的规模扩展理论,并提出了MobileRL、ComputerRL和AgentRL算法。通过让AutoGLM在数千个虚拟设备环境中同时进行强化学习,这一改进提升了Agent的准确性与泛化能力。
在AutoGLM的开源页面上,大家可以看到,它支持微信、微博、淘宝、京东、美团、抖音、小红书等50多款主流中文应用,能够完成打开应用、输入文本、长按、双击等多种操作。而在处理像登录和输入验证码这些敏感操作时,它也会及时发起人工接管请求。
智谱是一家国内领先的AI大模型公司,由清华大学的团队孵化而成,致力于开发新一代的认知智能大模型。之前,他们推出了对话模型ChatGLM,开源了单卡版的ChatGLM-6B,并且打造了一系列AIGC模型及相关产品,包括AI提效助手智谱清言(chatglm.cn)、高效代码模型CodeGeeX、多模态理解模型CogVLM和文生图模型CogView等。
最近,人工智能技术逐渐向更实用的智能体Agent方向发展。行业内希望AI不仅能在聊天框内与用户互动,提供想法和建议,还能将这些建议转化为实际行动。
不过,在实际应用中,用户的隐私保护和网络安全问题依然令人担忧。以手机智能体为例,将App操作交给AI需要用户授权屏幕读取权限,这让人担心个人信息可能会被泄露,或者被一些不法分子利用。
在12月1号,豆包发布了技术预览版的豆包手机助手,并与中兴通讯联合推出了工程样机nubia M153,随后引发了市场的广泛关注,中兴通讯的股价当天也涨停。
但很快,就有用户反映在使用豆包手机助手时,部分App会出现异常退出甚至无法登录的情况。业内人士分析,这可能与豆包手机助手需要系统级权限有关。
豆包在后续的声明中也确认,确实需要用户主动授予INJECT_EVENTS系统级权限(或者类似的无障碍权限),才能提供手机操作服务。
在隐私保护方面,豆包表示,虽然手机助手需要读取屏幕来完成任务,但不会将任何用户的屏幕内容存储在云端,也不会将相关内容用于模型训练,以确保用户的隐私安全。
正因为存在隐私保护的争议,加上当前手机的算力难以满足AI Agent模型的需求,智谱的AutoGLM选择不完全在手机端部署,而是将端侧模型放在云端运行。智谱认为,这样可以让AI Agent的每一个动作都能够被回放、审计和干预,从而确保敏感数据的隔离。
业内人士认为,现在的Agent技术仍在探索阶段,如何在使用体验与隐私安全之间找到平衡,仍需要行业共同努力。开源等方式或许能帮助加速技术的共同研发。

➤
➤
➤
➤
