Microsoft正式打开UFO²,Windows桌面进入“ Agentos E
发布时间:2025-05-08 10:52
本文的第一本是Microsoft DKI团队的Chaoyun Zhang。他是UFO的主要开发人员,第一个Windows平台代理系统。该项目转向了Github,并获得了近7,000颗恒星,这引起了社区的广泛关注。同时,他还是GUI代理审查的一篇文章的主要作者,其中有90多页,系统地对该领域的基本发展和技术框架进行了分类。对其他项目的主要贡献也来自Microsoft DKI团队,并具有深入的研究和工程背景。纸张标题:UFO²:桌面代理纸张地址:https://arxiv.org/abs/2504.14603开源代码:https://github.com/icrosoft/microsoft/microsoft/mmicrosoft/project文档文档:https:/https://microsoft.github.io/ graphistal interface(Graphillialial interface), Pakihuman-Computer和Office Automation的生态系统。但是,由自动机器人的机器人过程表示的传统自动化工具N(RPA)通常依靠固定的脚本进行操作,并且存在明显的问题,例如敏感界面的变化,高维护成本和差的用户体验。同时,尽管近年来出现的基于大语言模型(LLM)的计算机代理(CUA)表现出了灵活的潜在自动化,但大多数解决方案仍在证明概念或原型阶段,并且缺乏整合操作系统的能力,从而使其在实际的工作环境中导致其大规模应用。为了响应该行业的痛点,作为上一代纯Guidesktop代理UFO的全面毕业版本,Microsoft Research Team正式开放了该行业台式机代理的第一个平台的资源,其中包括Windows操作系统 - UFO²Agentos。该平台不仅继承了不明飞行物的强大GUI操作功能,而且对系统级别进行了深入的优化。CH显着提高了Windows环境的操作和稳定性的效率。图-1:UFO²的传统CUAS和AgentosUFO²比较:Deep OS桌面代理UFO²不是传统意义上的桌面自动化工具,但是代理的框架已深入整合到操作系统中。它是第一次使用概念“代理”设计的,完全解决了主要问题,例如传统代理接口之间的脆弱参与度和用户经验中断。 UFO²引入了多个架构:中央宿主制度负责对语言工作和子任务衰减的自然评估,而专用的Appagent则提供了自定义的API访问,了解每个应用程序的拦截和联系功能。两者一起工作,它实现了任务的准确分解和灵活的实施,并支持交叉应用活动,从而大大提高了可伸缩性ND实施系统效率。具体而言,UFO²在以下基本维度中取得了突破,该维度在Windows系统中充分利用了深入集成:统一的GUI-API混合实现API实现的传统方法是准确有效的,但要求相应的接口才能实现特定应用程序,并具有限制范围;虽然GUI实施过程更加通用和灵活,但是步骤更长,并且容易进行接口更改。 UFO²的创新性将API和GUI实现的两个范式结合在一起,并使用单个Puppeteer接口来实现两种实现模式的动态选择。随着任务的实际实施,UFO²可以是明智的,以确定API的实现是否优先提高基于操作环境和任务特征的速度和准确性,或者在API不够的情况下灵活地转向GUI操作NT完成任务,从而实现了效率和大学的最佳平衡,以及工作和工作的显着改善,工作的工作以及工作的工作以及工作的工作以及福祉。图-2:GUI -API操作的混合统一接口混合控制感知UFO²与Windows系统实现了Deceeps的集成。通过将Windows本地UI自动化(UIA)接口与Omnipars-V2中的视觉识别的高级模型合并,可以实现混合发现和准确的接口元素感知。这种方法不仅可以解决传统视觉识别中准确性不足的问题,而且还解决了完全取决于API检测范围的瓶颈。在应用程序的实际情况下,尤其是在界面复杂并且要自定义或稳定控制的情况下,UFO²的理解的混合能力有效地提高了控制CONT的准确性和职业ROL,从而确保任务实施的稳定性和稳定性。图-3:基于UIA API和Omniparers -V2UFO²的持续增强动态集成知识使用搜索人质(RAG)的技术来生成连续的知识库,并动态地包括外部应用程序文档和历史记录日志,以便代理可以获得最新的应用程序使用方法和最佳实时时间技能。该技术可确保代理可以在启动新操作或升级应用程序版本后快速适应变化并保持良好的实现。这样,UFO²可以实现对复杂任务的准确理解和实施,从而减少了由非知识更新引起的操作失败。此外,代理商还可以利用历史性的成功实施经验来提高完成任务的准确性和效率,并真正实现“您使用它越多,就越强大”。通过实时接口。允许代理完成复杂的掩盖,任务将更好,并提高整体效率。图5:教学多步实施和验证未付费的PIP虚拟桌面环境UFO²引入了现代的照片图片(PIP)虚拟桌面技术,以通过对民间桌面服务的深度扣押来创建轻巧,独立且安全的虚拟桌面环境。代理执行的所有任务都是在此环境中执行的,避免了与用户主桌面的任何联系。用户可以继续执行其他重要任务,因为代理执行复杂的任务,而不必担心代理商的活动会影响其桌面操作。这种设计极大地改善了用户的接受度和智能自动化的实际经验。图6:UFO²图片中的图片(PIP)实用测试:20+主流应用测试在严格的基准测试中全方位的铅测试,UFO²在20多个基本的基本中得到了充分验证Windows应用程序(例如Excel,Outlook,Edge等):仅使用GPT-4O,成功率增加了10%以上的10%,而10%为10%,而10%比较比较行业领导的OpenAI运营商。特别值得强调的是,UFO²的多步技术将大通行模型(LLM呼叫)的频率降低到51.5%,从而大大提高了对系统的工作和效率的响应速度。照片 - 7:将实验结果与完整的开放资源进行比较,该资源合作了新的桌面情报,Microsoft Team的New Era在社区中打开了所有代码和详细的UFO²文档,并欢迎来到Thosedeveloper加入CO -Construction and Change。
购买咨询电话
400-123-4567