一个是 Agent S,Simular AI 出的开源 AI Agent 框架,在 OSWorld 基准测试里跑出了 72.6%,直接超越了人类基准线。
另一个是 TuriX-CUA,TurixAI 出的,叫「AI 驱动的数字牛马」,在 OSWorld 上跑到 64.2% 排名第三,在自家 macOS 基准上更是达到了 80%。
两个都是让 AI 像人一样操作电脑的开源框架,都开源,都免费对个人和科研使用。两个都挺能打的,但路子不太一样。
今天就把这两个放一起聊聊。
先说 Agent S。
这个项目的迭代速度相当离谱。
2024 年 10 月放出 S1,标题就很有野心——「An open agentic framework that uses computers like a human」。当时大家其实没太当回事,2024 年下半年 AI Agent 项目实在太多了。
2025 年 4 月,S2 发布,在 OSWorld、WindowsAgentArena、AndroidWorld 三个基准上刷新了 SOTA,超过了 OpenAI 的 CUA 和 Anthropic 的 Claude 3.7 Sonnet Computer Use。拿了 ICLR 2025 Agentic AI for Science Workshop 的 Best Paper Award。
2025 年 10 月,S3 发布。72.6%,超越人类基准。
不是靠更复杂的架构。Agent S3 在 100 步设置下单独跑是 66%,加上一个叫 Behavior Best-of-N 的技术,直接推到 72.6%。
更骚的是,这个成绩不是「偏科生」。在 WindowsAgentArena 上,从 50.2% 加上 bBoN 推到 56.6%。在 AndroidWorld 上,从 68.1% 推到 71.6%。zero-shot 泛化能力是真的强,不是专门在 OSWorld 上刷分的。
图片
核心架构是双模型驱动:主模型负责推理和任务分解,UI-TARS grounding 模型负责视觉定位——理解屏幕上是什么、按钮在哪,然后把动作指令转化成实际的点击坐标。
不是瞎操作的,是真的有眼睛。
再说 TuriX。
TuriX 的 slogan 我很喜欢——「AI 驱动的数字牛马」。描述你的任务给你的电脑,以启动你的数字牛马。
跟 Agent S 的路子不太一样。TuriX 走的是多模型协作路线,把 Agent 拆成了 brain、actor、memory、planner 四个角色:
brain 负责理解任务和规划,actor 负责具体操作,memory 负责记忆上下文,planner 负责更高层的任务分解(可选开启)。
配置很灵活,你想用自己的模型?改 config.json 就行。支持 Ollama 本地部署,也支持 Turix 自家的 API。brain 可以换,actor 可以换,memory 可以换。不是一个铁板一块的系统,而是可以拆开拼的模块。
图片
而且这玩意对 macOS 的优化相当深。在他们自建的 OSWorld 风格 Mac 基准测试里,成功率 80% 以上。在完整的 OSWorld Linux 基准上也有 64.2%,排名第三——值得注意的是,他们根本没有用任何 Linux 训练数据。
还有一个挺有意思的点——TuriX 走的是 MCP(Model Context Protocol)路线,可以接入 Claude for Desktop。这意味着你可以用 Claude 调度 TuriX,Claude 负责思考和对话,TuriX 负责真正操作你的桌面。
TuriX 还支持 Skills(Markdown 手册),Planner 根据名称和描述选择技能,Brain 使用完整技能内容来指导每一步。这有点像给 Agent 装插件,让它能处理更垂直的场景。
2026 年 4 月还发布了 SuperPower 3.0,把 CUA 能力和 CLI 能力融合了,新增了 TuriX-work(办公场景)和 TuriX-code(开发场景)。
图片
两个项目都挺有意思,但路数不同。
Agent S 更像一个精干的单一模型系统,靠 scaling 和 Behavior Best-of-N 把性能推到极致。适合追求极限性能、愿意自己搭技术栈的人。
TuriX 更像一个模块化的多模型协作系统,四种角色可以拆开配置,MCP 支持意味着可以跟现有的 AI 工具链结合。适合想快速上手、或者想跟 Claude 等现有工具集成的人。
安装门槛都不高。Agent S 直接 pip install gui-agents,配置好 API Key 和 grounding 模型就能跑。TuriX 也是 pip install -r requirements.txt,改改 config.json 就能用。都支持 macOS、Windows、Linux。
从数据来看,Agent S 的 OSWorld 72.6% 目前是最高的,TuriX 的 64.2% 排第三。但 TuriX 在 macOS 上的 80% 也很能打,而且它的多模型架构在某些场景下可能更灵活。
开源这件事本身就已经很良心了。这种级别的研究项目,闷声发论文不香吗?放出来大家一起玩,一起踩坑,一起推进——这个生态在慢慢成型。
如果你想试试,这两个项目的地址:
Agent S:https://github.com/simular-ai/Agent-S
TuriX:https://github.com/TurixAI/TuriX-CUA
TuriX 还支持 OpenClaw 技能包,在 https://clawhub.ai/Tongyu-Yan/turix-cua 可以找到,装上就能用。
说实话,这两个项目让我对「AI 操作电脑」这件事的预期上了一个台阶。之前觉得这就是个 demo 级别的玩具,现在感觉真的可以帮人类省点重复劳动了。
当然,隐私和安全问题是需要考虑的——毕竟这些 Agent 真的要操控你的桌面。个人电脑上跑跑测试案例还行,生产环境用的话,还是建议看清楚权限范围。
但方向是对的。
好了,以上就是今天的分享。
如果你觉得这篇文章有帮助,随手点个赞、在看、转发三连吧。如果想第一时间收到推送,也可以给我个星标。
谢谢你看我的文章,我们,下次再见。
/ 作者:卡兹克
/ 投稿或爆料,请联系邮箱:onelovewiseoutlook.com