前几天看到两个项目，有点被震到了。

一个是 Agent S，Simular AI 出的开源 AI Agent 框架，在 OSWorld 基准测试里跑出了 72.6%，直接超越了人类基准线。

另一个是 TuriX-CUA，TurixAI 出的，叫「AI 驱动的数字牛马」，在 OSWorld 上跑到 64.2% 排名第三，在自家 macOS 基准上更是达到了 80%。

两个都是让 AI 像人一样操作电脑的开源框架，都开源，都免费对个人和科研使用。两个都挺能打的，但路子不太一样。

今天就把这两个放一起聊聊。

先说 Agent S。

这个项目的迭代速度相当离谱。

2024 年 10 月放出 S1，标题就很有野心——「An open agentic framework that uses computers like a human」。当时大家其实没太当回事，2024 年下半年 AI Agent 项目实在太多了。

2025 年 4 月，S2 发布，在 OSWorld、WindowsAgentArena、AndroidWorld 三个基准上刷新了 SOTA，超过了 OpenAI 的 CUA 和 Anthropic 的 Claude 3.7 Sonnet Computer Use。拿了 ICLR 2025 Agentic AI for Science Workshop 的 Best Paper Award。

2025 年 10 月，S3 发布。72.6%，超越人类基准。

不是靠更复杂的架构。Agent S3 在 100 步设置下单独跑是 66%，加上一个叫 Behavior Best-of-N 的技术，直接推到 72.6%。

更骚的是，这个成绩不是「偏科生」。在 WindowsAgentArena 上，从 50.2% 加上 bBoN 推到 56.6%。在 AndroidWorld 上，从 68.1% 推到 71.6%。zero-shot 泛化能力是真的强，不是专门在 OSWorld 上刷分的。

图片

核心架构是双模型驱动：主模型负责推理和任务分解，UI-TARS grounding 模型负责视觉定位——理解屏幕上是什么、按钮在哪，然后把动作指令转化成实际的点击坐标。

不是瞎操作的，是真的有眼睛。

再说 TuriX。

TuriX 的 slogan 我很喜欢——「AI 驱动的数字牛马」。描述你的任务给你的电脑，以启动你的数字牛马。

跟 Agent S 的路子不太一样。TuriX 走的是多模型协作路线，把 Agent 拆成了 brain、actor、memory、planner 四个角色：

brain 负责理解任务和规划，actor 负责具体操作，memory 负责记忆上下文，planner 负责更高层的任务分解（可选开启）。

配置很灵活，你想用自己的模型？改 config.json 就行。支持 Ollama 本地部署，也支持 Turix 自家的 API。brain 可以换，actor 可以换，memory 可以换。不是一个铁板一块的系统，而是可以拆开拼的模块。

图片

而且这玩意对 macOS 的优化相当深。在他们自建的 OSWorld 风格 Mac 基准测试里，成功率 80% 以上。在完整的 OSWorld Linux 基准上也有 64.2%，排名第三——值得注意的是，他们根本没有用任何 Linux 训练数据。

还有一个挺有意思的点——TuriX 走的是 MCP（Model Context Protocol）路线，可以接入 Claude for Desktop。这意味着你可以用 Claude 调度 TuriX，Claude 负责思考和对话，TuriX 负责真正操作你的桌面。

TuriX 还支持 Skills（Markdown 手册），Planner 根据名称和描述选择技能，Brain 使用完整技能内容来指导每一步。这有点像给 Agent 装插件，让它能处理更垂直的场景。

2026 年 4 月还发布了 SuperPower 3.0，把 CUA 能力和 CLI 能力融合了，新增了 TuriX-work（办公场景）和 TuriX-code（开发场景）。

图片

两个项目都挺有意思，但路数不同。

Agent S 更像一个精干的单一模型系统，靠 scaling 和 Behavior Best-of-N 把性能推到极致。适合追求极限性能、愿意自己搭技术栈的人。

TuriX 更像一个模块化的多模型协作系统，四种角色可以拆开配置，MCP 支持意味着可以跟现有的 AI 工具链结合。适合想快速上手、或者想跟 Claude 等现有工具集成的人。

安装门槛都不高。Agent S 直接 pip install gui-agents，配置好 API Key 和 grounding 模型就能跑。TuriX 也是 pip install -r requirements.txt，改改 config.json 就能用。都支持 macOS、Windows、Linux。

从数据来看，Agent S 的 OSWorld 72.6% 目前是最高的，TuriX 的 64.2% 排第三。但 TuriX 在 macOS 上的 80% 也很能打，而且它的多模型架构在某些场景下可能更灵活。

开源这件事本身就已经很良心了。这种级别的研究项目，闷声发论文不香吗？放出来大家一起玩，一起踩坑，一起推进——这个生态在慢慢成型。

如果你想试试，这两个项目的地址：

Agent S：https://github.com/simular-ai/Agent-S

TuriX：https://github.com/TurixAI/TuriX-CUA

TuriX 还支持 OpenClaw 技能包，在 https://clawhub.ai/Tongyu-Yan/turix-cua 可以找到，装上就能用。

说实话，这两个项目让我对「AI 操作电脑」这件事的预期上了一个台阶。之前觉得这就是个 demo 级别的玩具，现在感觉真的可以帮人类省点重复劳动了。

当然，隐私和安全问题是需要考虑的——毕竟这些 Agent 真的要操控你的桌面。个人电脑上跑跑测试案例还行，生产环境用的话，还是建议看清楚权限范围。

但方向是对的。

好了，以上就是今天的分享。

如果你觉得这篇文章有帮助，随手点个赞、在看、转发三连吧。如果想第一时间收到推送，也可以给我个星标。

谢谢你看我的文章，我们，下次再见。

/ 作者：卡兹克
/ 投稿或爆料，请联系邮箱：onelovewiseoutlook.com