开源社区

卡帕西预言成真！华人团队开源全AI操作系统

卡帕西预言成真！华人团队开源全AI操作系统

分类：开源社区
大小：未知
支持：

发布： 2025-07-16 00:29:24
人气： 12
评论： 0

标签：

开源软件

应用介绍

　　在他看来，如今和大语言模型（LLM）聊天就像在使用80年代的电脑终端，还没有用上图形用户界面（GUI）。

　　而在未来，随着AI能力逐渐扩展，GUI将是为每个用户量身打造的流动（fluid）、魔幻（magical）、可交互（ephemeral）的2D画布，就像你专属的操作系统，实时重绘、实时响应。

　　受此启发，5位来自滑铁卢大学和加拿大国家研究委员会的研究人员提出NeuralOS，并打造出了一个可试玩的初版演示demo。

　　具体而言，不管用户操作多复杂（如现在打开了哪些软件、鼠标停在哪个位置、光标是箭头还是输入状态等），RNN模块都能跟着“记”下来，保证后续反应不脱节。

　　然后Renderer渲染器根据前面记下的状态和用户操作（如点击了“浏览器”图标），直接生成对应的屏幕画面（包括窗口弹出、图标变色、菜单展开这些视觉变化）。

　　为了让它学会模拟操作系统，他们给它准备了一大份“学习材料”——全是Ubuntu XFCE系统（Linux轻量级桌面系统）的操作录像。

　　一类是随机生成的用户交互。比如乱点鼠标、随便拖动窗口、无规律敲击键盘，相当于让AI见识“各种可能性”，避免只认固定操作。

　　另一类是由AI Agent生成的真实交互。这里让AI Agent来模拟人类的正常行为，比如打开浏览器、输入文字、关闭窗口等，让AI学习“符合常理的操作逻辑”。

　　然后经过RNN预训练——RNN+Renderer联合训练——计划采样——将RNN输入的上下文序列加长这一训练流程后，NeuralOS终于学会了根据之前的帧和用户输入（鼠标、键盘）来预测下一帧屏幕图像。

　　画面逼真：连续操作时，它生成的界面变化（如从桌面到打开文件夹，再到关闭窗口）看起来和真系统几乎一样。

　　鼠标响应准：不管是移动鼠标让光标跟着动，还是点击图标触发反应（如点“关机”按钮出现确认窗口），它都能准确对应。

　　状态转换稳：像启动应用、切换窗口这类“系统状态变化”，它也能可靠模拟（如点“计算器” 图标，就会出现计算器窗口，不会乱出别的东西）。

　　但它目前对键盘的精细操作处理不好，尤其是快速打字时，它可能跟不上每个按键的实时显示，或者出现字母顺序错乱的情况。

　　下图展示了模型预测状态与真实状态之间的对应关系，主对角线区域有明显高亮，说明模型大多数预测是准确的；但也存在一定比例的偏移预测，说明个别状态存在混淆。

　　Luke Rivard，目前正在滑铁卢大学计算机科学系读研，研究方向为自然语言处理（NLP）。

　　Hongyu Guo，本科毕业于上海交大，目前是加拿大国家研究委员会数字技术研究中心的高级研究员。

　　其研究方向为推理、信息检索、基准与评估等，2022年获得了加拿大的CIFAR AI主席奖，该奖主要由加拿大政府授予在AI领域表现突出的世界顶尖人才。

　　自NeuralOS论文发表后，他们还提供了一个在线体验版本，不过每个用户的操作演示（session）运行时，后台要专门分配一块H100显卡才能跑起来。

　　切换“Auto Input”开关，启用自动帧生成功能，即当你将鼠标移入画布并保持静止2秒后自动开始，每0.5秒生成一帧。

　　虽然现在看起来很粗糙，但它展示了一个新可能——未来的“操作系统”不一定是死板的按钮，而是可以被AI动态“生成”的。

相关应用