文章开头说现有的agent都是局限于特定领域(什么网络问答啊,仅限文字啊,仅限于某一个app啊)这样的,本文的工作主打一个贴近用户使用场景,用户用什么软件,看什么网页,本文的模型就用什么软件,看什么网页,只要是能在windows系统上用的东西本agent都能用,泛用性更强。(常规操作,没啥新颖的)本文使用了OSworld的架构(OSworld论文之前讲过了)。除了数据集以外本文还提出了一个叫Navi的模型
文章提到现在的benchmark测试一般在虚拟机上进行,这样是比较慢的。文章提出可以提高任务并行化。
模型的动作空间如下:
剩下的呆会看