ScreenAgent
: A Vision Language Model-driven Computer Control Agent
论文链接:
https://arxiv.org/abs/2402.07945https://arxiv.org/abs/2402.07945IJCAI 2024
1.概述
大型语言模型(LLM),诸如ChatGPT与GPT-4,在自然语言处理领域(涵盖生成、理解及对话等任务)展现出了卓越的性能,并对其他人工智能领域的研究产生了显著的推动作用。尤为重要的是,这些技术的飞速发展,为智能LLM智能体的研究奠定了坚实的基础,使得这类智能