Claude 计算机用途和 ChatGPT 操作员是什么?人工智能计算机代理如何工作——以及你为何应该关心。我几乎每天都会使用ChatGPT和Claude等聊天机器人来回答快速问题、帮助我解决问题、修复糟糕的代码以及理解我想要说的单词。
但目前人工智能聊天机器人的一大缺点是,它们基本上局限于对话界面。
Claude 计算机的使用和 ChatGPT Operator 承诺将改变这一现状。
认识你的新 AI 队友
尝试 Zapier 代理
它们结合使用内置语言模型、屏幕截图和虚拟机来模仿人类使用计算机的方式——有效地控制您的计算机(在您允许的情况下)。虽然它们还远未达到完全自主,但它们是朝着创建可独立行动的通用人工智能代理迈出的第一步。
以下是您需要了解的内容。
为什么 Claude 计算机的使用和 OpenAI 的 Operator 如此重要?
像 Claude 计算机使用和 OpenAI Operator(使用新的计算机使用代理 [CUA]模型)这样的人工智能计算机代理正变得越来越突出,因此值得了解没有人工智能代理的情况——这可以帮助我们了解这些进步有多重要。
除了主要的聊天机器人功能外,人工智能聊天机器人的几乎每个功能都依赖于API。这些可以由聊天机器人的开发人员构建,例如ChatGPT Search之类的东西,也可以由第三方开发人员使用自定义 GPT之类的工具构建。
例如,旅行预订服务 Kayak有一个自定义 GPT,您可以亲自尝试一下。它相当简单。它使用 ChatGPT 从您的提示中提取相关详细信息,使用 API 将它们发送到 Kayak,然后显示结果。它能用,但不太灵活,而且我不能让 ChatGPT 查看其他航班比较网站,甚至不能查看直接从航空公司预订的价格。
Kayak GPT 简介
AI 工具完全依赖 API 还存在其他一些缺点。首先,它要求你尝试访问的任何网站或服务都具有 API,然后它要求该网站或服务通过 API 提供你想要的所有功能。虽然我可以通过 Kayak 的 GPT 查看航班,但我无法通过它实际预订航班或更改我的帐户电子邮件地址或执行我可以通过网站执行的无数其他操作。
拥有能够浏览任何网站、使用任何应用程序和处理任何文件的人工智能计算机代理将是一个惊人的进步。比如说,你可以让你的人工智能代理在 Kayak 上搜索并定价三个不同周末的旅行,并告诉你哪个最便宜。它甚至可以为你预订行程,尽管这远远超出了目前人工智能计算机代理可以信任的范围。
人工智能计算机代理如何工作?
人工智能计算机代理汇集了人工智能领域的一些最新进展,包括可以理解文本以外的内容的多模式模型和能够解决更复杂问题的 推理模型。
它们的工作原理如下:
他们使用屏幕截图来查看计算机屏幕并了解正在发生的事情。
它们将复杂的指令分解为一系列合乎逻辑的步骤,进行尝试,如果事情没有按预期进行,则进行自我纠正。
他们能够使用虚拟鼠标和键盘来浏览虚拟机中的正常用户界面。
这可以分解为一个简单且可重复的 AI 工作流程:
截取屏幕截图。
决定下一步更接近目标的计算机操作。
执行操作。
截取屏幕截图。
决定下一步更接近目标的计算机操作。
执行操作。
重复直至达到目标。
当然,事情的背后要复杂得多。人工智能代理必须接受人机交互基础知识的训练,并且需要开发一种准确计算屏幕截图像素的技术,以便人工智能知道将光标移动到哪里并进行点击,然后才能开始工作。
人工智能代理也在 Uber、OpenTable 和 DoorDash 等特定平台上接受训练,这样它们就能够“在尊重既定规范的同时”处理现实世界的服务。(我想这意味着不用同时订购四辆 Uber。)
目前,Claude 计算机使用和 ChatGPT Operator 都处于测试阶段。虽然人工智能计算机代理的构建模块已经开始成型,但它们还远远不够可靠,无法在现实世界中广泛使用。
人工智能计算机代理能做什么?
最大的突破是人工智能计算机代理可以像人类一样使用计算机——尽管速度较慢且准确度较低。这些不是倒卖泰勒·斯威夫特门票的那种机器人。不过,即使在演示中,它们也显示出很大的潜力。
以下是 Anthropic 和 OpenAI 展示的计算机代理根据文本提示可以完成的一些事情:
浏览 Windows、Mac 和 Linux 系统、启动浏览器和其他应用程序以及浏览和搜索网页。
通过从电子表格、CRM 和不同数据源中提取数据来填写表格。
在 Google 上查找有关日出徒步旅行的信息,使用 Google 地图计算距离,并在需要出发的时间创建 Google 日历活动。
在待办事项应用程序中创建项目和购物清单。
在 Allrecipes 上查找食谱并将食材添加到 Instacart 购物车中。
下载文件、合并 PDF 和导出图像。
解答在线测验。
在模拟电子商务后端中查找特定的客户信息。
这是 Claude 计算机使用的一个示例演示。
但这只是他们现在能做的事情。令人兴奋的是,一旦他们变得足够优秀,他们还能做些什么。我首先想到的是:
您可以想象到的所有无聊的会计苦差事,例如发送发票、记录工作时间、核对账目、提交费用等。
使用电子表格从各种来源提取数据。
查看网上商店缺货的产品,并在有货时下订单。
在电影票或餐厅一开业就预订座位。
扫描您的垃圾邮件文件夹以确保没有遗漏任何重要内容。
与在线支持代理和聊天机器人打交道。
老实说,这些只是我花了 30 秒头脑风暴才想到的。人工智能计算机代理的用处实在是数不胜数。
人工智能计算机代理现在有多好?
OpenAI 在其计算机使用代理 (CUA) 公告中声称,其模型在OSWorld 基准测试中达到了 38.1% 的领先水平。Claude 的计算机使用率在去年 10 月的同一基准测试中达到了 22%。
问题是:普通人的寿命为 72.4%。
同样,在其发布公告中,Anthropic 强调说,在他们准备演示视频时,Claude 的电脑使用人员意外点击了长屏幕录制的停止按钮,从而抹去了所有的镜头。
速度方面的情况也类似。目前,使用计算机的代理需要数十或数百步才能执行中等简单的操作,例如下载一系列讲座、合并 PDF 或在电子商务门户中查找取消次数最多的客户。虽然它可以执行这些操作非常令人印象深刻,但现有工具(甚至只是自己做)几乎肯定更快。让这些 AI 代理有用的是无需干预的灵活性,而不是速度。
将 ChatGPT 的强大功能添加到您的工作流程中
自动聊天GPT
值得注意的是,Anthropic 和 OpenAI 都在大力关注安全问题,原因也很容易理解。即使局限于聊天机器人界面,以前的人工智能模型也制造了各种错误的新闻标题。有了对网络浏览器的完全访问权限,不受限制的人工智能模型可以做出什么样的对抗行为,或者它的错误可能造成什么样的危害,基本上是没有限制的。
它们都还不能完全自主运行:当 ChatGPT Operator 遇到登录、CAPTCHA 或付款详细信息时,它会将虚拟计算机的控制权交还给用户。在这种情况下,我觉得开发人员行动缓慢是件好事。
而这正是人工智能计算机代理目前所处的关键。它们令人难以置信地印象深刻,并显示出巨大的潜力,但它们的速度非常慢,而且仍然会犯很多错误,尤其是在面对不熟悉的界面或更复杂的任务时。安全问题也非常现实。可能用不了多久,它们就会真正用于一些低风险的任务,但我认为,向它们提供你的信用卡信息并让它们在亚马逊上购物还需一段时间。
尽管我对此有种种警告,但这是令我最为兴奋的人工智能发展。
我可以尝试使用 Claude 电脑或 ChatGPT Operator 吗?
Claude Computer Use 和 ChatGPT Operator 都已向公众开放,但测试它们并不是那么简单。
Claude 计算机的使用仅可通过 API 实现。如果您具备技术技能,则可以在开发环境中运行它并享受乐趣。
ChatGPT Operator 目前处于公开预览阶段,但仅供ChatGPT Pro订阅者使用 — — 每月需支付 200 美元。
相关阅读:
Claude 与 ChatGPT:有什么区别?
8 种最佳 ChatGPT 替代方案
可在您的应用程序间自动执行工作的 AI 代理