AI Agent 是人类生产关系的一次巨变
内容转载自:AI新智能
谷歌发布的一份名为《Agent》的白皮书,展望了人工智能在商业中扮演更加积极和独立的角色的未来。这份42页的文件在9月发布时并未引起太大轰动,但如今在X.com(前身为推特)和LinkedIn上引起了广泛关注。
这份报告提出了“AI Agent”的概念,一种超越现有AI模型的软件系统,能够进行推理、规划并采取行动,以实现特定目标。与传统的AI系统不同,后者仅根据预先存在的训练数据生成响应,AI Agent可以与外部系统互动,做出决策,并独立完成复杂任务。
白皮书解释道:“Agent是自主的,可以在没有人类干预的情况下独立行动。”它们被描述为结合了推理、逻辑和实时数据访问的系统。AI Agent的背后理念十分雄心勃勃:它们可以帮助企业自动化任务、解决问题,并做出曾经完全由人类处理的决策。
白皮书的作者——朱莉亚·维辛格(Julia Wiesinger)、帕特里克·马洛(Patrick Marlow)和弗拉基米尔·武斯科维奇(Vladimir Vuskovic),详细阐述了AI Agent如何运作以及它们所需的功能。
然而,更广泛的影响同样重要。AI Agent不仅仅是对现有技术的升级;它们代表了一种组织运作、竞争和创新方式的转变。那些采纳这些系统的企业可能会在效率和生产力上获得巨大的提升,而那些犹豫不决的企业则可能发现自己在竞争中逐渐落后。
以下是谷歌白皮书中的五大关键见解,以及它们对未来商业中AI应用的潜在影响。
一、AI Agent不仅仅是更聪明的模型
谷歌认为,AI Agent代表了对传统语言模型的根本性突破。像GPT-4和谷歌的Gemini这样的模型,在生成单轮响应方面表现优异,但它们仅限于从训练数据中学习到的内容。相比之下,AI Agent设计的初衷是与外部系统互动,基于实时数据进行学习,并执行多步骤任务。
白皮书指出:“传统模型中的知识仅限于它们训练数据中已有的内容。AI Agent通过与外部系统的连接扩展了这些知识。”
这种差异不仅仅是理论上的。设想一个传统的语言模型被要求推荐旅游行程。它可能会基于一般知识提出一些建议,但缺乏预订机票、检查酒店可用性或根据用户反馈调整建议的能力。然而,AI Agent则能做到这一切,它可以结合实时信息并做出自主决策。
这一转变使AI Agent成为一种新的数字工作者,能够处理复杂的工作流。对于企业来说,这意味着能够自动化那些曾经需要多个人力角色来完成的任务。通过整合推理与执行,AI Agent可能成为从物流到客户服务等多个行业中不可或缺的工具。
人工智能Agent如何使用扩展访问外部API以执行任务的细分。(图片来源:谷歌)
二、认知架构驱动它们的决策过程
AI Agent能力的核心是其认知架构,谷歌将其描述为一个用于推理、规划和决策的框架。这一架构被称为协调层,使Agent能够以循环的方式处理信息,结合新数据来优化其行动和决策。
谷歌将这一过程比作一位大厨在繁忙厨房中的工作。大厨会收集食材,考虑顾客的口味需求,并根据反馈或食材的可用性调整食谱。类似地,AI Agent会收集数据,推理下一步行动,并根据目标调整自己的行为。
协调层依赖于先进的推理技术来引导决策过程。诸如推理与行动(ReAct)、思维链(CoT)和思维树(ToT)等框架,为拆解复杂任务提供了结构化的方法。例如,ReAct允许Agent在实时中结合推理和行动,而ToT则使Agent能够同时探索多个可能的解决方案。
这些技术赋予Agent不仅仅是反应性的决策能力,还能做出积极主动的决策。白皮书指出,这使得AI Agent具有高度的适应性,能够以传统模型无法做到的方式应对不确定性和复杂性。对于企业来说,这意味着AI Agent可以承担一些任务,例如故障排除供应链问题或分析财务数据,且在较少人工监督的情况下实现高度的自主性。
AI Agent决策过程的流程,从用户输入到工具执行和最终响应。(图片来源:谷歌)
三、工具拓展了Agent的能力,超越了训练数据的限制
传统的AI模型常被描述为“静态知识库”,仅限于其训练数据所涵盖的内容。而AI Agent则不同,它们能够通过工具访问实时信息,并与外部系统进行互动。这一能力使得它们在现实应用中具有实际价值。
白皮书解释道:“工具弥合了Agent内部能力与外部世界之间的差距。”这些工具包括API、扩展程序和数据存储,它们使Agent能够获取信息、执行操作,并检索随着时间变化的知识。
例如,一位负责规划商务旅行的Agent可以通过API扩展程序检查航班时刻表,通过数据存储检索旅行政策,或者使用地图工具查找附近的酒店。AI Agent能够动态与外部系统互动,这使得它们不再是静态的响应者,而是商业流程中的活跃参与者。
谷歌还强调了这些工具的灵活性。例如,函数允许开发者将某些任务卸载到客户端系统,企业因此能更好地控制Agent如何访问敏感数据或执行特定操作。这种灵活性对于金融、医疗等行业至关重要,因为这些行业对合规性和安全性有严格的要求。
代理端和客户端控制的比较,说明人工智能Agent如何与Google Flights API等外部工具交互。(图片来源:谷歌)
四、检索增强生成(RAG),让Agent变得更智能
AI Agent设计中的一项最具前景的进展是检索增强生成(RAG)的整合。这项技术使Agent能够在其训练数据不足时,查询外部数据源——如向量数据库或结构化文档。
白皮书解释道:“数据存储通过提供访问更动态和最新信息的途径,解决了[静态模型]的限制。”Agent可以实时检索相关数据,从而将其响应基于事实信息。
基于RAG的Agent在信息变化迅速的领域尤其有价值。例如,在金融行业,Agent可以在做出投资建议之前拉取实时市场数据。在医疗领域,Agent则可以检索最新的研究成果,来为诊断建议提供支持。
这一方法还解决了AI中一个长期存在的问题:幻觉(hallucinations),即生成不正确或虚假的信息。通过将响应建立在现实世界数据的基础上,Agent能够提高准确性和可靠性,从而更适用于那些高风险的应用场景。
检索增强生成(RAG)如何使Agent能够查询向量数据库并提供精确的上下文感知响应。(图片来源:谷歌)
五、谷歌提供工具加速Agent部署
尽管这份白皮书充满了技术细节,但它同样为希望实施AI Agent的企业提供了实用的指导。谷歌重点介绍了两个关键平台:LangChain,一个开源的Agent开发框架,以及Vertex AI,一个用于大规模部署Agent的托管平台。
LangChain通过允许开发者将推理步骤和工具调用串联在一起,简化了构建Agent的过程。而Vertex AI则提供了测试、调试和性能评估等功能,使得部署生产级Agent变得更加容易。
白皮书指出:“Vertex AI使得开发者能够专注于构建和完善他们的Agent,而平台本身则管理了基础设施、部署和维护的复杂性。”
这些工具降低了那些想尝试AI Agent但缺乏深入技术专长的企业的门槛。然而,它们也引发了关于广泛采用Agent的长期后果的思考。随着这些系统变得越来越强大,企业将需要考虑如何平衡效率提升与潜在风险,如对自动化的过度依赖或决策透明度方面的伦理问题。
推理循环、工具和API的集成,使AI Agent能够处理旅行计划或天气检查等复杂任务。(图片来源:谷歌)
六、这意味着什么
谷歌关于AI Agent的白皮书呈现了一个详细且雄心勃勃的AI发展蓝图。对于企业而言,信息非常明确:AI Agent不仅仅是一个理论概念,它们是能够重塑企业运营方式的实际工具。
然而,这一转型不会一蹴而就。部署AI Agent需要精心的规划、实验和重新思考传统工作流程的勇气。正如白皮书所指出的:“由于基础模型的生成特性,没有两个Agent是完全相同的。”
目前,AI Agent既是一个机遇,也是一项挑战。那些投资于理解和实施这一技术的企业将能够获得显著的竞争优势。而那些选择观望的企业,可能会在智能化、自动化系统日益主导一切的世界中,陷入追赶的困境。(Venture Beat)
本文地址:http://sunnao.cn/archives/893
以上内容源自互联网,由运营助手整理汇总,其目的在于收集传播生活技巧,行业技能,本网站不对其真实性、可靠性承担任何法律责任。如发现本站文章存在版权问题,烦请提供版权疑问、侵权链接、联系方式等信息发邮件至candieraddenipc92@gmail.com,我们将及时处理。