对五道 Agent 理论题目的回答

· 3585 字 · 8 分钟 ·
说明

这篇文章尝试结合自己学习的理解对五道基础 Agent 题进行解答,解答的知识储备主要来源于文档学习,基本没有向 AI 求助。

在尽个人所能回答问题的过程中,我发现自己对智能体的理解还是很浅显,许多问题的回答基本是复述或模仿学习文档中的内容——所以回答得很差劲,但先写下来吧。

我感觉自己的学习呈现出很明显的重复性。

所以学习究竟应该是怎样的?是先模仿,然后反复阅读,反复模仿,反复实践,反复模仿,反复试错……最后在这个循环过程中逐渐生成真正属于自己的知识吗?

问题一

请分析以下四个 case 中的主体是否属于智能体,如果是,那么属于哪种类型的智能体(可以从多个分类维度进行分析),并说明理由:

case A:一台符合冯·诺依曼结构的超级计算机,拥有高达每秒 2EFlop 的峰值算力

case B:特斯拉自动驾驶系统在高速公路上行驶时,突然检测到前方有障碍物,需要在毫秒级做出刹车或变道决策

case C:AlphaGo在与人类棋手对弈时,需要评估当前局面并规划未来数十步的最优策略

case D:ChatGPT 扮演的智能客服在处理用户投诉时,需要查询订单信息、分析问题原因、提供解决方案并安抚用户情绪

case A 不属于智能体。符合冯·诺伊曼结构的超级计算机是一种实体,但本身作为硬件的它无法感知环境,更无法基于感知环境所获得的信息来自主展开行动,进而影响其所处的环境。相反,它只能依赖人类的输入来运行相关程序,这说明它只是一个拥有超高算力的计算工具。

case B 属于智能体。从智能体的演进路径和内部决策架构来看,它属于基于模型的智能体;从时间和反应性来看,它属于反应式智能体;从知识表示来看,它属于亚符号主义的智能体。基于安全与效用,自动驾驶系统在实际应用中需要保证时刻监测汽车行驶时的状态与周围环境的状况,这要求在系统中配置可以追问「世界是什么样的」的世界模型,以便汽车灵活应对复杂的路况。同时,路障、交通事故等要求汽车能快速做出应对,分秒必争,因此必须使用反应式智能体,根据环境即时做出反应。当然,对障碍物的检测很大程度上对智能体的声音、图像非结构化数据的识别能力要求较高,因此需要足够的亚符号主义的 AI 知识。

caseC 属于智能体。从演进路径来看,它属于 LLM 智能体,混合了反应性与规划性,也融合了符号主义和亚符号主义。AlphaGo 在对弈时,需要进行复杂细致的思考规划,利用内部的世界模型系统地探索棋局未来的各种可能性,并评估不同行动序列的后果,进而找到目标的最优解。但在行动和观察时,AlphaGo 还需要和棋局现状交互,获得即时反馈,以保证不会最佳的决策和行动时机。因此在这整一个过程中,AlphaGo 是混合式的智能体,为了有效应对复杂的棋局,它还需要同时掌握符号系统的逻辑推理能力和神经网络学习能力。

case D 属于智能体。它属于 LLM 智能体,同样是混合了反应性与规划性,也融合了符号主义和亚符号主义。首先,ChatGPT 在扮演智能客服时,可以调用相关工具来查询订单信息,得到订单信息后,它会基于内置的模型对此进行推理分析,并从中找出合适的解决方案,还需要个性化地安抚用户情绪。在实际场景中,用户在投诉时往往带有焦急的情绪,智能客服在对信息进行细致推理分析的同时,还要做到及时根据用户的态度进行相应反馈。这要求智能体不仅需要有长线规划的能力,也要有处理紧急情况的能力。相应地,在对知识的处理上,智能客服既要懂得符号主义严格的逻辑规则,也要能处理声音、图像等非结构化的数据。

问题二

假设你需要为一个"智能健身教练"设计任务环境。这个智能体能够:

  • 通过可穿戴设备监测用户的心率、运动强度等生理数据
  • 根据用户的健身目标(减脂/增肌/提升耐力)动态调整训练计划
  • 在用户运动过程中提供实时语音指导和动作纠正
  • 评估训练效果并给出饮食建议

请使用 PEAS 模型完整描述这个智能体的任务环境,并分析该环境具有哪些特性(如部分可观察、随机性、动态性等)。

  • Performance(性能度量):在用户设定的训练时间内,最大化用户满意度与健身计划合理性。用户满意度这一指标可以被操作化为 监测生理数据的反馈时效性、准确度,实时语音指导的延迟等
  • Environment(环境):健康软件、日历软件、语音系统权限、搜索引擎 API 等网络服务
  • Actuators(执行器):调用 API 的函数,向用户界面生成和显示格式化文本
  • Sensors(传感器):解析 API 返回的数据(如 JSON、HTML)、读取用户输入的自然语言与语音信息

在这里,「智能健身教练」智能体的环境是动态的。因为用户每日的心率、运动强度等生理数据都是动态可变的,这意味着用户的健身目标并非一成不变,可能会随着生理数据的阶段性变化而产生相应变化,因此「智能健身教练」必须具备记忆能力(记住用户过往的生理数据)和探索能力(根据不同的生理数据状况搜索不同的饮食建议)。

问题三

某电商公司正在考虑两种方案来处理售后退款申请:

方案 A(Workflow):设计一套固定流程,例如:

A.1 对于一般商品且在 7 天之内,金额 < 100RMB 自动通过;100-500RMB 由客服审核;>500RMB 需主管审批;而特殊商品(如定制品)一律拒绝退款

A.2 对于超过 7 天的商品,无论金额,只能由客服审核或主管审批;

方案 B(Agent):搭建一个智能体系统,让它理解退款政策、分析用户历史行为、评估商品状况,并自主决策是否批准退款

请分析:

  • 这两种方案各自的优缺点是什么?
  • 在什么情况下 Workflow 更合适?什么情况下 Agent 更有优势?如果你是该电商公司的负责人,你更倾向于采用哪种方案?
  • 是否存在一个方案 C,能够结合两种方案,达到扬长避短的效果?

(1)方案 A

  • 优点:Workflow 的方式对任务做出了严格、预先和结构化的编排,这使得售后退款申请处理的每一步都十分清晰明确,便于分工管理,提高工作效率。

  • 缺点:售后退款处理的流程被限制在一定范围内不可变通,难以应对特殊状况。

(2)方案 B

  • 优点:Agent 的方式中, LLM 可以结合产品退款政策、用户历史行为和产品状况进行推理分析,给出考量维度更丰富的处理决策,同时节省了人力成本。

  • 缺点:Agent 的方式难以保证模型幻觉在多大程度上会干扰退款决策。

我认为在购物高峰期采用 Workflow 的方式更合适,因为它更程序化、流水化,在应对大量退款售后的情况下容错率更高。但在日常退款售后处理的情况中,Agent 更有优势,它可以细致地结合用户情况进行针对性的售后处理。

如果我是该电商公司的负责人,我倾向于在不同的应用情景中选择不同的方式。当然,我认为将两者结合起来会更好,可以在 Agent 中加入 Workflow 关于退款售后处理的金额范围限制,让其在一定程度的限制流程中充分发挥自主决策的能力。

问题四

卡尼曼的"系统 1"(快速直觉)和"系统 2"(慢速推理)理论为神经符号主义 AI 提供了很好的类比。请首先构思一个具体的智能体的落地应用场景,然后说明场景中的:

提示:医疗诊断助手、法律咨询机器人、金融风控系统等都是常见的应用场景

  • 哪些任务应该由"系统 1"处理?
  • 哪些任务应该由"系统 2"处理?
  • 这两个系统如何协同工作以达成最终目标?

通过卡尼曼的双系统理论,我们可以这样理解神经符号主义 AI:

  • 系统 1 是快速、凭借直觉、并行的思维模式,如同亚符号主义 AI 强大的模式识别能力
  • 系统 2 是缓慢、有条理、基于逻辑的审慎思维,如同符号主义 AI 强大的推理能力

以医疗诊断助手为例,在一场医疗诊断过程中,需要通过既往大量的诊断模式来快速识别出病患的病症。在此初步得出病患病症的基础上,再针对病理进行细致缜密的分析,据此得出最佳的治疗方案。

问题五

尽管大语言模型驱动的智能体系统展现出了强大的能力,但它们仍然存在诸多局限。请分析以下问题:

  • 为什么智能体或智能体系统有时会产生"幻觉"(生成看似合理但实际错误的信息)?
  • 在 1.3 节的案例中,我们设置了最大循环次数为 5 次。如果没有这个限制,智能体可能会陷入什么问题?
  • 如何评估一个智能体的"智能"程度?仅使用准确率指标是否足够?
  • 智能体的构建离不开神经网络和深度学习,但这种学习知识的方式——从海量数据中学习到的统计模式——也让智能体系统成为「黑箱子」,知识与知识之间因为模式的相似而被联系起来,但缺乏足够严谨的逻辑推理,因而有时候会出现幻觉,生成看似合理但实际错误的信息。
  • 在没有循环限制的情况下,智能体可能会陷入死循环,反复调用多种不同工具,但始终不输出 Finish。具体来说,没有限制的循环会带来过长上下文,模型会在一次次的循环中不断忘记前面调用过什么工具,因而重复使用,不断重复收集信息,同时导致 API 成本失控。
  • 评估智能体「智能」程度不只要看其「准确率」,还要看其是否具备信息交叉验证及自我纠错的能力。特别是面对 AI 幻觉时,智能体如何处理「给用户一个看起来『准确』的答案,还是尽量保证在多方信息的交叉验证中比对后尽量阐明信息真实程度更重要」这一问题。