围绕两个核心指标展开:接通率与转人工解决率。通过五层 Agent 协作,将外呼全链路拆解为可测量、可独立优化的系统工程。
在着手设计 Agent 之前,有必要先把两个指标背后的问题讲清楚。接通率低和转人工解决率低,表面上都是外呼效果差,但原因来自完全不同的地方,解法也完全不同。把这两件事混在一起优化,只会产生互相干扰的设计决策。
接通率的问题,本质上是系统层的效率损耗。号码名单里混入了大量空号、停机号和 DNC 黑名单;拨号时段没有根据行业特征优化,在客户最不方便接听的时间密集拨出;并发策略粗放,高峰时段线路拥堵而低峰时段资源闲置;IVR 系统、语音信箱、传真线路没有被及时识别和终止,这些无效占线消耗了大量并发资源,而背后的真实客户始终没有被触达。
转人工解决率的问题,是 Agent 设计层面的判断失误。意向识别不准,热线索被错过;转人工时机太晚,客户情绪已经恶化才触发,坐席接手时局面已经被动;交接信息断层,坐席不知道 AI 和客户聊了什么,第一句话就要从零开始重建信任;路由规则粗糙,有购买意向的客户和投诉客户被送进同一个处理队列。
接通率由 Agent 1(调度层)负责。转人工解决率由 Agent 3 和 Agent 4(对话层与交接层)负责。两个指标由不同 Agent 承载,必须各自独立优化,不能混淆设计责任。
end_call,每一次这样的接通都在消耗真实客户能用到的并发资源。AI 和真人的分工边界,决定整个 Agent 架构的设计逻辑。这个问题必须在编排之前回答,因为它不是技术问题,是对销售过程本质的判断:客户在什么阶段愿意和 AI 对话,在什么阶段需要感受到真人的存在。
客户在标准化信息交换阶段并不在意对方是不是 AI——「有没有类似需求」「方便留个联系方式吗」,这些问题 AI 问得比真人更稳定一致,不受疲劳和情绪波动的影响,执行一致性是 AI 在这个阶段的真正优势。
客户进入考量决策阶段时,情况完全不同。当他开始追问竞品差异、询问定制可能性、在价格上反复试探,他实际上是在通过问题测试对方的判断力和反应速度。这时候他需要感受到对方在真正理解他——这是真人销售的核心价值:感染力与临场判断。
销冠能听出客户说「没预算」时语气里的犹豫,能判断「他问了三次价格却说没兴趣」背后的矛盾信号,知道什么时候该沉默,什么时候该推进看 demo,什么时候该主动让步。这种判断力,当前 AI 在技术层面还达不到。AI 很聪明,但聪明和有感染力是两件事。
AI 是情报官,不是替代者。最佳分工是:AI 完成筛选阶段的全部工作,识别出进入决策阶段的客户后立即移交真人。转人工不是 AI 失败的兜底,是整个系统设计的主动策略。
| 阶段 | 客户行为特征 | 分工 | 核心原因 |
|---|---|---|---|
| 初步触达 | 防御心高,不知道你是谁 | AI 主导 | 标准化开场,AI 不受情绪影响,稳定执行 Permission-first 结构 |
| 信息采集 | 回答固定问题,配合度一般 | AI 主导 | 槽位填充是结构化任务,AI 执行比真人更一致,不遗漏 |
| 意向确认 | 开始问具体问题,出现购买信号 | 边界地带 | AI 识别信号并触发转人工,交接要快,热线索最怕冷却 |
| 方案沟通 | 追问竞品差异、定制可能性 | 真人主导 | 客户在测试判断力,这是感染力和临场应变的主场 |
| 促单谈判 | 价格敏感,迟疑,需要被推动 | 真人主导 | 读懂话外音、临场判断进退,是真人销售不可替代的核心价值 |
B2B 场景和 B2C 有两个根本性差异,使得 AI 主导外呼在 B2B 几乎没有合理的成本收益比。
第一,试错成本远高于效率收益。B2B 的客户数量少,但每一个客户的生命周期价值都很高。真人销售在 B2B 场景下本来就没有效率压力——客户本来就不多。一旦因为 AI 体验不好在客户那里留下负面印象,损失的不是一单,而是整个关系链条和未来所有的转介绍机会。AI 带来的效率收益覆盖不了这个风险。
第二,还没有找到 AI 能稳定替代真人的边界。B2B 的每通电话都涉及定制化需求描述、多层次的决策路径确认,以及大量非标准化的谈判逻辑。AI 的标准化流程在这里系统性地失效。在找到清晰的可替代边界之前,让 AI 主导 B2B 外呼是在用高风险换取有限的效率提升。
以上对边界的判断,直接决定了后续五层 Agent 编排的核心逻辑:筛选阶段全部交给 AI,决策阶段立即移交真人。这不是妥协,是对两者能力边界的诚实认知。
整个系统不是一个统一的 LLM 在处理所有事情,而是按职责边界拆分的多 Agent 协作体系。每个 Agent 有明确的输入来源、处理逻辑和输出标准。上游 Agent 的 output 作为下游 Agent 的输入,每个 Agent 维护独立的 Prompt,不共享内部状态。
这样设计的原因是:外呼链路中每个环节的失败原因和优化方向完全不同。把所有事情交给一个 Agent,意味着无法精确定位问题在哪个环节,也无法对单个环节进行针对性的数据优化和 Prompt 迭代。拆分 Agent 的本质,是把一个模糊的系统变成一个可以逐段测量、逐段改进的系统。
负责接通率的系统层优化,是整个链路的入口。在拨号发生之前,完成号码清洗(去重、空号验证、DNC 黑名单过滤)、行业标签打标、并发数和时段窗口配置。拨号发生后,实时检测接通状态并精细分流:无人接听进入带间隔的重试队列;占线短间隔重试;空号、IVR、语音信箱、传真线路立即执行 end_call 标记无效;正常接通才进入 Agent 2。时段优化是这一层最重要的长期能力——系统持续从历史接通数据中学习,自动调整各行业最优拨号窗口,不依赖人工经验配置。
判断当前对话对象是否为决策人。输入包括 Agent 1 传递的号码归属信息、公司基本信息,以及历史通话记录(如果有)。若识别为前台、助理或其他非决策人角色,使用不暴露 AI 身份的话术礼貌应对,目标是获取转接机会或确认决策人的回电时机。这个阶段不做任何产品介绍,不浪费在错误的人身上。如果多次尝试仍无法触达,记录门卫姓名和建议时段后退出,进入后续跟进任务。
系统的核心 Agent,承载最关键的判断逻辑。输入为 Agent 2 确认的决策人身份、行业专属 Prompt、RAG 知识库,以及实时维护的对话状态记忆。完成:意图识别(有意向、明确拒绝、追问、沉默、情绪激动)、情绪状态判断(中性、不满、愤怒)、关键槽位填充(预算、使用场景、决策周期)、主次 Goal 追踪与自动降级,以及多轮对话状态管理。每轮对话结束后触发决策:继续对话、转人工,或礼貌挂机。RAG 知识库在这一层动态注入,客户追问专业问题时先检索再回答,减少不必要的转人工。
转人工的触发点在 Agent 3,但解决率的决定性因素在这里。Agent 4 在转人工发生前自动运行,基于 Agent 3 的完整对话状态生成结构化交接卡:客户基本信息、本次对话意图、情绪状态评估、已采集的关键槽位、建议的开场话术。坐席接手时不需要客户重复任何背景,第一句话就能切入真实问题。交接卡同时承担路由决策:有购买意向的路由到销售顾问队列,情绪愤怒或有投诉性质的路由到客服坐席队列。
通话结束后异步触发,不在主链路上。输入为完整通话录音、Agent 3 的对话记录和 Prompt,以及行业知识库配置。完成三件事:合规风险检测(高风险通话标记人工复核)、话术偏差识别(与 Prompt 预期行为不符的对话模式)、高质量样本筛选(成功识别意向、成功处理负面情绪、成功执行 Goal 降级的通话)。筛选出的样本回流用于 NLU 模型和 TTS 音色的持续迭代。线索状态同步写入 CRM:有意向进入跟进队列,无意向进入冷却期,未接通进入重试队列。
Agent 3 是整个系统里最复杂、也最需要持续打磨的部分。接通率由 Agent 1 决定,但接通之后能不能产生价值,完全取决于 Agent 3 的判断质量。意向识别、情绪识别、Goal 追踪、对话节奏,每一项都直接影响最终转化。
每个外呼任务在配置时定义三层目标。当上层目标受阻时,Agent 3 自动切换到下一层,不空手而归。这个机制保证了每通通话在无法达成核心转化时,仍然能积累有价值的线索信息。
在没有 RAG 的情况下,AI 遇到自己不确定的专业问题通常只有一个出路:说「这个问题我帮您转人工处理」。但频繁的转人工会打断对话节奏,让客户觉得这个系统没有能力,也浪费了坐席资源。
RAG 知识库按行业独立维护,在 Agent 3 处理每通对话时动态注入对应行业的产品知识、常见 FAQ、竞品对比话术、合规限制说明。客户追问专业问题时,先检索知识库,用检索到的内容生成回答,再判断是否需要转人工。RAG 无法覆盖、或检索置信度低的问题,才进入转人工流程。
前面四个板块建立了问题认知和架构框架。这里把两个指标的优化路径直接对应到每个 Agent 的具体设计机制上,说清楚每一项设计如何作用于指标,以及为什么这样设计而不是其他方式。
end_call,不占并发传统的外呼复盘方式有两种:人工抽听录音,或者用关键词在通话记录里搜索。前者效率极低,三千通通话没有团队愿意逐条听;后者的根本问题是关键词不等于意图——「价格」这个词可能出现在客户认真询问价格时,也可能出现在他说「你们价格太高我不考虑」时,关键词搜索无法区分这两种情况,而这两种情况对应的后续动作完全相反。
这套系统的复盘逻辑:用自然语言描述你想找的通话特征,系统通过意图理解返回匹配通话列表和匹配率。你定义什么叫成功,系统去找。不需要提前设计标签体系,也不需要知道关键词是什么。
Query 引擎不只是复盘工具,它是让系统持续变好的机制。每一次 Query 结果都指向一个可以优化的方向,优化后在下一批通话中验证,再次 Query 对比效果。
Agent 1 到 Agent 5 各自维护独立的 Prompt,它们的职责、输入和输出完全不同,不应该共享配置。但以下六条设计原则适用于全部 Agent,是系统整体表现质量的执行层保证。
把 Prompt 写成脚本是最常见的错误——脚本应对的是预期内的对话路径,而真实客户的对话充满不按预期走的岔路。好的 Prompt 是一套有优先级的指令体系:知道什么情况下必须做什么,什么情况下有灵活空间,什么情况下必须立即退出。
有名字、有清晰的职能定位,音色和语气风格与行业匹配。不同行业的客群对「专业感」的期待不同,金融行业期待沉稳,美容行业期待亲切,声线选择和语气配置需要分开维护。人格一致性不是形式要求,是信任建立的基础。
先获得对方说下去的许可,再介绍。这个顺序不能颠倒。「方便占用您两分钟了解一下吗」比直接开始介绍的转化率更高,原因是它把主动权还给了对方,降低了防御心理。Permission-first 本质上是一种尊重对方时间的表达,客户对被尊重的感受非常敏感。
「嗯……」「好的,让我确认一下」「我理解您的意思」,这些细节降低机器感,减少提前挂机率。它们在 Prompt 层面是低成本配置,但效果是可以被数据量化的——有填充词和没有填充词的版本,在客户自然挂机率上有可测量的差异。填充词的节奏要和 TTS 的停顿配合调试。
对决策人适时坦白 AI 身份,反而能建立信任——「我是 AI 助理,人工顾问稍后会联系您」比假装真人被识破更有信任度。对前台和助理不主动透露,避免在还没触达决策人的阶段就产生不必要的阻力。两种情况对应 Prompt 里的独立分支,不能用同一套话术应对。
护栏是不可妥协的边界,它的优先级高于任何 Goal。不谈价格(转人工);遇 IVR 或语音信箱立即 end_call;情绪识别到愤怒立即触发转人工;DNC 声明立即写入黑名单退出,不再尝试挽留。在 Prompt 里,护栏应该在 Goal 描述之前出现,并用明确的条件语句表达,不留模糊空间。
每次回应控制在 2—3 句,主动听,不重复问已答问题,不急着推介。对话的节奏感本身是一种说服力——客户在感受到对方在认真听的时候,防御心会降低。回应长度和停顿节奏需要在 Prompt 层面约束,也需要在 TTS 配置层面配合,两层配合不好,Prompt 写得再精确也会被语音层的节奏感破坏。