1 of 28

Emotional Support Dialog System Through�Recursive Interactions Among �Large Language Models

陈可淇、练慧俊、高迎明、李雅

北京邮电大学人工智能学院

2023.12

Beijing University of Posts and Telecommunications

https://ai.bupt.edu.cn/

2 of 28

大语言模型辅助的心理治疗对话
研究背景
研究动机
系统架构

递归的对话策略
多智能体对话策略

总结
Q&A�

�

3 of 28

大语言模型辅助的心理治疗对话：研究意义

�

心理咨询

灾害心理救援

情感陪伴

由于在日常生活中，高质量的心理治疗服务是稀缺的。

比如在地震、矿难等灾害后，短时间内有大量的人群需要心理治疗。�其次，心理治疗的成本是昂贵的，往往包含多个由多个疗程，有相当多的人无法承担心理治疗所需的费用。��有较多AI辅助的心理治疗的应用场景。�

**Emotion Understanding:**

机器是否可以理解情绪? 并通过文本等形式表征出来？

**Emotional Chatting:** （主要）

如果认为计算机可以理解情绪，那么人机对话时该如何表达情绪?

**Empathetic Dialog:** （主要）

在理解用户的情绪后，机器应该表达什么样的情绪?

**Emotional Support:**（主要）

多轮交互下，如何使得用户愿意持续和机器对话并最终缓解用户的情绪问题？

如何表达情感

需要表达什么情感

如何减少他人情感压力

李嫣然的笔记

图太多字太多

情感对话是一种旨在解决个人情感问题和提供情感支持的互动交流。它涉及求助者与心理咨询师之间的对话和倾听，旨在帮助求助者表达情感、分享经历，并获得情感上的理解和支持。

心理咨询

情感支持

灾后安抚

4 of 28

大语言模型辅助的心理治疗对话：性能要求

�

情感理解：理解情绪

情感对话：表达情绪（共情）

情感支持：主动缓解用户情绪问题

普通对话

情感对话

共情

（情感支持）提供建议

情感支持

心理治疗

5 of 28

背景：如何在心理治疗领域应用大语言模型？

目标：如何实现AI心理咨询师？

解决思路一：构建心理咨询数据集+训练\微调一个针对心理对话的垂类大语言模型

第一步：收集并清洗心理咨询数据，构建垂直领域的数据集。

第二步：在心理咨询数据集中训练或者微调一个大语言模型。

第三步：部署模型到生产环境中。�

问题：成本？模型维护？参数量级？

传统的训练/微调工作流

一个主流的做法是我们选择开源的基础模型，构建一个心理咨询数据集＋微调一个针对心理对话的垂类大语言模型

构建：1 代价高昂：构建心理数据集数据和训练模型。�2. 参数量级受限：受限于成本等因素，大多数做下游应用的公司，只能微调一个大约10B的领域模型。很多情况下，这些模型的情感理解能力相比人类差距很远，他们无法理解一些复杂情感，也很难记忆很长的对话。

其次规模较小的模型有一些问题，其微调后可能会出现一定程度的过拟合现象，即在某个特定领域表现优秀，但是在其他领域表现糟糕。�3. 基础模型的维护：比如GPT4些基础模型会隔几个月将其模型升级一下，其模型的对话质量会得到较大的提升。但是如果是已经部署的私有模型，基础模型升级后我们需要重新微调。

自行构建模型的好处：

灵活＼可控＼数据自由��1. 数据私有

6 of 28

背景：能否将基础大语言模型直接应用于心理治疗中？

解决思路二：使用基础大语言模型+提示工程

问题：基础语言模型具备较好的情感理解能力，但是缺乏情感支持能力

缺乏主动性：模型不会主动不会主动提问并引导用户，对话的主动性不在模型手中。

缺乏多轮情感对话能力：在多轮对话场景下表现不佳，缺乏一个宏观的对话策略和目标。

知识性回答\指令回答：大语言模型在完成指令和知识问答上表现优秀，但是在情感对话中表现一般，其回答往往表现为冗长、总分总式、百科全书式的回答。

人类咨询师、ChatGPT、我们的的回复

直接给出建议，缺乏循循善诱

不去询问用户焦虑的原因

总分总式回答，回复缺乏多样性

基础语言模型具备较好的情感理解能力，但是缺乏情感支持能力

其一是缺乏主动性，例如AI系统不会主动询问用户失眠的原因。比如本研究日常生活中，我们的朋友抱怨他失眠，那我们一定会去问其失眠的前因后果？在心理咨询这个特殊场景中心理咨询师是对话的主导者，如果心理咨询师不能主动询问，大部分患者都会缺乏表达的欲望。

第二是缺乏多轮情感对话能力。ChatGPT 缺乏多轮对话的一个宏观目标？比如，心理治疗的目的是缓解用户情绪问题，。

第三是产生在知识问答和指令完成上表现优秀，但是在情感对话中表现一般。他们能的给出很好建议或者解决方案？或者基于用户指示去完成一个任务，比如写文章或者回答提问。但是咋情感对话上表现不佳

7 of 28

研究动机：能否结合这两种模型的优势？

优势\模型�	微调后的领域模型（思路一）	基础大语言模型（思路二）
代表模型 �	在心理对话数据集上微调的7B参数的Llama模型	GPT-3.5 (175B) �
知识	领域知识	更全面的知识
逻辑能力	一般	更强
数据	私有(本地微调)	需要上传
领域表现	在心理对话上表现较好	在知识型回答\遵循指令回答上表现较好
模型更新	需要重新微调本地模型	定期升级

研究动机：

领域模型掌握领域知识：
领域模型负责生成符合规范的指令。�（心理治疗中的特定策略）

基础语言模型在遵循指令能力更强：
基础语言模型在领域策略的指导下生成领域回复。

领域模型和基础大语言模型各自的优劣

8 of 28

研究概述：如何选择心理治疗中的策略？

支持性心理疗法（Supportive Psychotherapy）

该疗法旨在通过积极倾听、提供情感支持和表达认可来帮助患者建立自信，从而引导患者进行自我陈述。

其他心理疗法： �如认知行为疗法（CBT）

认知行为疗法旨在识别和改变不良思想和行为，该疗法包括认知重建和行为激活等技术。

支持性心理治疗策略+AI模型

相比其他心理治疗策略，支持性心理治疗更适合大语言模型去生成。

符合支持性心理疗法的策略规范

9 of 28

项目概述：系统架构-模型准备

�

领域模型：在心理咨询数据数据集上微调后的ChatGLM-6B模型

基础大语言模型：GPT3.5

模型准备：

其中领域模型为ChatGLM，在EsConv 心理咨询数据集上进行微调。

微调数据组成形式为：

输入为心理咨询对话。
输出为咨询师在最后一轮对话所使用的策略，其中的策略符合支持性心理疗法的规范。

10 of 28

项目概述：系统架构-回复生成阶段

�

领域模型：领域模型基于支持性心理疗法重写对话策略

基础大语言模型：通用语言模型在对话策略指示下生成心理咨询的回复候选

领域模型：领域模型对心理咨询回复候选进行投票

基础大语言模型：使用基础大语言模型重写对话策略

生成阶段一

生成阶段二

11 of 28

项目概述：系统架构-策略递归

�

系统输入：第t轮次策略由第t-1轮次策略递归得到

系统输出：在第t轮次递归生成下一轮生成初始策略

系统输入：多轮次对话历史

系统输出：对话回复

12 of 28

案例展示：回复对比

�

人类心理治疗师回复：反问用户，引导用户描述

通用大语言模型回复

解释问题

提出建议

表达共情

引导对话

通用大语言模型+Few Shot

我们的系统回复

看白板

右图这个是本研究的提示设计，其中对话策略和外部知识提示这两块本研究有受相关工作的启发，其他是本研究针对情感对话设计的，是本工作的创新点之一。重点讲

首先提示是用户与AI对话中输入的提示文字，其内容和对话是相关的，提示与整轮对话历史进行拼接输入模型中，本研究的提示分为静态提示和动态提示：�静态提示：就是对整个多轮对话过程的宏观控制：比如心理咨询中有哪些对话策略，有哪些过程，心理咨询的最终目标是什么？

动态提示包括COT提示等：

COT的中文是思维链提示（Chain Of Thought）。当前的工作大多将COT用于逻辑推理\比如算术\10000+10000有多少等，本研究首次将其应用于情感对话，COT提示根据提示图谱不同情感策略得到鼓励模型逐步推导的提示，本系统的COT提示根据每轮对话的内容做更新。对话阶段提示是我用llama模型对当前对话在整个对话中的阶段的预测，比如对话是否块结束了。（CV中的一篇论文启发）相似few-show提示也是本文首次引用于情感对话中，所谓相似few-show提示即有助于回复效果的样例，我使用句向量对比和llama模型从向量库提取我们情感对话数据集中相似的对话的摘要，将其作为大模型的输入。知识提示包括内部和外部的知识。这些提示分别用于后文的两个主要算法

13 of 28

自动&人工评估结果

�

模型评估：

自动评估和人工评估。

自动评估：

使用BLEU 来测量生成与GroundTurth之间重合度。
使用Dist指标衡量生成的文本中词汇丰富度。

人工评估：

四位心理咨询师进行人工打分，她们都拥有国家二级心理证书，并有多年从业经验。
每个方法随机抽取20个多轮对话样例进行打分。
参考指标为共情性、连贯性、帮助性和与患者建立信任关系的能力。

看白板

右图这个是本研究的提示设计，其中对话策略和外部知识提示这两块本研究有受相关工作的启发，其他是本研究针对情感对话设计的，是本工作的创新点之一。重点讲

首先提示是用户与AI对话中输入的提示文字，其内容和对话是相关的，提示与整轮对话历史进行拼接输入模型中，本研究的提示分为静态提示和动态提示：�静态提示：就是对整个多轮对话过程的宏观控制：比如心理咨询中有哪些对话策略，有哪些过程，心理咨询的最终目标是什么？

动态提示包括COT提示等：

COT的中文是思维链提示（Chain Of Thought）。当前的工作大多将COT用于逻辑推理\比如算术\10000+10000有多少等，本研究首次将其应用于情感对话，COT提示根据提示图谱不同情感策略得到鼓励模型逐步推导的提示，本系统的COT提示根据每轮对话的内容做更新。对话阶段提示是我用llama模型对当前对话在整个对话中的阶段的预测，比如对话是否块结束了。（CV中的一篇论文启发）相似few-show提示也是本文首次引用于情感对话中，所谓相似few-show提示即有助于回复效果的样例，我使用句向量对比和llama模型从向量库提取我们情感对话数据集中相似的对话的摘要，将其作为大模型的输入。知识提示包括内部和外部的知识。这些提示分别用于后文的两个主要算法

14 of 28

总结

�

意义：

实现了一个大语言模型辅助的心理治疗对话系统。提升了大语言模型在心理治疗领域上的回复质量。

创新点：

综合了通用大语言模型和领域微调模型各自的优点。发挥领域微调模型灵活的优势和通用大语言模型在指令回答和逻辑推理上的优势

设计了一个策略递归机制用于保持多轮次对话中情感对话策略的一致性，并使用策略重写机制动态调整对话策略。��

15 of 28

谢谢，敬请批评指正！�

Beijing University of Posts and Telecommunications

https://ai.bupt.edu.cn/

16 of 28

Q&A

�

[1] Tu Q, Li Y, Cui J, et al. MISC: A mixed strategy-aware model integrating COMET for emotional support conversation[J]. arXiv preprint arXiv:2203.13560, 2022.

17 of 28

总结与展望

�

算法创新：按照针对当前对话系统在情感对话中的不足，以情感对话的特点为出发点，设计了情感策略选择算法和外部知识搜索算法，使大语言模型自动生成提示，能自我推理，能自行使用工具，从而使其输出更符合人类意图。
系统实现：按照软件工程系统开发的专业要求，以情感对话需求分析为出发点，采用增量迭代式的开发模型，最终实现了功能完善、性能优良的对话系统。

工作总结

不足：提示工程对基础模型的参数十分敏感，使用开源模型(ChatGLM)效果不佳，依赖ChatGPT-API。
展望：可将上述算法同强化学习或Tree Of Thought相结合，从而提升大模型的逻辑推理能力。

尝试一：曾经尝试自我反思的方式[1][2]将强化学习同知识和策略搜索结合，但是缺乏相应数据。
尝试二：利用微调llama-7B模型+lora框架生成提示，在PsyQa和shareGPT数据集上训练，但是效果不佳。

尝试与实验

不足与展望

[1] Long J. Large Language Model Guided Tree-of-Thought[J]. arXiv preprint arXiv:2305.08291, 2023.

[2] Shinn N, Labash B, Gopinath A. Reflexion: an autonomous agent with dynamic memory and self-reflection[J]. arXiv preprint arXiv:2303.11366, 2023.

18 of 28

算法创新一：情感策略选择算法

�

对话结果

情感策略选择算法流程图：提升语言模型多轮情感对话能力

模型回复：基于COT选择回复策略

对话策略：如何回答用户？

思维链：语言模型的自我推理

19 of 28

算法创新二：外部知识搜索算法

�

对话结果

灾难心理救援

建议通风

建议关闭门窗

氯乙烯（剧毒）

建议健康监测

针对性建议

一般性性建议

20 of 28

系统设计与实现：融入知识的共情对话系统

�

21 of 28

Q&A

�

22 of 28

这后面的是如果答辩问到，用于回答的一些图和结果

�

在小模型上没有，但是会出现在大模型上的能力。因此，该能力不能通过简单的对小规模模型的改善了预测。

不同任务能力涌现的参数规模不一样

大多数能力涌现的参数规模为10B这个量级

Emergent Abilities of Large Language Models,2022

23 of 28

自适应提示

�

文本与现实的对齐

24 of 28

这后面的是如果答辩问到，用于回答的一些图和结果

�

在小模型上没有，但是会出现在大模型上的能力。因此，该能力不能通过简单的对小规模模型的改善了预测。

不同任务能力涌现的参数规模不一样

大多数能力涌现的参数规模为10B这个量级

Emergent Abilities of Large Language Models,2022

25 of 28

研究意义

�

本研究的主要目标是探索一种使用提示工程让大型语言模型学习领域知识并可控生成的方法，并将其应用于对话系统领域，以提升对话效果。

文本与现实的对齐

26 of 28

研究意义

�

本研究的主要目标是探索一种使用提示工程让大型语言模型学习领域知识并可控生成的方法，并将其应用于对话系统领域，以提升对话效果。

文本与现实的对齐

27 of 28

�

使用prompt生成结果

SFT训练过程的验证（跑一个小数据集+6B模型）后生成的结果

听到您容易失眠，我很理解您所面临的困扰。睡眠是我们身体和心理健康的重要组成部分，如果我们无法获得充足和高质量的睡眠，可能会影响我们的情绪、认知和身体健康。

让我们一起探索一下您失眠的原因。您是否感到压力、焦虑或担忧？这些情绪可能会干扰您的睡眠。您是否有不良的睡眠习惯或作息规律？例如，晚上使用电子设备或食用咖啡因可能会使您难以入睡。您是否有任何健康问题或在服用药物？某些疾病或药物可能会干扰您的睡眠。

针对您的情况，我建议您尝试以下方法来改善睡眠：

建立健康的睡眠习惯和规律，例如每天固定的睡眠时间和起床时间，避免在晚上过度使用电子设备和食用咖啡因等。

放松身心，例如进行深呼吸、渐进性肌肉松弛、冥想等放松练习。

维护健康的生活方式，包括均衡饮食、适当的运动、减少压力和焦虑等。

如果您无法入睡，不要躺在床上烦恼，可以起床进行一些放松的活动，直到您感到疲倦为止。

如果您经常失眠，可以考虑咨询专业的心理医生或睡眠专家，以获取更深入的帮助和支持。

这些方法可能需要一些时间和耐心来生效，但是坚持下去，您会发现改善睡眠质量的成果。请注意，这些建议并不是适用于所有的人，如果您有任何健康问题或疑虑，请与您的医生或健康专业人员进行咨询。

28 of 28

�

直接生成结果

我很遗憾听到您正在失眠，失眠会让身体和心理都感到不适。以下是一些可能有助于缓解失眠的方法：

维持一个规律的睡眠时间表：尽量每天在相同的时间上床睡觉和起床，帮助身体养成习惯。

创造一个放松的睡眠环境：确保房间安静、黑暗和凉爽，使用舒适的床垫和枕头。

避免过度刺激：在睡觉前避免饮用咖啡、茶和饮料，也不要使用电子设备，如手机和电脑。

尝试放松技巧：深呼吸、渐进性肌肉松弛、冥想等方法有助于放松身心，帮助您入睡。

不要让睡眠问题成为压力：如果您感到自己无法入睡，请不要强迫自己入睡，否则可能会使情况变得更糟。可以做一些轻松的事情，例如阅读、听音乐等，直到您感到困倦。

如果您的失眠持续较长时间或非常严重，建议您咨询医生或专业心理医生寻求帮助。他们可以为您提供更具体的建议和治疗方案。

计划将工作成果投英文会议，毕设相当于中期结果