1 of 28

Emotional Support Dialog System Through�Recursive Interactions Among �Large Language Models

陈可淇、练慧俊、高迎明、李雅

北京邮电大学 人工智能学院

2023.12

Beijing University of Posts and Telecommunications

https://ai.bupt.edu.cn/

2 of 28

  • 大语言模型辅助的心理治疗对话
  • 研究背景
  • 研究动机
  • 系统架构
    • 递归的对话策略
    • 多智能体对话策略
  • 总结
  • Q&A

目录

3 of 28

大语言模型辅助的心理治疗对话:研究意义

  • 心理咨询

  • 灾害心理救援

  • 情感陪伴

4 of 28

大语言模型辅助的心理治疗对话:性能要求

  1. 情感理解:理解情绪

  • 情感对话:表达情绪(共情)

  • 情感支持:主动缓解用户情绪问题

普通对话

情感对话

共情

(情感支持) 提供建议

情感支持

心理治疗

5 of 28

背景:如何在心理治疗领域应用大语言模型?

目标:如何实现AI心理咨询师?

解决思路一:构建心理咨询数据集+训练\微调一个针对心理对话的垂类大语言模型

  • 第一步:收集并清洗心理咨询数据,构建垂直领域的数据集。

  • 第二步:在心理咨询数据集中训练或者微调一个大语言模型。

  • 第三步:部署模型到生产环境中。�

问题:成本?模型维护?参数量级?

传统的训练/微调工作流

6 of 28

背景:能否将基础大语言模型直接应用于心理治疗中?

解决思路二:使用基础大语言模型+提示工程

问题:基础语言模型具备较好的情感理解能力,但是缺乏情感支持能力

  • 缺乏主动性:模型不会主动不会主动提问并引导用户,对话的主动性不在模型手中。

  • 缺乏多轮情感对话能力:在多轮对话场景下表现不佳,缺乏一个宏观的对话策略和目标。

  • 知识性回答\指令回答:大语言模型在完成指令和知识问答上表现优秀,但是在情感对话中表现一般,其回答往往表现为冗长、总分总式、百科全书式的回答。

人类咨询师、ChatGPT、我们的 的回复

直接给出建议,缺乏循循善诱

不去询问用户焦虑的原因

总分总式回答,回复缺乏多样性

7 of 28

研究动机:能否结合这两种模型的优势?

优势\模型�

微调后的领域模型

(思路一)

基础大语言模型

(思路二)

代表模型

在心理对话数据集上微调的7B参数的Llama模型

GPT-3.5 (175B)

知识

领域知识

更全面的知识

逻辑能力

一般

更强

数据

私有(本地微调)

需要上传

领域表现

在心理对话上表现较好

在知识型回答\遵循指令回答上表现较好

模型更新

需要重新微调本地模型

定期升级

研究动机:

  • 领域模型掌握领域知识:
  • 领域模型负责生成符合规范的指令。�(心理治疗中的特定策略)

  • 基础语言模型在遵循指令能力更强:
  • 基础语言模型在领域策略的指导下生成领域回复。

领域模型和基础大语言模型各自的优劣

8 of 28

研究概述:如何选择心理治疗中的策略?

支持性心理疗法(Supportive Psychotherapy

  • 该疗法旨在通过积极倾听、提供情感支持和表达认可来帮助患者建立自信,从而引导患者进行自我陈述。

其他心理疗法: �如认知行为疗法 (CBT)

  • 认知行为疗法旨在识别和改变不良思想和行为,该疗法包括认知重建和行为激活等技术。

支持性心理治疗策略+AI模型

  • 相比其他心理治疗策略,支持性心理治疗更适合大语言模型去生成。

符合支持性心理疗法的策略规范

9 of 28

项目概述:系统架构-模型准备

领域模型:在心理咨询数据数据集上微调后的ChatGLM-6B模型

基础大语言模型:GPT3.5

模型准备:

  • 其中领域模型为ChatGLM,在EsConv 心理咨询数据集上进行微调。

微调数据组成形式为:

  • 输入为心理咨询对话。
  • 输出为咨询师在最后一轮对话所使用的策略,其中的策略符合支持性心理疗法的规范。

10 of 28

项目概述:系统架构-回复生成阶段

领域模型:领域模型基于支持性心理疗法重写对话策略

基础大语言模型:通用语言模型在对话策略指示下生成心理咨询的回复候选

领域模型:领域模型对心理咨询回复候选进行投票

基础大语言模型:使用基础大语言模型重写对话策略

生成阶段一

生成阶段二

11 of 28

项目概述:系统架构-策略递归

系统输入:第t轮次策略由第t-1轮次策略递归得到

系统输出:在第t轮次递归生成下一轮生成初始策略

系统输入:多轮次对话历史

系统输出:对话回复

12 of 28

案例展示:回复对比

人类心理治疗师回复:反问用户,引导用户描述

通用大语言模型回复

解释问题

提出建议

表达共情

引导对话

通用大语言模型+Few Shot

我们的系统回复

13 of 28

自动&人工评估结果

模型评估:

  • 自动评估和人工评估。

自动评估:

  • 使用BLEU 来测量生成与GroundTurth之间重合度
  • 使用Dist指标衡量生成的文本中词汇丰富度。

人工评估:

  • 四位心理咨询师进行人工打分,她们都拥有国家二级心理证书,并有多年从业经验
  • 每个方法随机抽取20个多轮对话样例进行打分。
  • 参考指标为共情性、连贯性、帮助性和与患者建立信任关系的能力。

14 of 28

总结

意义:

  • 实现了一个大语言模型辅助的心理治疗对话系统。提升了大语言模型在心理治疗领域上的回复质量。

创新点:

  • 综合了通用大语言模型领域微调模型各自的优点。发挥领域微调模型灵活的优势和通用大语言模型在指令回答逻辑推理上的优势

  • 设计了一个策略递归机制用于保持多轮次对话中情感对话策略的一致性,并使用策略重写机制动态调整对话策略。�

15 of 28

谢谢,敬请批评指正!�

Beijing University of Posts and Telecommunications

https://ai.bupt.edu.cn/

16 of 28

Q&A

[1] Tu Q, Li Y, Cui J, et al. MISC: A mixed strategy-aware model integrating COMET for emotional support conversation[J]. arXiv preprint arXiv:2203.13560, 2022.

17 of 28

总结与展望

  • 算法创新:按照针对当前对话系统在情感对话中的不足,以情感对话的特点为出发点,设计了情感策略选择算法外部知识搜索算法,使大语言模型自动生成提示,能自我推理,能自行使用工具,从而使其输出更符合人类意图。
  • 系统实现:按照软件工程系统开发的专业要求,以情感对话需求分析为出发点,采用增量迭代式的开发模型,最终实现了功能完善、性能优良的对话系统。

工作总结

  • 不足:提示工程对基础模型的参数十分敏感,使用开源模型(ChatGLM)效果不佳,依赖ChatGPT-API。
  • 展望:可将上述算法同强化学习或Tree Of Thought相结合,从而提升大模型的逻辑推理能力。

  • 尝试一:曾经尝试自我反思的方式[1][2]将强化学习同知识和策略搜索结合,但是缺乏相应数据。
  • 尝试二:利用微调llama-7B模型+lora框架生成提示,在PsyQa和shareGPT数据集上训练,但是效果不佳。

尝试与实验

不足与展望

[1] Long J. Large Language Model Guided Tree-of-Thought[J]. arXiv preprint arXiv:2305.08291, 2023.

[2] Shinn N, Labash B, Gopinath A. Reflexion: an autonomous agent with dynamic memory and self-reflection[J]. arXiv preprint arXiv:2303.11366, 2023.

18 of 28

算法创新一:情感策略选择算法

对话结果

情感策略选择算法流程图:提升语言模型多轮情感对话能力

模型回复:基于COT选择回复策略

对话策略:如何回答用户?

思维链:语言模型的自我推理

19 of 28

算法创新二:外部知识搜索算法

对话结果

灾难心理救援

建议通风

建议关闭门窗

氯乙烯(剧毒)

建议健康监测

针对性建议

一般性性建议

20 of 28

系统设计与实现:融入知识的共情对话系统

21 of 28

Q&A

22 of 28

这后面的是如果答辩问到,用于回答的一些图和结果

  • 在小模型上没有,但是会出现在大模型上的能力。因此,该能力不能通过简单的对小规模模型的改善了预测。

  • 不同任务能力涌现的参数规模不一样

  • 大多数能力涌现的参数规模为10B这个量级

Emergent Abilities of Large Language Models,2022

23 of 28

自适应提示

文本与现实的对齐

24 of 28

这后面的是如果答辩问到,用于回答的一些图和结果

  • 在小模型上没有,但是会出现在大模型上的能力。因此,该能力不能通过简单的对小规模模型的改善了预测。

  • 不同任务能力涌现的参数规模不一样

  • 大多数能力涌现的参数规模为10B这个量级

Emergent Abilities of Large Language Models,2022

25 of 28

研究意义

本研究的主要目标是探索一种使用提示工程让大型语言模型学习领域知识可控生成的方法,并将其应用于对话系统领域,以提升对话效果。

文本与现实的对齐

26 of 28

研究意义

本研究的主要目标是探索一种使用提示工程让大型语言模型学习领域知识可控生成的方法,并将其应用于对话系统领域,以提升对话效果。

文本与现实的对齐

27 of 28

使用prompt生成结果

SFT训练过程的验证(跑一个小数据集+6B模型)后生成的结果

听到您容易失眠,我很理解您所面临的困扰。睡眠是我们身体和心理健康的重要组成部分,如果我们无法获得充足和高质量的睡眠,可能会影响我们的情绪、认知和身体健康。

让我们一起探索一下您失眠的原因。您是否感到压力、焦虑或担忧?这些情绪可能会干扰您的睡眠。您是否有不良的睡眠习惯或作息规律?例如,晚上使用电子设备或食用咖啡因可能会使您难以入睡。您是否有任何健康问题或在服用药物?某些疾病或药物可能会干扰您的睡眠。

针对您的情况,我建议您尝试以下方法来改善睡眠:

建立健康的睡眠习惯和规律,例如每天固定的睡眠时间和起床时间,避免在晚上过度使用电子设备和食用咖啡因等。

放松身心,例如进行深呼吸、渐进性肌肉松弛、冥想等放松练习。

维护健康的生活方式,包括均衡饮食、适当的运动、减少压力和焦虑等。

如果您无法入睡,不要躺在床上烦恼,可以起床进行一些放松的活动,直到您感到疲倦为止。

如果您经常失眠,可以考虑咨询专业的心理医生或睡眠专家,以获取更深入的帮助和支持。

这些方法可能需要一些时间和耐心来生效,但是坚持下去,您会发现改善睡眠质量的成果。请注意,这些建议并不是适用于所有的人,如果您有任何健康问题或疑虑,请与您的医生或健康专业人员进行咨询。

28 of 28

直接生成结果

我很遗憾听到您正在失眠,失眠会让身体和心理都感到不适。以下是一些可能有助于缓解失眠的方法:

维持一个规律的睡眠时间表:尽量每天在相同的时间上床睡觉和起床,帮助身体养成习惯。

创造一个放松的睡眠环境:确保房间安静、黑暗和凉爽,使用舒适的床垫和枕头。

避免过度刺激:在睡觉前避免饮用咖啡、茶和饮料,也不要使用电子设备,如手机和电脑。

尝试放松技巧:深呼吸、渐进性肌肉松弛、冥想等方法有助于放松身心,帮助您入睡。

不要让睡眠问题成为压力:如果您感到自己无法入睡,请不要强迫自己入睡,否则可能会使情况变得更糟。可以做一些轻松的事情,例如阅读、听音乐等,直到您感到困倦。

如果您的失眠持续较长时间或非常严重,建议您咨询医生或专业心理医生寻求帮助。他们可以为您提供更具体的建议和治疗方案。

  • 计划将工作成果投英文会议,毕设相当于中期结果