基于迭代情绪交互网络的对话情绪识别

阅读量：2242 次

发布时间：2019-05-09

本文共 5167 字，大约阅读时间需要 17 分钟。

『今日视频推荐』

论文名称：An Iterative Emotion Interaction Network for Emotion Recognition in Conversations

论文作者：陆鑫，赵妍妍，吴洋，田一间，陈惠鹏，秦兵

原创作者：陆鑫

论文链接：https://www.aclweb.org/anthology/2020.coling-main.360.pdf

转载须标注出处：哈工大SCIR

本工作研究的任务是对话情绪识别，旨在识别对话中所有话语的情绪。考虑到对话中的话语情绪是相互影响的，现有工作通常都建模对话上下文的内容，以此来隐式地建模话语的情绪交互，但这种做法常被语言中的复杂表达所干扰，导致情绪交互变得不可靠。我们注意到话语的情绪标签可以提供显式且精确的情绪交互，但情绪标签在测试阶段是不可获得作为输入的。

为了解决这个问题，我们提出了一个迭代情绪交互模型，该模型使用迭代预测的情绪标签代替真实情绪标签，在迭代过程中不断更正预测并反馈输入，实现逐步增强的显式情绪交互。实验结果表明，使用迭代预测标签有效地保留了显式建模的性能优势，并在迭代过程中可以实现有效的预测修正。最终，我们的方法在两个公开数据集上取得了当时最好的结果。

本期AI TIME PhD直播间，我们有幸邀请到了该论文的作者，哈尔滨工业大学的博士生陆鑫，为大家分享这项研究工作！

陆鑫：哈尔滨工业大学社会计算与信息检索研究中心(SCIR)一年级博士研究生，导师为秦兵教授、赵妍妍副教授，主要研究方向为文本情感分析、对话情感。

‍1. 任务简介

对话情绪识别（Emotion Recognition in Conversations，ERC）是对话情感研究中的一个主要任务，用于实现具有情感理解能力的对话系统。该任务是一个分类任务，旨在对一段对话中的所有话语进行情绪分类。任务的输入是一段连续的对话，输出是这段对话中所有话语的情绪，图1可视为对话情绪识别的一个实例。

图1 对话情绪识别的一个实例

2. 背景和动机

对话情绪识别不同于一般的句子级情绪识别，该任务需要考虑对话中话语情绪的相互影响。已有工作通常都建模对话上下文内容，以此来隐式地建模话语的情绪交互[1-7]，但这种做法常被语言中的复杂表达所干扰，导致情绪交互变得不可靠。图2左侧的对话就是一个具体的例子，此例子中说话人A的反讽表达就导致了对说话人B话语的错误情绪判断。我们注意到，话语的情绪标签可以提供显式且精确的情绪交互，如图2右侧所示，此例子中说话人A话语的愤怒情绪标签提供了精确的情绪信息，使得说话人B话语的情绪判断不再受到干扰。

图2 两种建模情绪交互方式的对比实例

然而，显式建模情绪交互存在一个实际困难，即情绪标签仅能在训练阶段获得，在测试阶段是不可能事先得到并作为输入的。为了解决这个问题，我们放宽了对情绪标签完全准确的要求，假设存在部分噪声的情绪标签也可以使情绪识别受益，并且情绪标签精度的不断提升也可以使情绪识别的性能不断增强，我们在后面的分析实验中也证实了这个假设的合理性。

基于以上想法，我们提出了一个迭代情绪交互模型，该模型使用迭代预测的情绪标签代替真实情绪标签，在迭代过程中不断更正预测并反馈输入，实现逐步增强的显式情绪交互。后面的实验结果表明，使用迭代预测标签可以有效保留显式建模的性能优势，并在迭代过程中可以实现有效的预测修正。此外，我们的方法在两个公开数据集上都取得了一定的提升，在工作发表时实现了最优的结果。

3. 方法

本工作提出了一个迭代情绪交互模型，主要包括话语级别编码器、情绪交互上下文编码器和迭代提升机制三部分，具体结构如图3所示。

图3 迭代情绪交互网络结构示意图

3.1 话语级别编码器

话语级别编码器的主要作用是获取所有话语的向量表示。首先，我们使用Bi-GRU来对每个话语的词序列进行编码，对于每个词将两个方向的表示拼接得到词的隐层状态表示。

之后，我们使用注意力机制对话语中所有词的隐层状态进行聚合，就可以得到每个话语的向量表示。

3.2 情绪交互上下文编码器

情绪交互上下文编码器的主要作用是显式建模话语的情绪交互，由三部分组成：情绪嵌入层、双向门控循环单元和情绪分类器。该模块的输入是话语表示序列和上下文情绪概率分布，输出是更新后的上下文情绪概率分布。首先，对于每个话语的情绪概率分布，将其与各个情绪标签的嵌入表示加权求和，可以得到话语的情绪表示。

然后，将话语向量表示和话语情绪表示拼接作为新的话语表示，输入到Bi-GRU中得到话语的隐层状态表示。

最后，对于每个话语的隐层状态表示，将其输入到情绪分类器中，可以得到更新后的话语情绪概率分布。

3.3 迭代提升机制

迭代提升机制是模型的核心部分，本工作使用此机制实现迭代增强的多轮情绪预测。迭代提升机制主要包含三部分：初始情绪预测、迭代情绪反馈和迭代损失函数。首先，为了实现对情绪预测的迭代修正，必须对情绪进行初始预测，我们将话语级别编码器输出的话语表示送入到一个分类层，得到初始上下文情绪概率分布。

然后，我们将某一轮更新后的上下文情绪概率分布再次作为情绪交互上下文编码器的输入，实现情绪预测的迭代更新。

最后，为了约束每轮迭代的预测结果和相邻两轮迭代之间的情绪修正行为，我们设计了两个损失函数，并通过组合它们得到最终的损失。

4. 实验

4.1 数据集

我们在两个公开数据集IEMOCAP[8]和MELD[9]上进行了实验，两个数据集的基本情况如下：

IEMOCAP数据集，包含 152段对话，7,433个话语，标注了6个情绪类别

MELD数据集，包含 1,433段对话，13,708个话语，标注了7个情绪类别

4.2 主实验结果

表1 IEMOCAP数据集实验结果表2 MELD数据集实验结果

表1显示了基线方法和我们的方法在IEMOCAP数据集上的实验结果，可以看出我们的方法取得了最好的结果，相比最好的基线模型有高于1%的绝对提升。表2显示了在MELD数据集上的实验结果，同样是我们方法的结果最好，绝对提升也超过了1%。

4.3 情绪交互有效性分析

表3 情绪交互有效性分析结果

我们对建模情绪交互的有效性进行了分析，其中No Label是隐式建模情绪交互的模型，Gold Label是显式建模情绪交互的模型，其在测试阶段可使用精确的情绪标签，中间是我们的方法在不同迭代轮次时的结果。从表中可以看到，隐式建模性能最低，完美显式建模性能最高，我们的迭代方法介于两者之间，说明在实际可用的基础上有效保留了显式建模的性能优势。

4.4 最大迭代轮数影响分析

图4 最大迭代轮数影响分析结果

我们对最大迭代轮数影响进行了分析，从图中可以看到，在两个数据集上，性能都随着最大迭代轮数的增加，呈现先上升后下降的趋势。其中，IEMOCAP数据集在最大迭代轮数为3时达到最好性能，MELD数据集在最大迭代轮数为2时达到最好性能。这个结果说明适当的迭代轮数可以逐步提升模型的性能，这与我们的猜测一致；而过多轮数的迭代会使结果变差，这个现象符合常识和直觉，一种可能的解释是过多轮数会导致训练集上的过拟合。

4.5 迭代修正行为分析

表4 迭代修正行为分析结果

我们分析了固定最大迭代轮数的情况下，我们模型每一步的预测结果和相邻两步之间的修正行为。对于IEMOCAP数据集，我们选择了最大迭代轮数为3的模型进行分析；对于MELD数据集，我们则选择了最大迭代轮数为2的模型。从表中可以看到，IEMOCAP数据集和MELD数据集上，我们的迭代模型每一步的预测性能都在逐渐升高，这说明模型内部的迭代提升现象是确实存在的。此外，两个数据集上所有相邻两步的预测标签变化中，都是由错改对的情况最多，这说明在迭代过程中，确实在进行有效的情绪预测修正。

5. 结论

本文中，我们为对话情绪识别提出了一个迭代情绪交互模型，相比于已有工作隐式建模话语的情绪交互，我们的方法利用情绪标签显式地建模了话语的情绪交互，可以避免语言中的复杂表达对情绪识别造成干扰。此外，为了解决测试阶段情绪标签不可用的问题，模型使用迭代预测的情绪标签代替真实情绪标签，在迭代过程中不断更正预测并反馈输入，实现了逐步增强的显式情绪交互。实验结果表明，我们的方法可以在迭代过程中实现有效的预测修正，从而保留了显式建模的性能优势，最终在两个公开数据集上取得了最好的结果。

6. 参考文献

[1] S. Poria, E. Cambria, D. Hazarika, N. Majumder, A. Zadeh, and L.-P. Morency. Context-Dependent Sentiment Analysis in User-Generated Videos. ACL 2017.

[2] W. Jiao, H. Yang, I. King, and M. R. Lyu. HiGRU: Hierarchical Gated Recurrent Units for Utterance-Level Emotion Recognition. NAACL 2019.

[3] D. Hazarika, S. Poria, A. Zadeh, E. Cambria, L.-P. Morency, and R. Zimmermann. Conversational Memory Network for Emotion Recognition in Dyadic Dialogue Videos. NAACL 2018.

[4] D. Hazarika, S. Poria, R. Mihalcea, E. Cambria, and R. Zimmermann. ICON: Interactive Conversational Memory Network for Multimodal Emotion Detection. EMNLP 2018.

[5] N. Majumder, S. Poria, D. Hazarika, R. Mihalcea, A. Gelbukh, and E. Cambria. DialogueRNN: An Attentive RNN for Emotion Detection in Conversations. AAAI 2019.

[6] D. Ghosal, N. Majumder, S. Poria, N. Chhaya, and A. Gelbukh. DialogueGCN: A Graph Convolutional Neural Network for Emotion Recognition in Conversation. EMNLP 2019.

[7] D. Zhang, L. Wu, C. Sun, S. Li, Q. Zhu, and G. Zhou. Modeling both Context-and Speaker-Sensitive Dependence for Emotion Detection in Multi-speaker Conversations. IJCAI 2019.

[8] C. Busso et al. IEMOCAP: interactive emotional dyadic motion capture database. Lang Resources & Evaluation.

[9] S. Poria, D. Hazarika, N. Majumder, G. Naik, E. Cambria, and R. Mihalcea. MELD: A Multimodal Multi-Party Dataset for Emotion Recognition in Conversations. ACL 2019.

AI TIME欢迎AI领域学者投稿，期待大家剖析学科历史发展和前沿技术。针对热门话题，我们将邀请专家一起论道。同时，我们也长期招募优质的撰稿人，顶级的平台需要顶级的你！

请将简历等信息发至yun.he@aminer.cn！

微信联系:AITIME_HY

AI TIME是清华大学计算机系一群关注人工智能发展，并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索，加强思想碰撞，打造一个知识分享的聚集地。