Multilingual Connotation Frames: A Case Study on Social Media for Targeted Sentiment Analysis and Forecast

多语言内涵框架:社会媒体目标情感分析与预测案例研究

Abstract
世界各地的人们通过社交媒体对现实世界的重大事件做出反应。为了研究跨多种语言和地理位置的有针对性的公众情绪,我们引入多语言内涵框架:Rashkin等人(2016)的英语内涵框架的延伸,以及另外的10种欧洲语言。在一个框架内。作为案例研究,我们使用120万个从Twitter中提取的多语言内涵框架,对针对重要事件和实体的目标公众情绪进行了大规模分析。
1 Introduction
世界各地的人们利用社会媒体来表达他们对现实世界重大事件的看法和意见(Atefeh and Khreich, 2015; Radinsky and Horvitz, 2013)。为了便于在社交媒体上追踪多语种公众情绪,我们引入了多语种内涵框架,1Rashkin等人的英语内涵框架的多语种扩展。(2016)增加了10种欧洲语言,包括低资源语言,如波兰语、芬兰语和俄语。
Definition 1.1.
内涵框架:用于编码由谓词对其参数所暗示的谓词特定内涵关系的框架。
图1显示了在我们的研究中相关的内涵框架的选择子集。见Rashkin等。(2016)对内涵框架进行全面描述。
PIC1
图1:“生存”与“作者”、“代理人”、“主题”和“读者”的定向情感的内涵框架。推特示例显示了自动诱导的多语言内涵框架。
发展多语种内涵框架有两个重要的方面。首先,它们作为一个独特的词汇资源来支持有针对性的情感分析,而这在大多数语言中很少存在。
定义2:
目标情绪:情绪源标签,指示源实体对目标实体的感觉。
在图1所示的示例中,“青少年在波士顿马拉松爆炸中幸存下来”,该内涵框架允许我们正确地解释(暗示的)目标情绪,包括:

  1. sentiment(teenager → bombing) = –
  2. sentiment(writer → bombing) = –
  3. sentiment(writer → teenager) = +
    其次,它们让我们能够研究包括细微差别的情感在内的广泛的情绪;在上面讨论的例子中,内涵框架允许我们推断(1)事件参与者之间的可能情绪(例如,一个幸存的青少年可能对波士顿爆炸事件持否定态度),以及(2)作者对事件和实体的可能情绪(例如,作者可能对青少年表示同情,而对事件表示否定),即使这些情绪暗示没有公开地表达。
    为了验证新多语种内涵词典的实证有效性,我们基于10种不同欧洲语言的120万条推文的内涵框架,提出了一个成功的大规模内涵分析(4.1节)和预测(4.2节)案例研究超过15天。
    2 Multilingual (多语言)Twitter Dataset
    我们在3月15日至2016年3月29日之间获得了多语种地理位置的推特。这15天的时间涵盖了布鲁塞尔3月22日以及前后整整一周的袭击,使我们能够研究公众对重大恐怖事件的反应情绪动态。我们通过选择来自可信来源(如twitter-verified帐户或已知新闻帐户)或包含哈希表#breaking or #news)的tweet来关注可能与“新闻价值”主题相关的tweet。10种非英语语言的通用语法模型。我们提取了120万个agent-verb-theme(代理-动词-主题)元组,如表1所示。
    PIC1
    预测分布:3月25日(英国~布鲁塞尔)
    图2:LSTM模型图,用于基于前一天(例如,3月25日)预测从位置(例如,英国)到实体(例如,布鲁塞尔)的视角分布。
    3 Methods
    3.1 Multilingual Connotation Frames
    我们使用大型平行语料库对另外10种欧洲语言进行基于上下文的英语内涵框架投影。由于一个词的内涵产生于使用该词的上下文,我们希望确保翻译后的内涵框架在类似的上下文中使用。我们使用具有自动单词对齐的现有并行语料库:Opus语料库(Tiedemann,2012),使用针对俄语和欧洲Parl的并行数据(Koehn,2005)的多联合国并行数据(Eisele和.,2010)。
    更具体地说,对于每个非英语动词,v′(例如,法语中的刺客),我们通过计算对齐来计算它被翻译成英语动词v的概率。
    然后,通过转移英语动词v,F(v)的内涵框架,推导出v′,F(v′)的内涵框架,该框架具有最高的翻译概率:
    PIC1
    例如,暗杀者的内涵框架是从谋杀这个英语单词中传播的,这个单词与谋杀最一致。
    3.2 Extracting Targeted Sentiments
    使用内涵框架词汇,我们计算目标情感对最频繁提及的命名实体的分布。我们还通过聚集位于那个国家的作家的所有情感(例如,在英国微博中表达对奥巴马的积极、中立和消极观点的分布)这个聚合的极性可以表示为三维概率向量p = [p+p=p−],这将在下面的情绪预测任务中使用。对于其他分析,我们将这个极性分布概括为标量分数,取极性的期望值:
    E[p] = p+ - p−.
    3.3 Forecasting Sentiment Dynamics
    我们还研究了预测情绪动力学:根据前一天的情绪趋势,预测第二天的情绪分布。
    对于这个任务,我们跟踪来自每个国家的指向性情绪向100个最常提到的命名实体的分布。在测试时,每个模型被给出前4天的方向情绪分布作为输入,并预测明天的分布(例如,提前1天预测)。我们还训练模型预测半个星期后的分布(提前4天预测)。
    我们又做了一个英语实验(ENJ),把所有国家的观点汇集在一起,以便预测全球观点。对于所有的实验,我们使用10倍的交叉验证并测量真实分布与预测分布之间的对称Kullback-Leibler(KL)散度。
    我们使用长期短期记忆模型(LSTMs)(Hochreiter和Schmidhuber,1997)来整合来自过去的动态上下文信息,如第二部分.隐藏维数为16,以KL散度为目标,采用亚当优化。为了实现,我们使用TeaNo(4)顶部的Kelas(5)。
    (4)https://keras.io(5)https://deeplearning.net/software/theano
    Baselines
    我们使用两个基线。训练数据的平均分布是平均值。第二种是具有线性核的SVM,它在类似设置中很好地预测了Inuenza活动(Santillana等人,2015)。对于基线,我们将从前4天的分布编码为12维向量,并分别预测每个部分的分布。
    4 Results
    4.1 Connotation Analysis
    对于最常提到的命名实体,我们计算向该实体表达的预期透视图的热图。
    PIC1
    图3:对2周内仅使用来自欧洲国家的英文推文的13个命名实体的预期观点的热图。红色更积极,蓝色更消极。

在图3A中,我们使用来自欧洲国家的英语tweet来描绘15天期间这些实体的内涵极性的变化。一般来说,极性每天的变化似乎是渐进的,并且经常与前一天相似。有几个例外,例如,3月22日(布鲁塞尔袭击的日子),对布鲁塞尔的极性突然改变,重新改变当时所有与布鲁塞尔有关的推文的语调。
总的来说,大多数都表现出积极的极性。这可能会改变人们避免过于苛刻地说故事的倾向,甚至在讨论坏消息时也选择更加委婉。
在图3b中,我们将这些推特的极性聚集在原产国。虽然大多数极性是(正向的-强烈的) positive-strongly 正向的,但是关于布鲁塞尔和比利时的Twitter更加中立,甚至稍微有些消极。
最后,在图3C中,我们使用来自欧洲国家的所有tweet以11种不同语言聚合预期的极性。非英语语言显示出高得多的积极得分倾向,尤其是微博数量较少的语言(波兰语、芬兰语、瑞典语)。
PIC1
图4:在11种不同语言中随着时间的推移对奥巴马的透视图。
作为更详细的分析,图4显示了不同语言中表达给奥巴马的内涵如何随时间变化的热图。奥巴马在芬兰语或瑞典语中讨论得不多,但是每天用英语、西班牙语和俄语讨论他。在这两周的中间,对奥巴马的看法略有下降,最显著的是西班牙语,这与他对古巴(3月20日至22日)有争议的访问重叠。
4.2 Sentiment Dynamics
在表2中,我们总结了我们的实验结果预测目标情绪动态。。对于每种语言,我们报告基线和LSTM模型的平均Kullback-Leibler散度(高分更差)。我们在两个设置中显示预测结果:提前一天预测分布,而不是提前四天。
LSTM在大多数语言中优于基线,有一些例外,例如葡萄牙语。所有模型预测未来4天的表现都比预测前一天差,表明随着时间推移,甚至在较短的时间内,随着新闻事件的变化,其内涵会有多大的变化。平均而言,LSTM预测未来1天的KL发散度为1.7,预测4天的KL发散度为3.26。在前面,比任何基线都要低。
PIC1
表2:LSTM输出的平均Kullback-Leibler偏差预测11种不同语言的每个实体的作者观点的分布。

在第一行中,所有国家/地区的观点汇总在一起。
4.3 Error Analysis
为了进行错误分析,我们从培训数据中删除了图3中的实体,并将它们用作一个LSTM的小测试集,该LSTM用英语进行剩余数据的培训,并在所有国家进行聚合。在图5中,我们已经绘制了四个实体的预测边际概率,其中分布的正部分(蓝线)位于y轴的上半部,而负部分(红线)位于轴的负半部。
PIC1
图5:在三个特定实体(TP: True Positive, PP: Predicted Positive, TN: True Negative, PN: Predicted Negative)上的真实极性分布与预测极性分布随时间的变化。
lstm是通用型的真正的曲线,但突然竞相失误(如3月27日俄罗斯负极性剧增)。在表3,我们还报告了KL对这些实体的不同预测。该模型在预测对基于新闻故事的情绪突然激增的实体的情绪方面往往表现不佳。
PIC1
表3:持有实体的错误分析。
5 Related Work
对于twitter的情感分析 (Agarwal et al., 2011;Kouloumpis et al., 2011; Pak and Paroubek, 2010),以及目标情感、内隐情感(邓和威比,2014;冯等人,2013;格林和瑞斯尼克,2009)和主观语言的特殊方面(Mohammad和Turney,2010;Choi和Wiebe,2014),在其他领域已有大量研究。之前的调查包括使用目标情绪来预测国际关系(Chambers等人,2015),分析文体元素来预测推特流行度(Tan等人,2014),以及探索社交媒体帖子参考特定新闻文章(Tan等人,2016.)的重新措词。与以往大多数只关注英语推特中的显性情感的研究相比,我们的工作旨在跨时间、空间和语言边界研究有针对性的隐性情感。
一些工作(Tsytsarau et al。,2014; O’Connor et al。,2010; De et al。,2016)分析了一段时间内公开情绪的转变,并将情绪转变与新闻事件相关联。 一系列工作也在Twitter中使用预测信号来跟踪和感知特定国家即将发生的动乱和抗议活动(Ramakrishnan等,2014; Goode等,2015),以及基于多个文本来源的流动活动的未来发展 (Santillana等,2015)。 相比之下,我们专注于根据以前的趋势预测社交媒体中的情绪动态。
6 Conclusions
当报道新闻时,人们用他们自己的隐含和明确的偏见和判断写作。作者对语言的选择揭示了实体的内涵,这些内涵可以在我们扩展到10种欧洲语言的内涵框架中捕捉到。
本文是对多语种内涵动态进行大规模分析的第一篇论文,有助于探索跨语言、跨时间、跨国家的多视角问题,这是理解新闻报道和偏见的重要篇章。
7 Acknowledgments
这项研究是在巴特尔为美国运营的多项目国家实验室——太平洋西北国家实验室进行的。我们要感谢乔什·哈里森、吉尔·施罗德和贾斯汀·戴的贡献。我们还要感谢匿名审稿人提供有见地的反馈。这一材料是基于国家科学基金会研究生奖学金计划的支持下的工作。
授予号为DGE-1256082,部分由NSF授予IIS-1408287、IIS-1524371和Google和Facebook的礼物。