基于部首的中文情感分析分级嵌入
Abstract
汉语情感分析中的文本表征通常是在词或字层面上进行的。本文证明了基于部首层面的处理可以大大提高情感分类的性能。特别地,我们提出了两种基于汉语根基的分层嵌入。这些嵌入不仅结合了词根层和字层面的语义,还融合了情感信息。在评价我们的嵌入时,我们在句子层次上对四个不同的数据集进行汉语情感分析。实验结果验证了我们的假设,即词根级语义和情感有助于句子情感的分类,并证明了我们的嵌入优于经典文本特征和流行词以及字层面的嵌入。
Introduction
对于每个自然语言处理(NLP)任务,文本表示始终是第一步。在英语中,单词按空格分割,它们自然被视为文本表示中的基本语素。然后,基于分布假设生成词嵌入。与英语的基本语素是前缀、词等字符的组合不同,汉语的基本语素是词根,它是汉字的(图形)成分。汉字内的偏旁具有各种相对位置。例如,它可以从左到右(‘ 蛤(toad) ’,‘ 秒(second) ’), 从上到下(‘ 岗(hill) ’, ‘ 孬(not good) ’), 从内到外(‘ 国(country) ’,‘ 问(ask) ’) 等等。
它们的存在不仅是装饰性的,而且是功能性的。部首有两个主要功能:发音和意义。由于本文的目的是情绪预测,因此我们对情绪预测函数更感兴趣。例如,部首“疒”带有疾病的含义。任何含有这个词根的汉字都与疾病有关,因此往往表达负面情绪,如‘ 病(illness) ’, ‘ 疯(madness) ’, ‘ 瘫(paralyzed) ’, etc.为了利用词根之间的语义和情感信息,我们决定把词根映射到嵌入(低维的数值表示)。
之所以选择嵌入,而不是像ngram、POS等经典的文本特征,是因为嵌入方法基于分布式假设,极大地探索了语义,并且依赖于令牌序列。相应地,单靠词根可能无法携带足够的语义和情感信息。只有当他们处于某种秩序中时,他们与情感的联系才开始显露出来(Poria等人。2017)。
据我们所知,在这项工作之前,还没有人提出过任何关于部首嵌入专门分析感情的工作。我们首先训练一个纯粹的部首嵌入命名为Rsemantic,希望捕捉部首之间的语义。然后,我们训练sentiment-specific radical embedding,并将其与Rsemantic相结合形成一个 radical embedding称为Rsentic,这个包含了语义和情感信息的编码。在此基础上,我们将两个获得的radical embeddings和汉字嵌入进行集成,形成基于词根的分层嵌入,分别称为Hsemantic 和Hsentic。
论文其余部分按如下方式组成:第一节说明词根嵌入的一般方法和汉语词根嵌入;第二部分对汉字和词根的分解进行了详细的分析;第三部分介绍了我们的分层嵌入模型;第四部分演示了所提出的方法的实验评价;最后,在第五部分对本文进行了总结,并提出了一些今后的改进意见。
Related Works
General Embedding Methods
one-hot表示法是NLP中的初始数字表示法。然而,它通常会导致高维度和稀疏性的问题。为了解决这个问题,提出了分布式表示法或word Embedding (Turian, Ratinov, and Bengio 2010).词嵌入是利用神经网络将词映射到实数低维向量的一种表示方法。其核心思想是基于分布假设,对如何表示上下文单词以及上下文单词与目标单词的关系进行建模。因此,语言模型是一个自然的解决方案。孟加拉国等国。(孟加拉等)2003)介绍了2001中的神经网络语言模型(NNLM)。
他们没有使用计数来建模ngram语言模型,而是建立了一个神经网络。词嵌入是建立语言模型的副产品。2007年,Mnih和Hinton提出了一个对数双线性语言模型(LBL)(Mnih和Hinton 2007),该模型建立在NNLM的基础上,随后升级为分层LBL(HLBL)(Mnih和Hinton 2009)和反向量LBL(ivLBL)(Mnih和Kavukcuoglu 2013)。而不是像上面那样建模NGRAM模型,Mikolov等人。(Mikolov等)2010)提出一种基于递归神经网络的模型以直接估计给定上下文的目标词的概率。
自从2008年引入C&W模型(Collobert和Weston 2008)以来,人们开始设计模型,模型的目标不再是语言模型,而是嵌入本身。C&W将目标词放置在输入层,并且只输出一个节点,该节点表示输入词序列的可能性。2013年底,Mikolov等人。介绍了连续词袋模型(CBOW)和跳跃图模型(Skip-gram),该模型将上下文词放在输入层,目标词放在输出层,跳跃图模型交换CBOW的输入和输出。他们还提出了负抽样,大大加快了训练。
Chinese Radical Embedding
(Chen et al. 2015) 2015年开始将中文分解为汉字,提出了一种汉字增强的嵌入模型(CWE)。 (Sun et al. 2014)开始将汉字分解为字根,并开发出增强字根的汉字嵌入。然而,他们只从每个字符中选择一个词根来增强嵌入。(Shi et al. 2015)开始训练纯部首嵌入用于短文本分类、中文分词和网络搜索排名。Yin et al.扩展纯部首嵌入通过引入多粒度汉语词嵌入。然而,上面的嵌入都没有考虑合并情感信息,并且将部首的嵌入应用于情感分类的任务(Cambria 2016)。为了弥合这种鸿沟,本文专门开发了基于词根的分层汉语嵌入用于情感分析。
Decomposition of Chinese Characters
中国文字可以追溯到公元前1200年至公元前1050年。它起源于甲骨文,它是刻在“龙骨”上的标志性符号。
Chinese Radicals
由于上述讨论的第二阶段,所有现代汉字都可以分解为部首。部首是字符的图形成分。字符中的一些部首起着象音素的作用。举个例子,部首‘ 丙’,出现在字符‘ 柄(handle) ’的右半部,象征着这个角色的发音。人们甚至有时能够通过识别汉字内部的某些部首来正确地预测他或她所不知道的汉字的发音。
字符中的其他一些词根的作用类似于承载字符语义的词素。举个例子, ‘ 木(wood) ’,它本身既是一个汉字,又是一种部首。例如汉字‘ 林(jungle) ’是由2个 ‘ 木’ 组成的,意思就是丛林。汉字 ‘ 森(forest) ’是由3个‘木’组成的,意思就是森林。在另一个例子中,部首“父”是单词“父亲”的正式形式。它出现在汉字“爸”的顶部,这个汉字确切地表示父亲,但不太正式,就像英语中的“dad”。
此外,一个汉字的意义可以从其部首的整合中得出。一个很好的例子 (Shi et al. 2015)是汉字‘朝’ 。这个汉字是由 ‘ 十’, ‘ 日’, ‘ 十’ 和‘ 月’ 这四个部首组成的。这四个自由基是从象形图演变而来的。‘ 十’代表草。‘ 日’ 代表太阳。‘ 月’代表月亮。这四者的结合意味着太阳取代了草地上的月亮,这实质上是“morning”这个词。毫不奇怪,这个汉字的意思是“morning”。这可能继续下去。如果词根“氵”的意思是水附着在字符“朝”的左边,那么它是另一个字符“潮”。从字面上看,这个字的意思是早晨的水。事实上,这个“潮”意味着潮汐,它符合它的字面意思。
总而言之,部首比单独的汉字承载更多的信息。汉字级研究只能研究汉字表示的语义。然而,深层语义信息和线索可以在部首层次分析中找到(Peng, Cambria, and Hussain 2017)。这促使我们运用深度学习技术来提取这些信息。在此之前,正如我们在相关作品中所讨论的,大部分作品都是英文的。由于英语在许多方面与汉语有很大不同,特别是在分解方面,我们在表1中进行了比较。
PIC1
从表1可以看出,字母级是组成英语的最低水平。但是,汉语中的等值水平比字符低一个等级,这是一个部首的层面。不同于英语,语义隐藏在每个汉字中。第二,汉字可以由单字或多字构成。此外,汉语句子中的词之间没有空格。以上观察表明,普通的英语词语嵌入不能直接应用于汉语。额外的处理,如分词,将引入错误,需要首先进行。
此外,如果一个新词或甚至一个新字符超出了词汇量(OOV),正常的词级或字符级除了给出一个随机向量之外没有合理的解决方案。本文提出了分级中文嵌入方法。
Hierarchical Chinese Embedding
在本节中,我们首先介绍用于训练分层嵌入的深度神经网络。然后,我们讨论了我们的分层部首嵌入。最后,我们提出了分层嵌入模型。
Skip-Gram Model
我们采用Skip-Gram神经嵌入模型提出的(Mikolov et al. 2013a)与负采样优化技术(Yin et al. 2016)。在这一部分中,我们总结了训练目标和模型。Skip-Gram模型可以理解为一个单词上下文版本CBOW模型(Mikolov et al. 2013a)在面板C上工作,其中C是目标词的上下文词的数目。与CBOW模型相反,目标单词在输入层,而上下文单词在输出层。通过生成最可能的上下文单词,可以训练权重矩阵,提取嵌入向量。
具体地说,它是一个隐层神经网络 (Rong 2014)。对于每个输入字,它用输入向量 Vwi表示。
隐藏层定义为:
PIC1
其中h代表隐藏层,Wi是输入隐权矩阵W的第i行。在输出层,输出C多项式分布,给定每个输出用隐藏输出矩阵计算为:
PIC1
wc,j是在输出层上的第c个面板的第j个单词; wO,c 是输出层的第c个上下文单词;WI是输入词向量;YC,j是在输出层的第c个面板上的第j个单元的输出;UC,j是在输出层的第c个面板上的第j个单元的净输入。此外,目标函数是使下面的公式最大化:
PIC1
其中Wj是上下文C中的第j个单词,给定目标词w。

Radical-Based Embedding
传统的部首研究像(Sun et al. 2014)只有从每一个汉字中去掉一个部首,才能提高汉字的嵌入性。而且,据我们所知,迄今为止还没有人提出过具有情感特征的汉语部首嵌入。因此,我们提出以下两个部首的嵌入式中文情感分析。
受汉字可分解为部首,且这些部首具有语义这一事实的启发,我们直接将汉字分解为部首,并按从左到右的顺序进行连接。我们把部首作为文本中的基本单位。特别地,对于任何句子,我们将每个汉字分解为它的部首,并将这些不同字符的汉字连接成一个新的部首字符串。然后对语料库中的所有句子进行了上述预处理。最后,利用skip-gram模型建立了部首语料库的部首嵌入模型。我们称这种类型的部首嵌入为语义词根嵌入(Rsemantic),因为从这种类型的语料库中提取的主要信息是词根之间的语义。为了提取词根之间的情感信息,我们发展了第二类词根嵌入,即词根嵌入(Rsentic)。
在研究词根之后,我们发现词根本身并不传达太多的情感信息,而携带情感信息的是不同词根的顺序或组合。因此,我们利用现有情感词典的优势作为我们的资源来研究序列。和以前一样,我们从两个不同的流行的汉语情感词典,Hownet(Dong and Dong 2006)和NTUSD(Ku,Liang, and Chen 2006)中收集所有的情感词,并将它们分解成词根。然后采用skip-gram模型来学习情感相关的自由基嵌入(Rsentiment)。
PIC1
由于我们希望部首嵌入同时具有语义信息和情感信息,因此我们对前两个嵌入进行融合处理。融合公式给出如下:
PIC1
其中Rsentic 是整合语义和情感信息的最终词根嵌入;
Rsemantic是语义嵌入,Rsentiment是情感嵌入;
W是融合的权重。如果W等于0,则 Rsentic是纯语义嵌入。如果W等于1,那么Rsentic是纯情感嵌入。
为了得到最佳的融合参数,我们对四个真实的中国情感数据集的分离发展子集进行了测试,即: Chn2000, It168, Chinese Treebank (Li et al. 2014) and Weibo dataset (details in next section).
我们训练一个卷积神经网络(CNN)对数据集中的句子情感极性进行分类。我们使用的特征是sentic radical嵌入,但是在不同的融合参数值下应用这些特征。在图1中示出了四个数据集上的不同融合值的分类精度。如图1所示的启发式算法,我们取最佳值0.7的融合参数。
Hierarchical Embedding
分层嵌入是基于不同的嵌入级别将捕获不同语义级别的假设。根据表1中汉语的层次结构,我们已经在词根层次上探讨了语义和情感。下一个更高的级别是字符级,后面是字级(多字符字)。然而,我们只选择字符级嵌入(Csemantic)来集成到我们的分层模型中,因为字符自然地通过Unicode进行分割(不需要预处理或分割)。现有的中文分词器虽然可以达到一定的精度,但是仍然会带来分词错误,从而影响词嵌入的性能。在层次化模型中,我们还使用skip-gram模型来训练独立的汉字嵌入。然后,我们将字符嵌入与语义根嵌入(Rsemantic)和感情根嵌入(Rsentic)融合以形成两种类型的分层嵌入:分别为Hsemantic 和Hsentic。该融合公式与根部嵌入的融合公式相同,只是根据我们的开发测试得出不同的融合参数值为0.5。在图2中描绘了分层模型的图形说明。
PIC1
Experimental Evaluation
在这一部分中,我们评估了我们提出的关于汉语句子级情感分类任务的方法。首先,我们介绍了用于评估的数据集。然后,我们演示了实验设置。最后,给出了实验结果并对它们进行了解释。
Dataset
我们的实验中使用了四个句子级的汉语情感数据集。第一个是微博数据集(Weibo),它是NLP&CC中文微博的集合,大约有2000个博客,分为正向和负向两个类别。第二个数据集是由李等人介绍的中文树库(Li et al. 2014)。对于每个情感类别,在将情感值映射到极性之后,我们得到了超过19000个句子。第三个数据集CHN2000,包含大约2000个来自Cuffels的酒店评论。最后一个数据集IT168,大约有1000个数字产品复述。所有这些数据集在句子层面上被标记为积极或消极。为了防止过度实验,我们对所有实验进行5次交叉验证。

Experimental Setting
由于在分类任务中通常使用嵌入向量作为特征,因此我们将我们提出的嵌入与三个基本特征进行比较:字符二元组、单词嵌入和汉字嵌入。在选择分类模型时,我们利用了最新的机器学习工具箱scikit-learn。
在实验中应用了四种经典的机器学习分类器:
线性SVC(LSVC),Logistic回归(LR),高斯核朴素贝叶斯(NB)和多层感知器(MLP)分类器。在评估这些经典机器学习分类器上的嵌入特征时,给定句子单元的特定粒度,计算平均嵌入向量来表示每个句子。例如,如果一个句子被分解成一串词根,那么这个句子的词根嵌入向量就是它的成分词根嵌入的算术平均值(平均值)。此外,我们还以与(Kim 2014)中提出的相同的方式应用CNN,只是我们将嵌入向量维数减少到128。
Results and Discussion
PIC1
表2将二元组特征与语义根嵌入、情感根嵌入、语义层次嵌入和感情层次嵌入在四个不同数据集上进行了比较。
PIC1
类似地,表3还将提出的嵌入特征与word2vec和character2vec特征进行了比较。
在这四个数据集中,我们提出的特征与CNN分类器一起工作获得了最好的性能。在微博数据集中,sentic分层嵌入的性能略好于character2vec,提高不到1%。然而,在CTB和CHN2000数据集中,语义分层的三条基线特征为2~6%。在IT168数据集中,MLP模型中的sentic 分层嵌入仅次于bigram特征。
这个结果并不令人惊讶,因为bigram 特征可以被理解为具有2大小的滑动窗口。使用多层感知器分类器,其性能可以与CNN分类器并行。尽管如此,与CNN分类器一起工作的其他三个提议的特性比任何分类器的所有基线特征都要好。除上述观察外,我们还得到了以下分析。
首先,深度学习分类器在嵌入特征方面效果最好。在经典分类器上,所有嵌入特征的性能急剧下降。然而,即使我们提出的特征在经典机器学习分类器中的性能与CNN相比大大下降,它们仍然与其他基线特征并行或优于其他基线特征。此外,所提出的特征的性能从未被调参。经过未来的调参,可以期待更好的性能。
其次,所提出的嵌入特征确实揭示了一些能够促进句子层次情感分析的信息。虽然我们并不确定这些额外的信息到底位于哪里,因为我们提出的四个嵌入特征的性能并不健壮(没有一个特征在所有四个数据集上都达到最佳性能),但我们证明了部首级别的嵌入对中国人的情绪分析是有帮助的。
Conclusion
本文提出了基于中文词根的层次嵌入方法,特别针对情感分析设计了四种基于词根的嵌入方法:词根语义嵌入、词根情感嵌入、层次语义嵌入和层次情感嵌入。通过在四个中文数据集上进行句子级情感分类实验,我们证明了所提出的嵌入方法优于最先进的文本和嵌入特征。最重要的是,我们的研究提供了第一条证据,表明汉语根基层次和层次层次的嵌入可以改善汉语的情感分析。
同时,本文还提出了今后的工作方向。首先,由于本文只在特征级融合了不同的嵌入,因此一种可能的改进是在模型级进行融合,其中我们将融合来自不同嵌入的分类结果。其次,我们要对汉语部首进行更深层次的分析。在本文中,我们对待每一个具有同等重要性的字符,这是不理想的。由于同一字符中的词根具有不同的功能,对情感的贡献也不同,因此每个字符中的加权词根分析有望进一步提高性能。

Multilingual Connotation Frames: A Case Study on Social Media for Targeted Sentiment Analysis and Forecast

多语言内涵框架:社会媒体目标情感分析与预测案例研究

Abstract
世界各地的人们通过社交媒体对现实世界的重大事件做出反应。为了研究跨多种语言和地理位置的有针对性的公众情绪,我们引入多语言内涵框架:Rashkin等人(2016)的英语内涵框架的延伸,以及另外的10种欧洲语言。在一个框架内。作为案例研究,我们使用120万个从Twitter中提取的多语言内涵框架,对针对重要事件和实体的目标公众情绪进行了大规模分析。
1 Introduction
世界各地的人们利用社会媒体来表达他们对现实世界重大事件的看法和意见(Atefeh and Khreich, 2015; Radinsky and Horvitz, 2013)。为了便于在社交媒体上追踪多语种公众情绪,我们引入了多语种内涵框架,1Rashkin等人的英语内涵框架的多语种扩展。(2016)增加了10种欧洲语言,包括低资源语言,如波兰语、芬兰语和俄语。
Definition 1.1.
内涵框架:用于编码由谓词对其参数所暗示的谓词特定内涵关系的框架。
图1显示了在我们的研究中相关的内涵框架的选择子集。见Rashkin等。(2016)对内涵框架进行全面描述。
PIC1
图1:“生存”与“作者”、“代理人”、“主题”和“读者”的定向情感的内涵框架。推特示例显示了自动诱导的多语言内涵框架。
发展多语种内涵框架有两个重要的方面。首先,它们作为一个独特的词汇资源来支持有针对性的情感分析,而这在大多数语言中很少存在。
定义2:
目标情绪:情绪源标签,指示源实体对目标实体的感觉。
在图1所示的示例中,“青少年在波士顿马拉松爆炸中幸存下来”,该内涵框架允许我们正确地解释(暗示的)目标情绪,包括:

  1. sentiment(teenager → bombing) = –
  2. sentiment(writer → bombing) = –
  3. sentiment(writer → teenager) = +
    其次,它们让我们能够研究包括细微差别的情感在内的广泛的情绪;在上面讨论的例子中,内涵框架允许我们推断(1)事件参与者之间的可能情绪(例如,一个幸存的青少年可能对波士顿爆炸事件持否定态度),以及(2)作者对事件和实体的可能情绪(例如,作者可能对青少年表示同情,而对事件表示否定),即使这些情绪暗示没有公开地表达。
    为了验证新多语种内涵词典的实证有效性,我们基于10种不同欧洲语言的120万条推文的内涵框架,提出了一个成功的大规模内涵分析(4.1节)和预测(4.2节)案例研究超过15天。
    2 Multilingual (多语言)Twitter Dataset
    我们在3月15日至2016年3月29日之间获得了多语种地理位置的推特。这15天的时间涵盖了布鲁塞尔3月22日以及前后整整一周的袭击,使我们能够研究公众对重大恐怖事件的反应情绪动态。我们通过选择来自可信来源(如twitter-verified帐户或已知新闻帐户)或包含哈希表#breaking or #news)的tweet来关注可能与“新闻价值”主题相关的tweet。10种非英语语言的通用语法模型。我们提取了120万个agent-verb-theme(代理-动词-主题)元组,如表1所示。
    PIC1
    预测分布:3月25日(英国~布鲁塞尔)
    图2:LSTM模型图,用于基于前一天(例如,3月25日)预测从位置(例如,英国)到实体(例如,布鲁塞尔)的视角分布。
    3 Methods
    3.1 Multilingual Connotation Frames
    我们使用大型平行语料库对另外10种欧洲语言进行基于上下文的英语内涵框架投影。由于一个词的内涵产生于使用该词的上下文,我们希望确保翻译后的内涵框架在类似的上下文中使用。我们使用具有自动单词对齐的现有并行语料库:Opus语料库(Tiedemann,2012),使用针对俄语和欧洲Parl的并行数据(Koehn,2005)的多联合国并行数据(Eisele和.,2010)。
    更具体地说,对于每个非英语动词,v′(例如,法语中的刺客),我们通过计算对齐来计算它被翻译成英语动词v的概率。
    然后,通过转移英语动词v,F(v)的内涵框架,推导出v′,F(v′)的内涵框架,该框架具有最高的翻译概率:
    PIC1
    例如,暗杀者的内涵框架是从谋杀这个英语单词中传播的,这个单词与谋杀最一致。
    3.2 Extracting Targeted Sentiments
    使用内涵框架词汇,我们计算目标情感对最频繁提及的命名实体的分布。我们还通过聚集位于那个国家的作家的所有情感(例如,在英国微博中表达对奥巴马的积极、中立和消极观点的分布)这个聚合的极性可以表示为三维概率向量p = [p+p=p−],这将在下面的情绪预测任务中使用。对于其他分析,我们将这个极性分布概括为标量分数,取极性的期望值:
    E[p] = p+ - p−.
    3.3 Forecasting Sentiment Dynamics
    我们还研究了预测情绪动力学:根据前一天的情绪趋势,预测第二天的情绪分布。
    对于这个任务,我们跟踪来自每个国家的指向性情绪向100个最常提到的命名实体的分布。在测试时,每个模型被给出前4天的方向情绪分布作为输入,并预测明天的分布(例如,提前1天预测)。我们还训练模型预测半个星期后的分布(提前4天预测)。
    我们又做了一个英语实验(ENJ),把所有国家的观点汇集在一起,以便预测全球观点。对于所有的实验,我们使用10倍的交叉验证并测量真实分布与预测分布之间的对称Kullback-Leibler(KL)散度。
    我们使用长期短期记忆模型(LSTMs)(Hochreiter和Schmidhuber,1997)来整合来自过去的动态上下文信息,如第二部分.隐藏维数为16,以KL散度为目标,采用亚当优化。为了实现,我们使用TeaNo(4)顶部的Kelas(5)。
    (4)https://keras.io(5)https://deeplearning.net/software/theano
    Baselines
    我们使用两个基线。训练数据的平均分布是平均值。第二种是具有线性核的SVM,它在类似设置中很好地预测了Inuenza活动(Santillana等人,2015)。对于基线,我们将从前4天的分布编码为12维向量,并分别预测每个部分的分布。
    4 Results
    4.1 Connotation Analysis
    对于最常提到的命名实体,我们计算向该实体表达的预期透视图的热图。
    PIC1
    图3:对2周内仅使用来自欧洲国家的英文推文的13个命名实体的预期观点的热图。红色更积极,蓝色更消极。

在图3A中,我们使用来自欧洲国家的英语tweet来描绘15天期间这些实体的内涵极性的变化。一般来说,极性每天的变化似乎是渐进的,并且经常与前一天相似。有几个例外,例如,3月22日(布鲁塞尔袭击的日子),对布鲁塞尔的极性突然改变,重新改变当时所有与布鲁塞尔有关的推文的语调。
总的来说,大多数都表现出积极的极性。这可能会改变人们避免过于苛刻地说故事的倾向,甚至在讨论坏消息时也选择更加委婉。
在图3b中,我们将这些推特的极性聚集在原产国。虽然大多数极性是(正向的-强烈的) positive-strongly 正向的,但是关于布鲁塞尔和比利时的Twitter更加中立,甚至稍微有些消极。
最后,在图3C中,我们使用来自欧洲国家的所有tweet以11种不同语言聚合预期的极性。非英语语言显示出高得多的积极得分倾向,尤其是微博数量较少的语言(波兰语、芬兰语、瑞典语)。
PIC1
图4:在11种不同语言中随着时间的推移对奥巴马的透视图。
作为更详细的分析,图4显示了不同语言中表达给奥巴马的内涵如何随时间变化的热图。奥巴马在芬兰语或瑞典语中讨论得不多,但是每天用英语、西班牙语和俄语讨论他。在这两周的中间,对奥巴马的看法略有下降,最显著的是西班牙语,这与他对古巴(3月20日至22日)有争议的访问重叠。
4.2 Sentiment Dynamics
在表2中,我们总结了我们的实验结果预测目标情绪动态。。对于每种语言,我们报告基线和LSTM模型的平均Kullback-Leibler散度(高分更差)。我们在两个设置中显示预测结果:提前一天预测分布,而不是提前四天。
LSTM在大多数语言中优于基线,有一些例外,例如葡萄牙语。所有模型预测未来4天的表现都比预测前一天差,表明随着时间推移,甚至在较短的时间内,随着新闻事件的变化,其内涵会有多大的变化。平均而言,LSTM预测未来1天的KL发散度为1.7,预测4天的KL发散度为3.26。在前面,比任何基线都要低。
PIC1
表2:LSTM输出的平均Kullback-Leibler偏差预测11种不同语言的每个实体的作者观点的分布。

在第一行中,所有国家/地区的观点汇总在一起。
4.3 Error Analysis
为了进行错误分析,我们从培训数据中删除了图3中的实体,并将它们用作一个LSTM的小测试集,该LSTM用英语进行剩余数据的培训,并在所有国家进行聚合。在图5中,我们已经绘制了四个实体的预测边际概率,其中分布的正部分(蓝线)位于y轴的上半部,而负部分(红线)位于轴的负半部。
PIC1
图5:在三个特定实体(TP: True Positive, PP: Predicted Positive, TN: True Negative, PN: Predicted Negative)上的真实极性分布与预测极性分布随时间的变化。
lstm是通用型的真正的曲线,但突然竞相失误(如3月27日俄罗斯负极性剧增)。在表3,我们还报告了KL对这些实体的不同预测。该模型在预测对基于新闻故事的情绪突然激增的实体的情绪方面往往表现不佳。
PIC1
表3:持有实体的错误分析。
5 Related Work
对于twitter的情感分析 (Agarwal et al., 2011;Kouloumpis et al., 2011; Pak and Paroubek, 2010),以及目标情感、内隐情感(邓和威比,2014;冯等人,2013;格林和瑞斯尼克,2009)和主观语言的特殊方面(Mohammad和Turney,2010;Choi和Wiebe,2014),在其他领域已有大量研究。之前的调查包括使用目标情绪来预测国际关系(Chambers等人,2015),分析文体元素来预测推特流行度(Tan等人,2014),以及探索社交媒体帖子参考特定新闻文章(Tan等人,2016.)的重新措词。与以往大多数只关注英语推特中的显性情感的研究相比,我们的工作旨在跨时间、空间和语言边界研究有针对性的隐性情感。
一些工作(Tsytsarau et al。,2014; O’Connor et al。,2010; De et al。,2016)分析了一段时间内公开情绪的转变,并将情绪转变与新闻事件相关联。 一系列工作也在Twitter中使用预测信号来跟踪和感知特定国家即将发生的动乱和抗议活动(Ramakrishnan等,2014; Goode等,2015),以及基于多个文本来源的流动活动的未来发展 (Santillana等,2015)。 相比之下,我们专注于根据以前的趋势预测社交媒体中的情绪动态。
6 Conclusions
当报道新闻时,人们用他们自己的隐含和明确的偏见和判断写作。作者对语言的选择揭示了实体的内涵,这些内涵可以在我们扩展到10种欧洲语言的内涵框架中捕捉到。
本文是对多语种内涵动态进行大规模分析的第一篇论文,有助于探索跨语言、跨时间、跨国家的多视角问题,这是理解新闻报道和偏见的重要篇章。
7 Acknowledgments
这项研究是在巴特尔为美国运营的多项目国家实验室——太平洋西北国家实验室进行的。我们要感谢乔什·哈里森、吉尔·施罗德和贾斯汀·戴的贡献。我们还要感谢匿名审稿人提供有见地的反馈。这一材料是基于国家科学基金会研究生奖学金计划的支持下的工作。
授予号为DGE-1256082,部分由NSF授予IIS-1408287、IIS-1524371和Google和Facebook的礼物。