Skip to content

Latest commit

 

History

History
57 lines (31 loc) · 2.29 KB

2019_全国社交媒体处理大_拓尔思杯中文隐式情感分析评测.md

File metadata and controls

57 lines (31 loc) · 2.29 KB

赛题背景

赛题地址

显式情感分析已经得到了非常多的研究,但是隐式情感分析并没有。

赛方将隐式情感定义为:“不含有显式情感词,但表达了主观情感的语言片段”,并将其划分为事实型隐式情感和修辞型隐式情感。其中,修辞型隐式情感又可细分为隐喻/比喻型、反问型以及反讽型。本次评测任务中,仅针对隐式情感的识别与情感倾向性分类。

为什么这个问题是重要的?根据赛方对收集的文本数据的标注结果,隐式情感句占总情感句的**15%-20%**左右。

样例分析

例1:

你们公司一年的销售额也赶不上我们一个月的。(贬义隐式情感)

例2:

有种活着诗里的感觉:烟笼寒水月笼沙,夜泊秦淮近酒家。(褒义隐式情感)

例3:

我去的时候,客栈标间大多开价100元一间,还价到70元住下。(不含情感)

数据介绍

数据来源主要包括微博、旅游网站、产品论坛,主要领域/主题包括但不限于:春晚、雾霾、乐视、国考、旅游、端午节等。

训练集:

篇章 标注数据 褒义隐式情感句 贬义隐式情感句 不含情感句
12664 14774 3828 3957 6989

验证集:

篇章 标注数据 褒义隐式情感句 贬义隐式情感句 不含情感句
4391 5143 1232 1358 2553

测试集:

篇章 标注数据 褒义隐式情感句 贬义隐式情感句 不含情感句
6380 3800 919 979 1902

评价指标

宏平均准确率(P)、召回率(R)及F1值。

思考

(1)长尾问题处理。很多传统的问题具有较为丰富的研究,但是长尾问题的研究比较少,例如这种隐式情感分析的问题。挖掘现有任务中的长尾场景着重研究,确实是一个方向。正如搜索场景下,对长尾问题的处理是搜索硬实力的体现。

(2)问题的可分性,难易度。虽然第一直觉可能是建模为分类,但是由于问题内在的特性,导致传统的方法可能不是非常有效,需要对问题本身做针对性的思考和处理。这正是建模中可能最有趣的部分。