显式情感分析已经得到了非常多的研究,但是隐式情感分析并没有。
赛方将隐式情感定义为:“不含有显式情感词,但表达了主观情感的语言片段”,并将其划分为事实型隐式情感和修辞型隐式情感。其中,修辞型隐式情感又可细分为隐喻/比喻型、反问型以及反讽型。本次评测任务中,仅针对隐式情感的识别与情感倾向性分类。
为什么这个问题是重要的?根据赛方对收集的文本数据的标注结果,隐式情感句占总情感句的**15%-20%**左右。
例1:
你们公司一年的销售额也赶不上我们一个月的。(贬义隐式情感)
例2:
有种活着诗里的感觉:烟笼寒水月笼沙,夜泊秦淮近酒家。(褒义隐式情感)
例3:
我去的时候,客栈标间大多开价100元一间,还价到70元住下。(不含情感)
数据来源主要包括微博、旅游网站、产品论坛,主要领域/主题包括但不限于:春晚、雾霾、乐视、国考、旅游、端午节等。
训练集:
篇章 | 标注数据 | 褒义隐式情感句 | 贬义隐式情感句 | 不含情感句 |
---|---|---|---|---|
12664 | 14774 | 3828 | 3957 | 6989 |
验证集:
篇章 | 标注数据 | 褒义隐式情感句 | 贬义隐式情感句 | 不含情感句 |
---|---|---|---|---|
4391 | 5143 | 1232 | 1358 | 2553 |
测试集:
篇章 | 标注数据 | 褒义隐式情感句 | 贬义隐式情感句 | 不含情感句 |
---|---|---|---|---|
6380 | 3800 | 919 | 979 | 1902 |
宏平均准确率(P)、召回率(R)及F1值。
(1)长尾问题处理。很多传统的问题具有较为丰富的研究,但是长尾问题的研究比较少,例如这种隐式情感分析的问题。挖掘现有任务中的长尾场景着重研究,确实是一个方向。正如搜索场景下,对长尾问题的处理是搜索硬实力的体现。
(2)问题的可分性,难易度。虽然第一直觉可能是建模为分类,但是由于问题内在的特性,导致传统的方法可能不是非常有效,需要对问题本身做针对性的思考和处理。这正是建模中可能最有趣的部分。