分成两个部分,第一个部分简述比赛内容;第二个部分复盘比赛。
(1)面向中文短文本的实体链指
面向中文短文本的实体识别与链指,简称ERL(Entity Recognition and Linking),是NLP领域的基础任务之一,即对于给定的一个中文短文本(如搜索Query、微博、用户对话内容、文章标题等)识别出其中的实体,并与给定知识库中的对应实体进行关联。ERL整个过程包括实体识别和实体链指两个子任务。
传统的实体链指任务主要是针对长文档,长文档拥有在写的上下文信息能辅助实体的歧义消解并完成链指。相比之下,针对中文短文本的实体链指存在很大的挑战,主要原因如下:
(1)口语化严重,导致实体歧义消解困难;
(2)短文本上下文语境不丰富,须对上下文语境进行精准理解;
(3)相比英文,中文由于语言自身的特点,在短文本的链指问题上更有挑战。
输入: 输入文件包括若干行中文短文本。
输出: 输出文本每一行包括此中文短文本的实体识别与链指结果,需识别出文本中所有mention(包括实体与概念),每个mention包含信息如下:mention在给定知识库中的ID,mention名和在中文短文本中的位置偏移。
示例:
输入:
{
"text_id":"1",
"text":"比特币吸粉无数,但央行的心另有所属|界面新闻 · jmedia"
}
输出:
{
"text_id":"1",
"text":"比特币吸粉无数,但央行的心另有所属|界面新闻 · jmedia"
"mention_data":[
{
"kb_id":"278410",
"mention":"比特币",
"offset":"0"
},
{
"kb_id":"199602",
"mention":"央行",
"offset":"9"
},
{
"kb_id":"215472",
"mention":"界面新闻",
"offset":"18"
}
]
}
说明: 对于实体有歧义的查询 ,系统应该有能力来区分知识库中链接的候选实体中哪个实体为正确链指的实体结果。例如,知识库中有3个不同的实体都可能是『比特币』的正确链指结果,但在给定的上下文中,有足够的信息去区分这些候选实体哪个才是应该被关联的结果。
(2)人物关系抽取
关于评测方案:
给定一组人物实体对和包含该实体对的句子,找出给定实体对在已知关系表中的关系。从以下两个方面进行评测:
-
Sent-Track:从句子级别上根据给定句子预测给定人物实体对的关系 输入:一组人物实体对和包含该实体对的一个句子 输出:该人物实体对的关系 样例一: 输入:贾玲\t冯巩\t贾玲,80后相声新秀,师承中国著名相声表演艺术家冯巩。 输出:人物关系/师生关系/老师
-
Bag-Track:从包级别上根据给定句子集合预测给定人物实体对的关系 输入:一组人物实体对和包含该实体对的若干句子 输出:该人物实体对的关系 样例二: 输入: - 袁汤\t袁安\t从袁安起,几代位列三公(司徒、司空、太尉),出过诸如袁汤、袁绍、袁术等历史上著名人物。 - 袁汤\t袁安\t袁汤(公元67年—153年),字仲河,河南汝阳(今河南商水西南人,名臣袁安之孙,其家族为东汉时期的汝南袁氏。 输出: 袁汤\t袁安\t人物关系/亲属关系/血亲/自然血亲/祖父母/爷爷 NA
说明:若有多个关系,则输出多个关系。
关于数据集:
评测数据主要来源于互联网网页文本,其中验证集和测试集是通过人工进行标注的,而训练集是通过远程监督(Distant Supervision)自动生成的。
(3)中文知识图谱问答
输入:
输入文件包含若干行中文问句。
输出:
输出文件每一行对应一个问题的答案列表,列表内元素以\t分隔。
示例
输入:
q1:徐峥和黄渤共同出演的电影有哪些?
q2:俄罗斯的首都有多少人口?
q3:北京亦庄投资控股有限公司持股京东方科技集团股份有限公司的比例是多少?
输出:
<人再囧途之泰囧>\t<疯狂的石头>\t<印囧>
"14150000"
"3.57%"
这个比赛,个人比较感兴趣的是知识库。任务中使用PKU BASE作为指定知识图谱。PKU BASE用于该任务的版本下载地址为:https://pan.baidu.com/s/1MOv9PCTcALVIiodUP4bQ2Q 密码:hcu8。参赛选手可以下载数据集后使用相应的知识库管理系统(例如gStore系统:http://gstore-pku.com/ )进行存储和查询。同时,为方便参赛选手完成任务,我们也提供PKU BASE的在线查询终端,选手可以通过浏览器或调用API进行SPARQL查询。详情访问http://pkubase.gstore-pku.com/。
关于SPARQL的介绍,类似于SQL语句,实现对以三元组形式存储的知识图谱进行查询。
本次评测任务的主要目标是从真实的新闻语料中,抽取特定事件类型的主体。即给定一段文本T,和文本所属的事件类型S,从文本T中抽取指定事件类型S的事件主体。
输入:一段文本,事件类型S
输出:事件主体
示例:
样例1
输入:”公司A产品出现添加剂,其下属子公司B和公司C遭到了调查”, “产品出现问题”
输出: “公司A”
样例2 输入:“公司A高管涉嫌违规减持”,“交易违规” 输出: “公司A”
(5)公众公司公告信息抽取
任务一:表格中的信息点提取
输入:公共公司的年报pdf文件
输出:该表格所对应的结构化数据(json格式)
任务二:文本段落中的信息点提取
输入:人事变动类公告pdf文件
输出:包含离职高管信息和继任者信息的结构化数据(json格式)
任务一:面向中文电子病历的命名实体识别(六篇文章)
识别的实体类型包括:疾病和诊断,影像检查,实验室检验,手术,药物以及解剖部位共六种。
主要思路:BERT+CRF;除此之外,BiLSTM+CRF仍旧是一个很强的baseline;
任务五:公众公司公告信息抽取(七篇文章)
分为表格中的信息点抽取和文本段落中的信息点抽取。
主要思路:PDF解析(基于结构的,基于CV的)和序列标注。
任务四:面向金融领域的事件主体抽取(七篇文章)
主要思路:阅读理解框架+序列标注
任务三:人物关系抽取
主要思路:标准的神经关系抽取
任务二:面向中文短文本的实体链指任务
主要思路:实体识别+候选实体选择+两类实体的匹配
任务六:中文知识图谱问答
主要思路:指称识别+实体链接+模型匹配+路径排序
参考: