Skip to content

Latest commit

 

History

History
39 lines (21 loc) · 1.57 KB

2019_中国法研杯.md

File metadata and controls

39 lines (21 loc) · 1.57 KB

赛道

大赛地址

(1)阅读理解

篇章片段抽取型阅读理解比赛,为了增加问题的多样性,参考英文阅读理解比赛SQuAD和CoQA,本比赛增加了拒答以及是否类(YES/NO)问题

训练集约包含4万个问题,开发集和测试集各约5000个问题。 对于开发集和测试集,每个问题包含3个人工标注参考答案。

提供了两组基线模型,包括BiDAF模型和基于BERT的基线模型

(2)要素识别

三种类型的法律文书,多标签分类,提供了基于SVM实现的基线模型。

(3)相似案例匹配

训练数据:

每份数据由三篇法律文书组成。

对于每篇法律文书,我们仅提供事实描述。

对于每份数据,我们用(d, d1, d2)来代表该组数据,其中d,d1,d2均对应某一篇文书。

对于训练数据,我们保证,我们的文书数据d与d1的相似度是大于d与d2的相似度的,即sim(d, d1) > sim(d, d2)。

我们的数据总共涉及三万组文书三元对,所有的文书三元组对都一定属于民间借贷、知识产权纠纷和海商海事案件中的某一种。

测试数据:

每组测试数据的形式与训练数据一致为(d1, d2, d3)但是此时我们不再保证sim(d, d1) > sim(d, d2)。 选手需要预测最终的结果是sim(d, d1) > sim(d, d2)还是sim(d, d1) < sim(d, d2)。 如果预测正确,那么该测试点选手可以得到1分,否则是0分。

提供了两组基线模型,包括基于tf-idf的基线模型和基于bert的语言基线模型。