文本溯源的目标是判断一个文本的内容是否复制或改编于另外一个或者多个文本。可以应用在学术诚信检测、搜索引擎优化等领域。
2018年,比赛围绕句子级的文本溯源评测,即给定一个待查句子和一个源句子集S,判断待查句子是否改编自源数据集中的句子,如果是则找出相应的源句子。
2019年,在2018年句子级文本溯源评测的基础上,开展文档级文本溯源。
对抄袭文本的改编包括但不限于:
1)文本操作,对文本进行混排、删除、插入词或短语等方式生成新文本;
2)语义词汇变换,进行同义词、反义词等替换该词生成新文本;
3)句法变换,即通过句法变换的方式进行改写;
4)释义修改,即要求志愿者在理解的基础上重新撰写。