Skip to content

Latest commit

 

History

History
217 lines (138 loc) · 11.8 KB

知识获取.md

File metadata and controls

217 lines (138 loc) · 11.8 KB

知识获取

知识图谱中的知识来源于结构化、半结构化和非结构化的信息资源。知识获取即通过获取这些不同来源、不同结构的知识,形成结构化的知识并存储到知识图谱中。当前的知识抽取主要针对文本数据进行,需要解决的抽取问题包括:实体抽取、关系抽取、属性抽取和事件抽取。

  • 实体抽取:见实体识别.md

  • 关系抽取

    利用多种技术自动从文本中发现命名实体之间的语义关系,将文本中的关系映射到实体关系三元组上。研究难点是关系表达的隐含性(关系不一定明显)、关系的复杂性(二元或多元)、语言的多样性(关系有多种表述形式)。

      1. 基于模板匹配

      模板匹配是关系分类中比较常见的方法,使用一个模板库对输入文本中的两个给定实体进行上下文匹配,如果满足模板对应关系,则作为实体对之间的关系。

      优势:实现与构建简单,适用于小规模特定领域,效果好 劣势:召回率低、可移植性差,不适合大规模及通用领域

      • a. 人工模板

        主要用于判断实体间是否存在上下位关系。上下位关系的自然语言表达方式相对有限,采用人工模板就可以很好地完成关系分类。

      • b. 统计模板

        无需人工构建,主要基于搜索引擎进行统计模板抽取。具体地,将已知实体对作为查询语句,抓取搜索引擎返回的前n个结果文档并保留包含该实体对的句子集合,寻找包含实体对的最长字串作为统计模板,保留置信度较高的模板用于关系分类。

      1. 基于深度学习有监督方法
      1. 基于深度学习半监督方法
      • a. 远程监督

        定义:假设某对实体含有某种关系,那么只要含有这对实体的句子都含有这种关系。 优点:可获取大量数据,无需人工标注。 缺点:引入了大量的噪声。

        为了缓解噪声问题,可采取多示例学习、强化学习和与训练机制。 详见| https://zhuanlan.zhihu.com/p/77868938

      • b. Bootstrapping自扩展方法

        比较常见的方法有DIPRE和Snowball,相比DIPRE,Snowball通常会对获得的模板样式进行置信度计算,一定程度上可以保证抽取结果的质量。

        定义:使用少量的样本去训练一个模型,然后利用模型去抽取更多的实例,再通过新数据做迭代训练。

        优点:所需数据少,构建成本低,适合大规模的关系任务并且具备发现新关系的能力。 缺点:对初始样本比较敏感,存在语义漂移,结果准确率低的情况。

      1. 无监督方法

      利用语料中存在的大量冗余信息做聚类,在聚类结果的基础上给定关系,但由于聚类方法本身就存在难以描述关系和低频实例召回率低的问题,因此无监督学习一般难以得到很好的抽取效果。

  • 属性抽取

    由于可以把实体的属性看作实体与属性值之间的一种名词性关系,因此属性抽取任务可以转化为关系抽取任务。

    • 转化为 关系抽取任务
  • 三元组抽取

    三元组,即(S, P, O),S是头实体,O是尾实体,P是两个实体之间的关系。

  • 事件抽取

    事件的发生通常包括时间、地点、参与者等属性。事件是特定时间点或时间段、特定领域范围内,由一个或多个角色参与的一个或多个动作组成的事情或状态的改变。目前已存在的知识资源(如Wiki等)所描述实体及实体间的关联关系大多是静态的,事件能描述粒度更大的、动态的、结构化的知识,是现有知识资源的重要补充。

    事件抽取则是从自然语言文本中抽取出用户感兴趣的事件信息,并以结构化的形式展现出来。

    详见|事件抽取论文和方案 https://zhuanlan.zhihu.com/p/136433610 https://mp.weixin.qq.com/s/CRm5ky3J-eNim90oArD6Tg

    • 子任务

      • a. 事件触发词识别

        即识别事件类型,如‘出生’、‘离职’等

      • b. 事件元素抽取与角色分类

        事件元素的角色通常由两部分组成,事件参与者和时间属性,事件参与者是事件的必要部分,通常是命名实体的人名和组织机构名,事件属性包括通用事件属性和事件相关属性

      • d. 事件属性标注、事件共指消解等

      • c. 事件整体特性

        如极性(正面/负面)、语态(确定/未知)、泛型(具体/普遍)、时态(过去/现在/将来/未知)

    • 方法

        1. 基于模板匹配

        a. 基于人工标注语料 b. 基于弱监督 人工标注费时费力,且存在一致性问题,而弱监督方法无需对语料完全标注,只需人工对语料进行一定的预分类或者制定种子模板,由机器根据预分类语料或种子模板自动进行模式学习。 优势:在特定领域中性能较好,知识表示简洁,便于理解和后续应用。 劣势:对于语言、领域和文档形式都有不同程度的依赖,覆盖度和可移植性较差。

        1. 基于统计-传统机器学习

        主要方法为将事件类别及事件元素的识别转换为分类问题。重点在于分类器和特征的选择,常用分类算法有SVM、ME等。

        优势:与领域无关,移植性好。 劣势:需要大规模已标注的标准语料,否则会有严重的数据稀疏。

        1. 基于统计-深度学习

        类比于传统机器学习,主要方式还是将事件抽取的各步骤转换为分类问题,不过是将分类器换成了深度学习分类算法而已。另外,也有人将事件抽取转换为序列标注和MRC问题。

资料(模型过于繁多): https://www.cnblogs.com/sandwichnlp/p/12020066.html https://www.cnblogs.com/sandwichnlp/p/12049829.html http://shomy.top/2018/02/28/relation-extraction/ https://github.com/roomylee/awesome-relation-extraction https://zhuanlan.zhihu.com/p/91762831 https://zhuanlan.zhihu.com/p/142615620 http://www.shuang0420.com/2018/09/15/知识抽取-实体及关系抽取/ http://www.shuang0420.com/2018/10/15/知识抽取-事件抽取/ https://github.com/smilelight/lightKG https://github.com/loujie0822/DeepIE