1. 首页 » 知识阅读

静态描写的句子(自然语言处理11种静态图构建方法)

静态图构建方法的目的是在预处理期间构建图结构,通常是利用现有的关系解析工具(如依存分析)或手动定义的规则。从概念上讲,静态图包含了隐藏在原始文本序列中的不同领域/外部知识,它用丰富的结构化信息丰富了原始文本的内容,今天来看看11种静态图的构建方法:

1、依赖图构建(Dependency Graph Construction)

依赖图被广泛用于捕捉给定句子中不同对象之间的依赖关系。从形式上看,给定一个段落,可以通过使用各种NLP解析工具(例如Stanford CoreNLP)获得依存分析树(例如句法依存树或语义依存关系树)。然后,从依存分析树中提取依赖关系,并将其转换为依赖性图。由于给定段落有顺序信息,而图的节点是无序的,可以引入顺序的 link,在图结构中保留这种重要信息。有代表性的依存图构建方法,给定输入段和其提取的分析树,包括三个关键步骤。1)构建依赖关系,2)构建顺序关系,3)最终的图转换。

2、成分图构建(Constituency Graph Construction)

成分图是另一个广泛使用的静态图,能够捕捉一个或多个句子中基于短语的句法关系。与依存分析不同的是,依存分析只关注单个词之间一对一的对应关系(即词级),而构成分析则对一个或几个对应词的组合进行建模(即短语级)。首先解释成分关系的基本概念,然后说明成分图的构建过程。构成图的例子如图2所示。

自然语言处理11种静态图构建方法,用于知识图谱及文本处理

图2 Dependency Graph and Constituency Graph Construction

在语言学中,成分关系是指遵循短语结构语法的关系,而不是依存关系和依存语法。一般来说,成分关系是由主语(名词短语NP)— 谓语(动词短语VP)关系衍生出来的。与依存关系解析树不同的是,所有的节点都有相同的类型,成分分析树区分了终端节点和非终端节点,非终端类别标记分析树的内部节点,叶子节点标记为终端类别。节点集可以表示为:1)非终端节点集2) 终端节点集。构成关系集合与树的边相关。成分图由非终端节点和终端节点组成,以及成分边和序列边。对于原文中相邻的每个单词节点对,在它们之间添加一条具有特定序列类型的无向边,用来保留顺序信息。

3、抽象语义表示图构建(AMR Graph Construction)

自然语言处理11种静态图构建方法,用于知识图谱及文本处理

图3 AMR Graph

AMR图是有根、有标注、有向、无环的图,它被广泛用于表示非结构化的具体自然文本的抽象概念之间的高级语义关系。与句法上的特异性不同,AMR是高层次的语义抽象。更具体地说,在语义上相似的不同句子可能共享相同的AMR解析结果,例如,"保罗描述自己是一个战士 "和 "保罗对自己的描述:一个战士",如图3所示。与之前介绍的依赖树和成分树类似,AMR图是由AMR解析树衍生出来的。

4、信息抽取图构建(Information Extraction Graph Construction)

自然语言处理11种静态图构建方法,用于知识图谱及文本处理

图4 Information Extraction Graph

信息抽取图(IE Graph)旨在提取结构信息来表示自然句子之间的高级信息,例如基于文本的文档。这些提取出来的关系,捕捉到远距离句子之间的关系,在许多NLP任务中很有帮助。在下文中,为给定段落构建IE图的过程分为三个基本步骤。1)指代消解,2)构建IE关系,3)图的构建。

5、话语图构建(Discourse Graph Construction)

当候选文档太长时,许多NLP任务会受到长距离依赖性的挑战。话语图描述了两个句子之间的逻辑联系,可以有效地解决这种挑战。

6、知识图谱构建(Knowledge Graph Construction)

自然语言处理11种静态图构建方法,用于知识图谱及文本处理

图5 knowledge graph

捕捉实体和关系的知识图谱(KG)可以大大促进许多NLP应用中的学习和推理。KG可以表示为G(V, E),它通常由知识库中的元素构建。形式上,定义三元组作为知识库的基本元素,包括是源实体,目标实体和关系类型。然后,在知识库中添加两个节点,即源节点和目标节点,并从节点v1到节点v2添加一条边类型为rel的有向边。

构建KG的第一件事是获取给定查询中的术语实例。然后,通过一些匹配算法(如最大子串匹配)将术语实例与KG中的概念联系起来。这些概念被看作是提取的子图中的初始节点。下一步是获取初始节点在KG中的1跳邻居。此外,人们可以通过应用一些图节点相关性模型,如个性化的PageRank(PPR)算法,来计算邻居与初始节点的相关性。然后根据结果,进一步修剪出相关性分数低于置信度阈值的边,并删除孤立的邻居。剩余的最终子图随后被用来给任何图表示学习模块提供信息。

7、共指图构建(Coreference Graph Construction)

在语言学中,当某个段落中的两个或多个术语指代同一个对象时,就会出现共指。许多工作表明,这种现象有助于更好地理解语料库的复杂结构和逻辑,解决歧义。为了有效地利用共指信息,共指图用来显式的建模隐性共指关系。给定一组短语,共指图可以连接文本语料库中指代同一实体的节点(短语)。

8、相似图构建(Similarity Graph Construction)

自然语言处理11种静态图构建方法,用于知识图谱及文本处理

图6 similarity graph

相似性图旨在量化节点之间的相似性,在许多NLP任务中被广泛使用。由于相似性图通常是面向应用的,因此我们重点关注构建实体、句子和文档等各种类型元素的相似性图的基本程序,而忽略了具体的应用细节。相似性图的构建是在预处理过程中进行的,而不是以端到端的方式与其余学习系统共同训练。图6中显示了一个相似性图的例子。

9、共现图构建(Co-occurrence Graph Construction)

自然语言处理11种静态图构建方法,用于知识图谱及文本处理

图7 co-occurrence graph

共现图旨在捕捉文本中词与词之间的共现关系,这在许多NLP任务中被广泛使用,共现关系描述了在固定大小的上下文窗口内共同出现的两个词的频率,是捕捉语料库中词之间语义关系的一个重要特征。共现图的例子见图7。

10、话题图构建(Topic Graph Construction)

自然语言处理11种静态图构建方法,用于知识图谱及文本处理

图8 topic graph

话题图是建立在几个文档上的,其目的是对不同话题之间的高层次语义关系进行建模。给定一组文档,首先用一些话题建模算法,如LDA,学习潜在的话题。然后构建话题图,只有当文档具有该话题时,那么在文档节点和话题节点之间构建一条无向边。

11、应用驱动图构建(App-driven Graph Construction)

自然语言处理11种静态图构建方法,用于知识图谱及文本处理

图9 application-driven graph

应用驱动图指的是为特定的NLP任务专门设计的图。在一些NLP任务中,用特定应用的方法通过结构化的形成来表示非结构化的数据是很常见的。例如,SQL语言可以自然地通过SQL解析树来表示。因此,它可以被转换为SQL图。由于这些图在领域知识的基础上过于专业化,所以没有统一的模式来总结如何建立一个应用驱动的图。图9是这种应用驱动图的一个例子,如SQL图。

来自:https://zhuanlan.zhihu.com/p/383623364

声明:本文由"麦兜"发布,不代表"知识分享"立场,转载联系作者并注明出处:https://www.029ipr.com/zhishi/6633.html