首页  思维导图  详情



 



知识图谱技术综述

2016-11-18 21:29:35   0  举报





仅支持查看

AI智能生成

Knowledge Graph/Base相关技术综述，修改中。

knowledge graph

knowledge base

semantic web

NLP

ontology

模板推荐

作者其他创作

大纲/内容

概念与定义

RDF

语义网

本体(Ontology)

定义：本体是对论域的显式形式化表示，是一种语义网。主要呈树状结构，相邻层次节点或概念之间具有严格'isA'关系。

OWL

Open Linked Data

知识图谱/知识库

表述形式：三元组G(E,R,S)

E:实体集合，类似Node

R:关系集合，类似Link

S:三元组集合，E-R-E

层次1：实体-关系-实体

层次2：概念、属性、属性值。

逻辑结构：数据层和模式层

数据层：一系列事实，即三元组

模式层：通过本体规范数据层的事实表达，本体是结构化知识库的概念模板，就像类的关系图

应用场景

成功案例

基于LOD的大型知识库

FreeBase

Wikidata

DBpedia

YAGO

Probase

<div>Knowledge Vault</div>

应用领域

智能搜索

Google Search

搜狗立知

Bing Search

深度问答

Siri

Evi

社交网络

垂直行业应用

Future Work

核心技术

知识抽取

定义：抽取一系列事实表达，（即实体、关系、属性三个知识要素）。

实现技术：

实体抽取

基于规则和词典

基于统计机器学习：主要是基于监督学习方法

文献[1]利用KNN算法与条件随机场模型，实现了对Twitter文本数据中实体的识别。

文献[2]使用最大熵算法在Medline论文摘要的GENIA数据集上进行了实体抽取实验。

面向规则域：主要基于无监督学习

文献[1]提出了一种基于无监督学习的开放域聚类算法，其基本思想是基于已知实体的语义特征去搜索日志中识别出命名的实体，然后进行聚类。

关系抽取

开放式实体关系抽取

针对二元关系：OIE，Open Information Extraction，面向开放域的信息抽取框架

针对n元关系：KPAKEN

基于联合推理的实体关系抽取

马尔科夫逻辑网

StatSnowball

属性抽取

知识表示

三元组

稠密低维实值向量

1-to-1关系

距离模型：结构化表示(structured embedding, SE)

单层神经网络模型(Single Layer Model, SLM)

隐变量模型(Latent Factor Model, LFM)

神经张量模型

矩阵分解模型

翻译模型(Translating Embeddings, TransE)

复杂关系(1-to-N、N-to-1、N-to-N)

TransH(Translating on Hyperplanes)

TransR(Translating on Relation)

TransD

TransG

KG2E

知识融合

实体对齐：也称为实体匹配，判断相同或不同数据集的两个实体是否指向同一对象的过程。

知识加工

本体构建

主要工作

构建原则

构建方法

人工

半自动

自动

基本流程

Bottom-up

Step 1. 纵向概念的并列关系计算。计算实体间并列关系的相似度，判断是否属于同一概念(层次)。

Step 2. 实体上下位关系抽取。

Step 3. 本体生成。对各层次的概念进行聚类，为每一类实体指定公共上位词。

Top-down

Step 1. Determine the domain and scope of the ontology.

Step 2. Consider reusing existing ontologies.

Step 3. Enumerate important terms in the ontology.

Step 4. Define the classes and the class hierarchy.

Step 5. Define the properties of classes.(slots)

Step 6. Define the facets of the properties.(slots)

Step 7. Create instances.

质量评估

知识更新/迭代

模式层：主要是概念的CRUD(增加、查询、修改、删除)。

数据层：主要是实体的CRUD(增加、查询、修改、删除)。

知识推理

基于逻辑

基于一阶谓词逻辑

基于描述逻辑

通过本体语义

基于图

随机游走推测语义关系

实施方案

系统描述

开发目标

构建成熟的知识库系统

用户视图

Users

Developers

Administrators

主要功能

本体构建：提供接口，用户使用自动/半自动的方式，从LOD中构建本体。

管理本体库：发布/更新/查询/删除本体。

知识检索：处理查询请求，进行语义分析和知识检索。

用户管理：分配用户权限。

关键技术点

创建、存储和处理LOD

获取LOD

从原始数据提取结构化的LOD

发布Linked Data的一般步骤

从Linked Data Cloud获取LOD

存储LOD

使用图形数据库，例如Allergo Graph/Neo4J/Cayley

提取和分析数据

使用Apache Jena/Sesame框架提供的API处理RDF格式的数据。

自动化/半自动化构建本体

构建Ontology

半自动化方法

Protégé

NeOn Toolkit

自动化方法

基于实体匹配抽取概念

基于语义抽取上下位关系

基于主题聚类确定结构

规范Ontology数据格式(Ontology Metedata Standard)

使用Ontology Metedata Vocabulary

本体库存储和管理(CRUD)

在数据库中存储和管理Graph Data

使用图形数据库，例如Allergo Graph/Neo4J/Cayley

为用户提供RESTful服务管理本体库

使用RESTful框架Jersey和服务器容器Tocmat实现

知识推理和挖掘

本体匹配/融合

知识挖掘/关系补全

支持语义的知识检索

对查询请求进行语义分析

实体查询