知识图谱技术综述
2016-11-18 21:29:35 0 举报
AI智能生成
Knowledge Graph/Base相关技术综述,修改中。
作者其他创作
大纲/内容
概念与定义
RDF
语义网
本体(Ontology)
定义:本体是对论域的显式形式化表示,是一种语义网。主要呈树状结构,相邻层次节点或概念之间具有严格'isA'关系。
OWL
Open Linked Data
知识图谱/知识库
表述形式:三元组G(E,R,S)
E:实体集合,类似Node
R:关系集合,类似Link
S:三元组集合,E-R-E
层次1:实体-关系-实体
层次2:概念、属性、属性值。
逻辑结构:数据层和模式层
数据层:一系列事实,即三元组
模式层:通过本体规范数据层的事实表达,本体是结构化知识库的概念模板,就像类的关系图
应用场景
成功案例
基于LOD的大型知识库
FreeBase
Wikidata
DBpedia
YAGO
Probase
Knowledge Vault
应用领域
智能搜索
Google Search
搜狗立知
Bing Search
深度问答
Siri
Evi
社交网络
垂直行业应用
Future Work
核心技术
知识抽取
定义:抽取一系列事实表达,(即实体、关系、属性三个知识要素)。
实现技术:
实体抽取
基于规则和词典
基于统计机器学习:主要是基于监督学习方法
文献[1]利用KNN算法与条件随机场模型,实现了对Twitter文本数据中实体的识别。
文献[2]使用最大熵算法在Medline论文摘要的GENIA数据集上进行了实体抽取实验。
面向规则域:主要基于无监督学习
文献[1]提出了一种基于无监督学习的开放域聚类算法,其基本思想是基于已知实体的语义特征去搜索日志中识别出命名的实体,然后进行聚类。
关系抽取
开放式实体关系抽取
针对二元关系:OIE,Open Information Extraction,面向开放域的信息抽取框架
针对n元关系:KPAKEN
基于联合推理的实体关系抽取
马尔科夫逻辑网
StatSnowball
属性抽取
知识表示
三元组
稠密低维实值向量
1-to-1关系
距离模型:结构化表示(structured embedding, SE)
单层神经网络模型(Single Layer Model, SLM)
隐变量模型(Latent Factor Model, LFM)
神经张量模型
矩阵分解模型
翻译模型(Translating Embeddings, TransE)
复杂关系(1-to-N、N-to-1、N-to-N)
TransH(Translating on Hyperplanes)
TransR(Translating on Relation)
TransD
TransG
KG2E
知识融合
实体对齐:也称为实体匹配,判断相同或不同数据集的两个实体是否指向同一对象的过程。
知识加工
本体构建
主要工作
构建原则
构建方法
人工
半自动
自动
基本流程
Bottom-up
Step 1. 纵向概念的并列关系计算。计算实体间并列关系的相似度,判断是否属于同一概念(层次)。
Step 2. 实体上下位关系抽取。
Step 3. 本体生成。对各层次的概念进行聚类,为每一类实体指定公共上位词。
Top-down
Step 1. Determine the domain and scope of the ontology.
Step 2. Consider reusing existing ontologies.
Step 3. Enumerate important terms in the ontology.
Step 4. Define the classes and the class hierarchy.
Step 5. Define the properties of classes.(slots)
Step 6. Define the facets of the properties.(slots)
Step 7. Create instances.
质量评估
知识更新/迭代
模式层:主要是概念的CRUD(增加、查询、修改、删除)。
数据层:主要是实体的CRUD(增加、查询、修改、删除)。
知识推理
基于逻辑
基于一阶谓词逻辑
基于描述逻辑
通过本体语义
基于图
随机游走推测语义关系
实施方案
系统描述
开发目标
构建成熟的知识库系统
用户视图
Users
Developers
Administrators
主要功能
本体构建:提供接口,用户使用自动/半自动的方式,从LOD中构建本体。
管理本体库:发布/更新/查询/删除本体。
知识检索:处理查询请求,进行语义分析和知识检索。
用户管理:分配用户权限。
关键技术点
创建、存储和处理LOD
获取LOD
从原始数据提取结构化的LOD
发布Linked Data的一般步骤
从Linked Data Cloud获取LOD
存储LOD
使用图形数据库,例如Allergo Graph/Neo4J/Cayley
提取和分析数据
使用Apache Jena/Sesame框架提供的API处理RDF格式的数据。
自动化/半自动化构建本体
构建Ontology
半自动化方法
Protégé
NeOn Toolkit
自动化方法
基于实体匹配抽取概念
基于语义抽取上下位关系
基于主题聚类确定结构
规范Ontology数据格式(Ontology Metedata Standard)
使用Ontology Metedata Vocabulary
本体库存储和管理(CRUD)
在数据库中存储和管理Graph Data
使用图形数据库,例如Allergo Graph/Neo4J/Cayley
为用户提供RESTful服务管理本体库
使用RESTful框架Jersey和服务器容器Tocmat实现
知识推理和挖掘
本体匹配/融合
知识挖掘/关系补全
支持语义的知识检索
对查询请求进行语义分析
实体查询
相关工具介绍
图形数据库
Allergo Graph
Neo4J
Cayley
语义网框架
Apache Jena
Sesame
相关语言
RDFS
OWL 2
SPARQL
本体工程环境
Protégé
NeOn Toolkit
通用工具
Tocmat
Jersey
开发模型
构建方式
Top-down
Bottom-up
方法流程
0 条评论
下一页