tmt知识图谱_实体关系抽取模型总体框架
2016-05-05 11:20:47   39  举报             
     
         
 TMT知识图谱的实体关系抽取模型总体框架主要包括三个部分:数据预处理、特征提取和模型训练。在数据预处理阶段,首先对原始文本进行分词、去停用词等操作,然后利用依存句法分析技术获取句子中的实体及其关系。接下来,在特征提取阶段,根据实体和关系的语义信息,结合上下文语境,构建丰富的特征表示。最后,在模型训练阶段,采用深度学习方法(如BERT、Transformer等)搭建端到端的实体关系抽取模型,通过大规模的标注数据进行有监督学习,实现对新文本中实体关系的自动识别和抽取。
    作者其他创作
 大纲/内容
 产品字典另行设计
  表示学习的语料库
  自带人名识别
  核心构建字典
  分句切分
  外文名未解决
  长期迭代
  1.字典2.强语言模型sklearn模型参数3.弱语言模型的模板迭代
  替换为种子模板
  文本预处理
  高斯核SVM
  若干待处理短句
  提取实体关系
  实体关系抽取(训练)
  实体关系表达
  分类器分类
  记录实体关系
  95机构识别模块
  过滤stopwords
  RL方法构建模板向量
  产品名识别模块
  实体关系抽取(使用)
  待处理短句
  sklearn训练分类器
  dict4:机产字典
  模板匹配模块
  分类出存在关系的实体
  存在关系的实体的模板
  机构字典
  产品名识别必然需要产品库,和权重机制(暂不能识别新产品)
  l2s切分模块
  种子模板替换回来
  低维向量,线性不可分(数据量仍然不足)
  输入文本
  设计的不太好,丢失了很多信息(已解决,主要指代)
   
 
 
 
 
  0 条评论
 下一页
  
   
   
   
   
  
  
  
  
  
  
  
  
 