自然语言处理NLU
2020-05-28 11:58:31 0 举报
AI智能生成
自然语言
作者其他创作
大纲/内容
难点
语言的多样性<br>
语言是自由组合的,它可以组合复杂的语言表达<br>
语言是开放集合,它可以创造新的表达方式
语言是需要联系到实践知识,有一定的知识依赖
语言的使用,要基于环境和上下文
应用
情感分析
聊天机器人
语音识别
机器翻译
实现步骤<br>
分词(中)
分词的原因
1. 将复杂问题转化为数学问题
2. 词是一个比较合适的粒度<br>
3. 深度学习时代,部分任务中也可以「分字」
中英文分词的3个典型区别
1. 分词方式不不同,中文更更难
2. 英文单词有多种形态,需要词性还原和词干提取
3. 中文分词需要考虑粒度问题
中文分词的3大难点
1. 没有统一的标准
2. 歧义词如何切分
3. 新词的识别
3个典型的分词方式
基于词典匹配
基于统计
基于深度学习
词干提取和词形还原
相似点
目标一致
部分结果一致
主流实现方式一致
应用领域相似
不同点
原理不同
词形还原更加复杂
具体实现方式的侧重点不同
呈现结果有区别
应用领域上,侧重点不完全一致<br>
词干提取的主要算法
Porter
ShowBall
Lancaster
Porter
ShowBall
Lancaster
词性标注
实现方法
基于规则
基于统计
基于规则+统计
深度学习
工具
<br>Jieba SnowNLP THULAC StanfordCoreNLP HanLP SpaCy
命名实体识别
阶段
阶段 1:早期的⽅方法,如:基于规则的⽅方法、基于字典的⽅方法
阶段 2:传统机器器学习,如:HMM、MEMM、CRF
阶段 3:深度学习的⽅方法,如:RNN – CRF、CNN – CRF
阶段 4:近期新出现的⼀一些⽅方法,如:注意⼒力力模型、迁移学习、半监督学习的⽅方法
实现方式
监督学习
半监督学习
无监督学习
混合方法
分块
实现方式
传统机器学习
深度学习
包含
自然语言生成NLG
生成方式
文本到语言的生成<br>
数据到语言的生成
文本到语言的生成<br>
level
简单的数据合并
模板化的NLG
高级NLG
流程
1.内容确定
2.文本机构<br>
3.句子聚合
4.语法化<br>
5.参考表达式生成
6.语言实现
目的
能够大规模生产个性化内容
帮助人类洞察数据,让数据更加容易理解
加速内容生产
应用
自动写新闻
聊天机器人
BI报告生成
自动写新闻
聊天机器人
BI报告生成
自然语言理解NLU
实现方式<br>
基于规则的方法<br>
基于统计的方法
基于深度学习的方法
0 条评论
下一页