AI
推荐
模板社区
专题
登录
免费注册
首页
思维导图
详情
机器翻译
2021-02-16 14:07:10
21
举报
分享方式
免费使用
AI智能生成
1
工作总结
模版推荐
作者其他创作
大纲/内容
评估标准
人工评估
bleu评估
含义:模型句子与实际句子的差异指标
评估范围:0.0—1.0 分值越大越准确
范围:语言生成/图像标题识别/文本总结/语音识别
实现:分别计算模型句子和实际句子的N—grams模型
工具:python中nltk包和corpos_bleu()函数(用于段落和文章评分)
独立bleu:评估是否按照特定顺序评估的方式
累积bleu:对各个对应的grams权重进行加权,用sentence_bleu()函数
应用场景
<span style="font-size: inherit;">语言服务公司 (翻译服务提供商本地化公司)</span><br>
互联网内容服务商(国际新闻服务商 )<br>
社交平台(facebook/微博)
政府/国企(新闻、内容)
跨国公司(华为、惠普)
工具类服务商(飞猪、沪江)
方式
规则法
原理(根据语言规则对文本进行分析,利用<b>计<font color="#f15a23">算机程序</font></b>进行翻译)
流程(分析、转换、生成)
分类
直接翻译(词与词的翻译)
转换翻译(考虑词法、句法、语义)
国际语言翻译
统计法SMT
原理(通过平行语料的统计分析,构建统计翻译模型,贝叶斯算法找出<font color="#f15a23">高</font><b><font color="#f15a23">概率</font></b>词条)
流程(分块、找可能、找最可能)
分类
词的SMT
短语的SMT
<font color="#f15a23">依据</font>
大量训练数据
平行语料库(一种文本翻译成至少两种语言)
其他:范例法、上下文法、知识法、混合法
局限性
场景(新语言依赖人工和专家资源)
解决方法
循环神经网络RNN
与常规(非循环)网络区别(<font color="#f15a23">计算结果会被引用到下次计算中去</font>)
编码
搭建过程
数据预处理
分词
建立词典
构建模型
Sequence to sequence模型
训练、预测
结构:编码器encoder、解码器decoder
引入<font color="#f15a23">注意力机制</font>的顺序模型
维特比算法(<font color="#f15a23">机器学习中动态规则算法</font>)
集束搜索
Transfromer模型
优势:通过引入注意力机制,形成了<font color="#f15a23">平行化捕捉序列依赖,且同时处理序列上的象征(tokens)</font>
两种模型区别
将重的循环网络变更为一个多注意力层和FFN,帮助解码器接收编码器的隐藏状态
自注意力模型(序列每一个元素2对应的<font color="#f15a23">key/value/query</font>是一致的
多注意力模型(包含h个<font color="#f15a23">并行</font>的自注意力模型)
基于位置的前馈网络(FFN)
子主题
位置编码器
子主题
收藏
立即使用
机器翻译
阿轩
职业:暂无
去主页
Collect
Get Started
图片机器审核
Collect
Get Started
文字机器审核
Collect
Get Started
学诚大和尚侧记翻译
Collect
Get Started
机器人去毛刺
评论
0
条评论
下一页
图形选择
思维导图
主题
补充说明
AI生成
修改AI描述
去编辑
重新生成
提示
关闭后当前内容将不会保存,是否继续?
取消
确定
Document