登录免费注册

首页  思维导图  详情



 



机器翻译

机器翻译

2021-02-16 14:07:10   21  举报





AI智能生成

1

工作总结

模板推荐

作者其他创作

大纲/内容

评估标准

人工评估

bleu评估

含义：模型句子与实际句子的差异指标

评估范围：0.0—1.0 分值越大越准确

范围：语言生成/图像标题识别/文本总结/语音识别

实现：分别计算模型句子和实际句子的N—grams模型

工具：python中nltk包和corpos_bleu()函数（用于段落和文章评分）

独立bleu：评估是否按照特定顺序评估的方式

累积bleu：对各个对应的grams权重进行加权，用sentence_bleu()函数

应用场景

<span style="font-size: inherit;">语言服务公司（翻译服务提供商本地化公司）</span><br>

互联网内容服务商（国际新闻服务商）<br>

社交平台（facebook/微博）

政府/国企（新闻、内容）

跨国公司（华为、惠普）

工具类服务商（飞猪、沪江）

方式

规则法

原理（根据语言规则对文本进行分析，利用<b>计<font color="#f15a23">算机程序</font></b>进行翻译）

流程（分析、转换、生成）

分类

直接翻译（词与词的翻译）

转换翻译（考虑词法、句法、语义）

国际语言翻译

统计法SMT

原理（通过平行语料的统计分析，构建统计翻译模型，贝叶斯算法找出<font color="#f15a23">高</font><b><font color="#f15a23">概率</font></b>词条)

流程（分块、找可能、找最可能）

分类

词的SMT

短语的SMT

<font color="#f15a23">依据</font>

大量训练数据

平行语料库（一种文本翻译成至少两种语言）

其他：范例法、上下文法、知识法、混合法

局限性

场景（新语言依赖人工和专家资源）

解决方法

循环神经网络RNN

与常规（非循环）网络区别（<font color="#f15a23">计算结果会被引用到下次计算中去</font>）

编码

搭建过程

数据预处理

分词

建立词典

构建模型

Sequence to sequence模型

训练、预测

结构：编码器encoder、解码器decoder

引入<font color="#f15a23">注意力机制</font>的顺序模型

维特比算法（<font color="#f15a23">机器学习中动态规则算法</font>）

集束搜索

Transfromer模型

优势：通过引入注意力机制，形成了<font color="#f15a23">平行化捕捉序列依赖，且同时处理序列上的象征（tokens)</font>

两种模型区别

将重的循环网络变更为一个多注意力层和FFN，帮助解码器接收编码器的隐藏状态

自注意力模型（序列每一个元素2对应的<font color="#f15a23">key/value/query</font>是一致的

多注意力模型（包含h个<font color="#f15a23">并行</font>的自注意力模型）

基于位置的前馈网络（FFN）

子主题

位置编码器

子主题

 Collect

Get Started

培养机器人1

 Collect

Get Started

学诚大和尚侧记翻译

 Collect

Get Started

培养机器人3-公开

 Collect

Get Started

学诚大和尚侧记翻译流程













评论

0 条评论

下一页



图形选择

思维导图

主题

补充说明

AI生成





修改AI描述

去编辑

重新生成

提示 

关闭后当前内容将不会保存，是否继续？

取消

确定

Document