中、英NLP异同
2019-05-21 17:38:50 45 举报
AI智能生成
登录查看完整内容
中英文NLP异同
作者其他创作
大纲/内容
英文语素/中文部首
英
词形还原
词干提取
中
拆分偏旁作为特征输入(作用轻微)
词性标注
词性划分严谨
词尾变化丰富
“汉语动词名词不分立”
名动形混合,词性判断难
标点符号和字体特征
英(强规范)
标点,大小写
中(弱规范)
辅助停顿
书名号等
句法结构
辅助词
特定标识词
指代消解
缩写、指代词、临时缩写
抽取内容,望文生义
省略和补足
中文词用量比英文少
同量的省略中文比英文的计算机处理略费力
中、英NLP对比
分词方式
中文文本连续文本分词
常见方法
经典机械切分(正/逆向最大匹配,双向匹配)
统计切分(条件随机场CRF)
深度神经网络
英文文本空格切分
词汇粒度
大粒度
基本粒度
限制及困难
表义单位:字
古汉语:单字
现代汉语:双音节化
单字切分双义
外来语
词汇间关联关系
同义词,近义词,词汇上下位,词向量
常用字少2000-3000
以字组合表述事物
词汇量多
Word2Vec方法
词嵌入 Embedding
歧义/子串转义
主流方向:语言无关性NLP算法
汉语语境特性:子串转义
中文NLP分词、词性、句法、指代、局部处理都会带来歧义理解问题
0 条评论
回复 删除
下一页