语音识别
2023-07-04 14:01:24 19 举报
AI智能生成
语音识别知识梳理
作者其他创作
大纲/内容
语音识别基础知识
语音识别是什么?
<font color="#121212">语音识别技术</font><font color="#4d4d4d">又称Automatic Speech Recognition,即ASR技术,</font><font color="#121212">目的是将语音序列转换为文本序列</font><br>
<font color="#121212">语音识别的本质就是一种模式识别的过程,将未知的语音模式与已知的语音模式进行对比,最佳匹配的参考模式就被视为识别结果</font><br>
<font color="#894e54">语音识别系统</font>的四个模块
<font color="#121212">信号处理与特征提取</font><br>
<font color="#121212">信号处理:对语音片段进行噪声消除和信道增强等预处理技术</font>
<font color="#121212">不同的特征向量表征着不同的声学意义,从音频信号中选择有效的音频表征的过程就是语音特征提取</font><br>
<font color="#121212">梅尔频率倒谱系数(MFCC)提取特征,</font><font color="#121212">Python 提供了 pyaudio 和 librosa等语音处理工作库<br></font><font color="#121212">卷积神经网络(CNN)、CNN-LSTM-DNN(CLDNN)等深度神经网络模型提取语音特征</font><font color="#121212"><br></font>
<font color="#121212">声学模型</font><br>
<font color="#121212">对提取的音频特征进行进一步的处理,处理的目的是找到语音来自于某个声学符号(音素)的概率</font><br>
<font color="#121212">根据声学特征性计算每一个特征向量在声学特征上的得分</font>
<font color="#121212">语言模型</font><br>
<font color="#121212">用来计算出一个句子出现概率的模型,简单来说,就是计算出这个句子在语法上是否正确的概率。</font>
<font color="#000000">反映字词出现的先验概率,比如“郝”和“好”,这两个字发音相同,但“郝”相对于“好”来说,<br>出现的概率较低,一般都会出现在姓氏里;反映词顺序是否符合语言习惯和反映词的语义信息</font>
<font color="#121212">计算该声音信号对应可能词组序列的概率;</font><font color="#121212">类似 n-gram 和 RNN 等模型,会得到一个语言模型得分</font>
<font color="#121212">解码搜索</font><br>
<font color="#121212">语音技术中的识别过程</font>
<font color="#121212">解码搜索阶段会针对声学模型得分和语言模型得分进行综合,将得分最高的词序列作为最后的识别结构</font><br>
语音识别系统分类
<font color="#121212">基于传统声学模型的语音识别系统</font>
<font color="#121212">高斯混合模型(GMM)和隐马尔可夫模型(HMM)等</font>
<font color="#121212">基于深度学习的语音识别系统</font>
<font color="#121212">循环神经网络、LSTM、编码-解码框架、注意力机制等</font>
业务需求
识别说话内容和时长,对累计时长超过阈值给出提示
使用python的SpeechRecognition库
<font color="#000000">1.获取语音文件,支持从文件、麦克风读取</font>
<font color="#000000">2.获取识别语音内容的对象</font>
<font color="#000000">3.打开语音文件,调用recognize_sphinx接口将语音转化为文本</font>
python调用开源API
<font color="#000000">1.Google API--无需注册可直接使用,但无法访问Google网页,需要国外vps</font>
<font color="#000000">2.百度 API--需要注册账号,创建语音识别应用,获取</font><font color="#4d4d4d">API Key和Secret Key</font>
基于深度学习的语音识别
<font color="#000000">1.预处理语料</font>
<font color="#000000">2.提取音频特征,使用</font><font color="#000000">MFCC特征或者神经网络提取特征</font>
<font color="#000000">3.构建神经网络模型,如RNN、CNN、LSTM的混合模型</font>
<font color="#000000">4.模型训练及结果评估</font>
0 条评论
下一页