文档介绍：语音处理与语音识别简介
2014年9月
主要内容
数字音频基础知识
音频处理基础知识
语音识别技术简
。声音概念
是指自然声
是杋械振动在弹性介质中传播的机械波
●是随时间连续变化的物理量
。声音特性
振幅一波的高低幅度,表示声音的强弱
●周期一两个相邻波之间的时间长度
●频率一每秒钟波振动的次数,单位是Hz
●声音的三要素
代表声音的高低,与频率有关;使
●音调—(高低)
用音频处理软件对声音的频率进行
调整时,其音调也会随之发生变化
声音的强度(响度或音量),与声波振幅成
正比;唱盘、CD盘等声音载体中的音强
音强—(强弱
不变,通过播放设备的音量控制可改变聆
听时强度;音频处理软件可提高声源音强
声音的特色,主要影响因素是复音;复
音指具有不同频率和不同振幅的混合声
音色—(特质)
音,其中最低频率是“基音”,是声音的
基调,其他频率的声音为“谐音(泛音)”
●声音的频率范围
次声波
人耳可听域
超声波
≤20
20 Hz
≥20mHz
小
男性语音
100Hz9000Hr
女性语音
150Hzw10000Hz
源
电话语音
200Hz~3400Hz
种
o调幅广播(AM
S0 Hz Hz
频带宽度
调频广播(FM)
20Hz~15000Hz
专业音响放大器
10Hz4000Hz
数字音频
声音是振动的机械波,话筒把机械振动转换成电信号,用随时间连
续变化的物理量表示,称之为模拟音频。
在计算机內部,所有的信息均以数字表示,代表声音信号的物理量
也用一系列数字表示,称之为数字音频。
模拟音频在时间上是连续的,而数字音频则是一个数据序列,在时
间上不具备连续性,因此只能是断续的。
当把模拟声音变成数字声音时,需要每隔一个时间间隔在模拟声音
波形上取一个电压幅度值,称之为采样
采样得到的表示声音强弱的模拟电压幅值是连续的,把无穷多个电
压幅值用有限个数字表示,称之为量化
●采样
采样概念
声波是连续信号,或称连续时间函数x()。用计算机处理这些信号时应先
离散化,即按一定的时间间隔(η)取值,得到x(nT(m为整数),T称采样
周期,1T称采样频率(每秒钟采样次数),x(nT称采样值(或离散信号)
X(O)
按固定间隔
X(n7)
采样声音波
采样声音波形
形之后的结果
●采样
奈奎斯特( Nyquist)采样定理:只要采样频率大于或者等于信号中所包
含的最高频率的两倍;即当信号是最高频率时,每个周期至少采样两个
点,则理论上就可以完全恢复原来的信号。
语音信号频谱在高频处迅速下降,但非限带。应用时只对一定频率范围
内的信号感兴趣,就可以对经滤波哏带的音频信号采样。这样,在采样
前,用一个锐截止模拟低通滤波器对音频信号进行滤波
●量化
通过采样得到的表示声音强弱的函数x(uT)是连续的,为把x(mT)存入计
算机,就必须将采样值离散化,即量化成一个有限个幅度值的集合x(nT
先将整个幅度划分成为有限个小幅度X(m)
量化电压幅
(量化阶距的集合,把落入某个阶距
值之后的结果
内的样值归为一类,并赋予相同的量
化值。如果量化值是均匀分布的,称
为均匀量化。设δ为量化阶距,量化
器最大范围是Xnax,则:=2Xmax/2B