1 VS1003B解码芯片介绍
VS1003B是由芬兰VLSI公司出品的一款单芯片的MP3/WMA/MIDI音频解码和ADPCM编码芯片,其内部电路如图1所示。由图可见,VS1003B包含一个高性能、具有自主产权的低功耗DSP处理器内核VSDSP,工作数据存储器为用户应用提供5 kB的指令RAM和0.5 kB的数据RAM,串行的控制和数据接口,4个常规用途的I/O口,一个UART,一个高品质可变采样率的ADC和立体声DAC,还有一个耳机放大器和地线缓冲器。
VS1003B通过一个串行输入总线来接收输入的比特流,它可以作为一个系统的从机。输入的比特流被解码,然后通过一个数字音量控制器到达一个18位过采样多位ε-△DAC。解码过程通过一个串行控制总线来控制实现。除了基本的解码,在用户RAM中它还可以做其他特殊应用,例如DSP音效处理。
2 设计原理
以半双工语音通信为例,其工作原理如图2所示。当一方需要讲话时,会按下PTT键,该信号被STM32微处理器检测到后,一方面向对方发送“PTT已按下”的消息,另一方面控制已方VS1003B进入录音模式,VS1003B将采集到的音频数据编码后缓存给STM32,再通过CAN总线发送到对方。对方在收到“PTT已按下”消息后,会控制己方VS1003B开启语音播放模式,将对方传来的音频数据传输给VS1003B进行解码,并根据需要调节音量,供耳机播放。
VS1003B电路原理图如图3所示。J1为麦克风输入插座,用于连接麦克风。J2为外部声音输入插座,连接音源。J3为耳机输出插座,连接耳机,由于内部具有耳机驱动器,VS1003B输出信号不需经过任何功放电路,从而简化了硬件电路。VS1003B各部分的供电电压不同,IOVDD(I/O电压)为3.3 V,CVDD(数字电路电压)为2.5 V,AVDD(模拟电路电压)为2.8 V。最大的采样率XTAL1/256,决定了能以正确的速度播放的音频采样率。例如,如果要播放48 kHz采样率的音频,XTAL1至少为12.288 MHz才能获得正确的播放速度。
对于STM32微处理器来说,总共需要7个IO口与VS1003B连接。SO(串行输出)、SI(串行输入)与SCLK(串行总线时钟)分别接STM32的PB14、PB15和PB13,即接到STM32的SPI2上,VS1003B通过SPI接口输出IMA ADPCM编码的音频数据。其余的四根线中,DREQ(数据请求)连接到PC3,XCS(命令片选)连接到PC10,XDCS(数据片选)连接到PC11,XRESET(复位)连接到STM32的14管脚(NRST),当STM32复位时,VS1003B同时复位。操作时,只有当DREQ为高(准备好)时才能读写VS1003B。
3 VS1003B程序设计
3.1 初始化VS1003B
在设计中,STM32F103VET6通过SPI总线对VS1003B进行控制,也就是通过VS1003B的串行数据接口SDI和串行控制接口SCI实现STM32F107 VCT6与VS1003B的通信。VS1003B初始化流程如图4所示。其中,DREQ为高时可判断为硬件复位或软件复位结束。
3.2 语音信号的采集
语音信号的采集就是把模拟的语音信号转化为可控制的数字信号。在这一处理过程中,主要是对模拟音频信号进行采样、量化和编码。
目前常见的音频信号的频率范围大致如下:电话为200Hz~3.4 kHz,调幅广播为50 Hz~7 kHz,调频广播为20Hz~15 kHz,高保真音频信号为20 Hz~20 kHz。因此音频取样频率一般定在8~48 kHz范围内。
量化是利用预先规定的有限个电平来表示每一模拟采样值的过程。量化的精度与其用来表示采样值的二进制位数有关,例如4位可表示24=16个量化等级,8位可表示28=256个量化等级。明显地,位数越多,量化值越接近采样值,其精度也就越高,但相应的所需的存储量也越大(见表1)。
鉴于STM32F107VCT6主频最高为72 MHz,在保证声音质量的前提下,应尽量减少数据量,因此本文对声音的采样频率为8 kHz,量化精度为8 bit,此时数据码率为64 kbit/s。
语音压缩编码需要在保持可懂度、音质、限制码率及降低编码过程的计算代价这几个方面进行折衷。VS1003B提供了IMA ADPCM编码,这是由互动多媒体协会(IMA)制定的标准,属于波形编码的一种,采用麦克风和线入两种输入方式,可支持的音频文件格式包括MP3、MP3+V、WMA、WAV、MIDI和SP-MIDI。IMA ADPCM适用于8~44.1 kHz采样频率,并且能在CPU占用率低和内存空间需求少的条件下保证较好的音质,在Windows和MAC操作系统中有广泛的应用。IMA ADPCM录音模式需要在SCI_MODE中对SM_RESET和SM_ADPCM进行置位来启动。在启动ADPCM录音前,必须分别向SCI_AICTRL0和SCI_AICTRL1写入时钟分割值(据此可得到采样率)和增益值。录音流程如图5所示。记录的语音数据以512字节为单位进行存储,并由STM32处理器通过CAN总线向对方转发。
3.3 CAN通信
CAN总线作为一种总线式串行通信网络,与一般的通信总线相比,具有突出的可靠性、实时性和灵活性等特点。考虑到模拟训练器材对语音传输距离的要求不高,且STM32自带bxCAN,即基本扩展CAN,它支持CAN协议2.0A和2.0B,支持报文发送的优先级要求,支持时间触发通信,距离40 m内波特率可达1Mbit/s。因此,设计上采用CAN总线来实现语音数据传输,由STM32F107VCT6内嵌的2路CAN控制器与外围器件SN65HVD230 (也标识为VP230)收发器组成2路CAN收发电路,其中一路CAN组成信令网,实现控制信令的传输;另一路CAN组成语音网,将ADPCM压缩编码后的数据,由STM32处理为CAN报文格式,发送到总线上,并对CAN过滤器进行设置,使之仅在收到给自己的报文时引起中断。
3.4 语音信号的播放
播放前将对方传来的语音数据存放到STM32的缓冲区,缓冲区的大小设置为512字节,一般一次读一个扇区,然后将数据发往VS1003B。由于VS1003B有32字节的数据缓冲区,一次可以发32个字节的数据,然后检测DREQ,当DREQ为高时送下一个32字节的数据,直到发完为止。 DREQ为高表明VS1003B可以接受新的数据,如果不考虑DREQ而直接连续的给VS1003B发音频数据,将会出现声音断断续续的情况。语音播放流程如图6所示,考虑到实际语音通信时,本地PTT键抬起时,对方会无法听到语音,因此流程图中采用判断对方PTT键的状态来处理是否播放。
4 结束语
本文对基于STM32微处理器和VS1003B音频解码芯片的语音通信功能的实现进行了研究,重点介绍了VS1003B的原理以及在语音通信应用中的硬件电路设计和软件程序设计。经测试,该方法可较好地满足语音通信要求,工作稳定可靠,并在多个模拟训练器材研发项目中得到应用,具有一定的参考价值。