Microsoft.DirectX.DirectSound学习（一）

　　背景：为什么用到这个类库呢？公司要一个要播放音频文件(.wav)的功能，本来想着很ez的事，网上提供的jq插件、本地也有很多播放器，怎么用都行。可当我实现的时候发现大部分网上插件在火狐上不支持.wav格式，好不容找到几个能实现的但是可以播放从网上下来的任何格式的歌曲音频但是公司的音频播放不了；很纳闷就调用本地.exe播放器结果一样不能播放，百般纳闷后找到音频生产者（Android）问音频是如何录制及生成的~不问不知道一问吓一跳，这是一段特殊音频流文件（没有波行头且已经实现了实时上传和播放功能）。挠头，郁闷，感叹人生好几天想出一招，让安卓端封装个jar包给我，我再将jar包封装DLL或者EXE引用即可...屁颠屁颠找安卓去聊这事，人家爽快答应我后当天下午就告诉我弄不了，音频是AudioTrack插件弄的，离开安卓环境就报错....郁闷...挠头...感叹人生，特么的爪哇能玩的.net应该也能玩才对啊！！；研究了一下午AudioTrack发现它也是PCM流实现的功能，哎，求人不如求己各种摆渡后找到了这个类库，自己写...

　　正题：语音聊天过程

　　声音的一些术语：

　　　　声道：　单声道、双声道

　　　　　　　　对于单声道声音文件，采样数据为八位的短整数（short int 00H-FFH）；

　　　　　　对于双声道立体声声音文件，每次采样数据为一个16位的整数（int），高八位(左声道)和低八位(右声道)分别代表两个声道

　　　　采样位数：8位、16位（2^8与2^16）

　　　　采样频率：声音信号在“模→数”转换过程中单位时间内采样的次数。采样值是指每一次采样周期内声音模拟信号的积分值。

　　　　　　　　　　22.05KHz、44.1KHz、48KHz

每个采样数据记录的是振幅, 采样精度取决于储存空间的大小:

1 字节(也就是8bit) 只能记录 256 个数, 也就是只能将振幅划分成 256 个等级;

2 字节(也就是16bit) 可以细到 65536 个数, 这已是 CD 标准了;

4 字节(也就是32bit) 能把振幅细分到 4294967296 个等级, 实在是没必要了.

如果是双声道(stereo), 采样就是双份的, 文件也差不多要大一倍.

这样我们就可以根据一个 wav 文件的大小、采样频率和采样大小估算出一个 wav 文件的播放长度。

譬如 "Windows XP 启动.wav" 的文件长度是 424,644 字节, 它是 "22050HZ / 16bit / 立体声" 格式(这可以从其 "属性->摘要" 里看到),

那么它的每秒的传输速率(位速, 也叫比特率)是 22050*16*2 = 705600(bit/s), 换算成字节单位就是 705600/8 = 88200(字节/秒),
播放时间：424644(总字节数) / 88200(每秒字节数) ≈ 4.8145578(秒)。

包装标准的 PCM 格式的 WAVE 文件(*.wav)中至少带有 42 个字节的头信息, 在计算播放时间时应该将其去掉,
就有：(424644-42) / (22050*16*2/8) ≈ 4.8140816(秒). 这样就比较精确了

　　RTP/RTCP协议：百度学习...

　　Microsoft.DirectX.DirectSound(简称：DirectSound)工作原理；

　　DirectSound使用缓冲区来播放声音，分为：主缓冲区（PrimaryBuffer）、从缓冲区（SecondBuffer）

　　PrimaryBuffer：在DirectSound对象创建过程中自动创建（默认格式：22.05Khz/8位/立体声），从缓冲区中的音频数据完成混音后被放入主缓冲区

　　SecondBuffer：手动创建，需要将PCM流写入SecondBuffer中，接下去的混音和播放由DirectSound后台完成；

　　　　　　　　　　只要混音运算足够快用户可创建多个SecondBuffer同时播放不同波形音频数据

　　静态缓冲(StaticBuffer)和流式缓冲(StreamingBuffer)

　　DirectSound有多种选择创建不同样式的从缓冲区，从工作原理上看，有两种最为重要和常用：StaticBuffer、StreamingBuffer。

　　静态缓冲(StaticBuffer)：按波形音频数据大小创建从缓冲区，在播放音频前需要将文件全部写入从缓冲区，数据一次写入后声音可以反复播放；主要用于播放小文件。缺点：占用内存空间过大；即使创建成功，那么在播放前将波形音频数据写入从缓冲区的时间过长对实时播放造成了影响。

　　流式缓冲(StreamingBuffer)：用于长时间连续的波形音频数据的播放，用户在内存中创建从缓冲区，一般为播放1~2秒数据的长度，然后根据播放速率将波形音频数据定时分片写入从缓冲区的指定位置，就可以实现话音实时播放。主要用于大型波形音频数据的播放或实时采样声音的播放。

作者：大胖儿在努力本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接，否则保留追究法律责任的权利。