整理下最近的学习思路(3月15日~4月9日)

从到新公司起(3月中旬)

我就在思考如下方向:

1.Gabor 系列技术:

      Gabor 变换

      Gabor 系数

      Gabor 字典

      Gabor Transform 和 Gabor Dictionary(字典/分解)的区别

      以及新的Windowed Modified Discrete Cosine Transform(WMDCT)的意义,这个出现在lTFT matlab库中

这个WMDCT是具有类似QMF一样兼顾时频分析的特点。

      初步理解,Gabor是通过时间因子和频率因子两个变量影响系数结果,它是2元函数,他的系数会大于输入,L = M*Km = N*Sn  M是频域分辨率,N是时域分辨率,当L = M*N是普通1元子带变换.是gabor的特例。

2.量化技术:

   和我之前的学习了解SQ与VQ不同最近着重思考

   Noise Shaping/Dither对Quant的影响,参考部分论文和wikipedia

   为什么或者说怎么样设计出的AAC/MP3的那个量化谱线时的复杂的指数量化器(标量)

3.SBR的替代技术

   实际上,SBR是一种折中的方案,兼容以前的感知编码器和新的参数编码器(正弦建模)的混合编码器。

   新型的编码模型,基于正弦的模型在广泛的被研究中。包括J.M Valin打算在Ghost中使用这样的技术。

   而正弦建模技术早在1989年就已经在斯坦福大学进行研究。当时写博士论文Serra以及他的老师JOS III就已经进行研究。而MPEG4 的HILN和HXVC都是基于正弦建模的技术。

   而HILN也是德国Fraunhofer参与研发的。

 

   在这方面我发现了大量的论文和研究。

 

4. Malvar的变换技术

    思索MLT,LOT的区别。

    MDCT的效率,变换的意义和比较等。

 

总体说来着半个月我是围绕着变换(基础变换的意义和高级变换的研究),量化(基础量化)。以及正弦模型编码研究的。

可以说来变换和量化是为正弦编码服务的。

 

其次,围绕正新的编码器的研究我有如下方向和准备

1.  新的编码方案是在感知分析之后,可以立足当前的mp3或是aac编码器中在作玩感知分析之后,量化之前把感知处理后的数据保留下来

当然这里也有问题,就是mp3和aac的感知处理对熵编码和量化耦合是比较强的好像。

2. 有必要看下最近下载的几个经典的PPT把MP3和AAC以及vorbis的心理声学模型好好研究一下。

3. 应先多了解正弦模型系统框架,建立自己的框架。

4.在现行的Vorbis上提出正弦模型增强框架

5.学习HXVC和HILN以及G.718,G.729.1的代码学习正弦模型的实现算法,并试图改进。

6.在别人的正弦模型算法中提出和开发参数量化和编码的算法,例如正弦后分段自带的自适应矢量量化?

正弦参数的自适应量化?

原文地址:https://www.cnblogs.com/gaozehua/p/2439604.html