第一次作业

1-1:数据压缩的一个基本问题是“我们要压缩什么”,对此你是怎样理解的?

    答:数据压缩,就是以最少的数码表示信号源所发的信号,减少容纳给定消息集合或数据采样集合的信号空间。

          所谓的信号空间就是被压缩的对象,是指:   

         1)物理空间,如存储器和光盘等数据存储介质。
         2)时间空间,如传输给定消息集合所需的时间。
         3)频带空间,如传输给定消息所要求的带宽等。

1-2:数据压缩的另一个问题是“为什么进行压缩”,对此你又是如何理解的?

    答:因为多媒体技术所处理的对象包括图像、视频和声音等多种媒体。它们的数据量非常大。如果不进行数据压缩

          的话传输和存储都难以实用化。而经过数据压缩可以将一些占用内存比较大多媒体数据,压缩成可以缩小的文

          件内存,这样可以方便传递。

1-6:数据压缩是如何进行分类的?

     答:

按压缩过程的可逆性进行分类,可分为无损压缩和有损压缩。
1)无损压缩是指使用压缩后的数据进行重构(或者叫做还原,解压缩),重构后的数据与原来的数据完全按相同;无损压缩用于要求重构的信号与原始信号完全一致的场合。
2)有损压缩是指使用压缩后的数据进行重构,重构后的数据与原来的数据有所不同,但不影响人对原始资料表达的信息造成误解。有损适用于重构信号不一定非要和原始信号完全相同的场合。 

按压缩的原理可以分为:
1)预测编码:利用空间中相邻数据的相关性来预测未来点的数据。差分脉冲编码调制和自适应差分脉冲编码调制。
2)变换编码:将图像时域信号变换到频域空间上处理。时域空间有较强相关的信号,反映在频域上是某些特定的区域内能量常被集中在一起,从而实现压缩。
3)量化和矢量量化编码:为了使整体量化失真最小,就必须依照统计的概率分布设计最优的量化器。
4)信息熵编码:根据信息熵原理,让出现概率大的用短的码字表达,反之用长的码字表示。
5)子带编码:使用带通滤波器组将信号频带分割成若干个子频带,然后分别处理。
6)模型编码:编码时首先将图像中边界、轮廓、纹理等结构特征找出来,保存这些参数信息。解码时根据结构和参数信息进行合成,恢复出原图像。

《数据压缩导论(第4版)》

page 8   1.4

1 .用你的计算机上的压缩工具来压缩不同文件。研究原文件的大小和类型对于压缩文件与原文件大小之比的影响。

答:我自己经过计算机压缩文件之后得出:对于文本文档等文件,可以压缩50%左右,对于音频、视频等文件只能压缩10%左右。所以文件不同压缩率也会不同。

2.从一本通俗杂志中摘录几段文字,并删除所有不会影响理解的文字,实现压缩。例如,在“This is the dog that belongs to my friend”中

删除is、the、that和to之后,仍然能传递相同的意思。用被删除的单词数与原文本的总单词数之比来衡量文本中的冗余度。用一本技术期刊中的文

字来重复这一试验。对于摘自不同来源的文字,我们能否就其冗余度做出定量论述?

答:冗余度,通俗的讲就是数据的重复度。在一个数据集合中重复的数据称为数据冗余。数据的重复存贮称为数据冗余。数据冗余会妨碍数据库中数据的完整性,也会造成存贮空间的浪费。

3.给定符号集A={a1,a2,a3,a4},求以下条件下的一阶熵:

  (a)P(a1)=P(a2)=P(a3)=P(a4)=1/4

   (b)  P(a1)=1/2,P(a2)=1/4,P(a3)=P(a4)=1/8

   (c)  P(a1)=0.505,P(a2)=1/4,P(a3)=1/8,P(a4)=0.12

答:

   (a)H=4*(-1/4)log21/4=2(bits/symbol)

   (b)H=-1/2*log21/2 -1/4*log21/4 -2*1/8 *log21/8=1.75(bits/symbol)

  (c)H=-0.505*log20.505-1/4*log21/4-1/8 *log21/8-0.12*log20.12=1.74(bits/symbol)

5、考虑以下序列:

                     ATGCTTAACGTGCTTAACCTGAAGCTTCCGCTGAAGAACCTG

                     CTGAACCCGCTTAAGCTGAACCTTCTGAAGCTTAACCTGVTT

  (a)根据此序列估计各概率值,并计算这一序列的一阶熵。

       答:该序列共有84个字母,则               

        P(A)=21/84=1/4,  P(T)=23/84, P(G)=16/84=4/21, P(C)=24/84=2/7

                   H=-1/4log21/4-23/84log223/84-4/21log24/21-2/7log22/7=1.983(bits/symbol)

7、做一个实验,看看一个模型能够多么准确地描述一个信源。

   (a)编写一段程序,从包括26个字母的符号集{a,b,...,z}中随机选择字母,组成100个四字母单词,这些单词中有多少是有意义的?

#include<stdio.h>
#include<stdlib.h>
int main()
{
    int a=97,b;
    int i=0,j=0;
    for(j;j<=99;j++)
    {
    printf("%d ",j+1);
    for(i;i<=3;i++)
    {
    a=97;
    b=rand()%26;
    a=a+b;
    putchar(a);
    }
    i=0;
    printf("  	");
    }
    return 0;
}

调试结果如下: 

有意义的:

1.hume n. 休姆(人名,姓氏)
2.firc 食品创新与资源中心Foreign Inward Remittance Certificate
3.gxrp 成都市高新橡塑密封件厂
4.evik n. 莠灭净(除草剂)
5.stmw 副热带模态水;亚热带模式的水;亚热带模态水
6.ycxf 系列
7.fadp 苷酸磷酸
8.gyps n. 石膏;欺骗(gyp的复数)v. 诈骗(gyp的三单形式)
9.boyg n. 无形的障碍
10.lfpb 联赛协会
11.nplj 翚
12.atxd 数字显示
13.ncbx 钢防鸟刺

原文地址:https://www.cnblogs.com/wushuangfei/p/4761723.html