第一次作业

1-1

  答:数据压缩就是以最少的数码表示信源所发的信号,减少容纳给定消息集合或数据采样集合的信号空间;这里的信号空间就是压缩对象,也就是我们要压缩的对象。包括:

      1.物理空间:如储存器,硬盘,磁盘,光盘,U盘等数据储存介质。

      2.时间区间:如传送给定消息集合所需要的时间。

      3.电磁频段:如位传输给定消息集合所需的频谱,带宽等。

1-2

   答:数字技术有很多优越性,但同时也使数量大增,数据比较繁杂,甚至还有数据冗余。所以,为了使数据更加精纯,缩减数据量以减少存储空间,提高其传输、存储和处理效率,消除冗余,我们要对数据进行压缩。这样能提高我们的工作效率,更增加了数据的实用性。

1-6

   答:数据压缩分为可逆压缩和不可逆压缩。

        可逆压缩也叫做无失真、无差错编码或无噪声编码,也叫做冗余压缩、熵编码、数据紧缩、信息保持编码等等。

        不可逆压缩也就是有失真编码信息论中称为熵压缩。

参考书《数据压缩导论(第四版)》

1.

用你的计算机上的压缩工具来压缩不同文件。研究原文件的大小和类型对于压缩文件与原文件大小之比的影响

   答:压缩比则根据文件类型的不同有所不同,文档类的文件压缩比很大(一个字或者一个词在同一个文件会反复出现),而影音文件的压缩相对较小(因为每个声音,像素,色素等不会相同,不会反复出现)

2.

从一本通俗杂志中摘录几段文字,并删除所有不会影响理解的文字,实现压缩。例如,在“This is the dog that belongs to my friend”中,删除is、the、that和to之后,仍然能传递相同的意思。用被删除的单词数与原文本的总单词数之比来衡量文本中的冗余度。用一本技术期刊中的文字来重复这一试验。对于摘自不同来源的文字,我们能否就其冗余度做出定量论述?

   答:对于摘自不同来源的文字,我们不能否就其冗余度做出定量论述;重复这一试验,不同文本中的信息是不同的,冗余度是不一样的。

参考书《数据压缩导论(第4版)》Page 30 

3.

给定符号集A={a1,a2,a3,a4},求一下条件下的一阶熵:

(a)P(a1)=P(a2)=P(a3)=P(a4)=1/4

(b)P(a1)=1/2 , P(a2)=1/4 , P(a3)=P(a4)=1/8 

(c)P(a1)=0.505 ,  P(a2)=1/4 , P(a3)=1/8 , P(a4)=0.12 

  答:  (a)-1/4*log2 (1/4)-1/4*log2 (1/4)-1/4*log2 (1/4)-1/4*log2 (1/4)=4*1/2= 2 

        (b)-1/2*log2(1/2)-1/4*log2(1/4)-1/8*log2(1/8)-1/8*log2(1/8)= 1/2+1/2+3/8+3/8=1.75(bits)

        (c) -0.505*log20.505-1/4*log2(1/4)-1/8*log2(1/8)-0.12*log20.12=1.74

5.

考虑以下序列:

                     ATGCTTAACGTGCTTAACCTGAAGCTTCCGCTGAAGAACCTG

                     CTGAACCCGCTTAAGCTGAACCTTCTGAAGCTTAACCTGVTT

  (a)根据此序列估计各概率值,并计算这一序列的一阶熵。

       解答:该序列共有84个字母,则

                P(A)=21/84             P(C)=23/84

                P(G)=16/84                P(T)=23/84     P(V)=1/84

                H=21/84 * log2+23/84*log284/23*2+16/84*log284/16+1/84*log284/1  =0.5+1.024+0.455+0.076=2.055

7.

做一个实验,看看一个模型能够多么准确地描述一个信源。

 (a)编写一段程序,从包括26个字母的符号集{a,b,...,z}中随机选择字母,组成100个四字母单词,这些单词中有多少是有意义的?

原文地址:https://www.cnblogs.com/linghushaohai/p/4764964.html