数据压缩第一次作业

1-1：数据压缩的一个基本问题是“我们要压缩什么”，对此你是怎样理解的？

答：数据压缩，就是指不丢失有用信息的前提下，以最少的数码表示信号源所发的信号，减少容纳给定消息集合或数据采样集合的信号空间。

所谓的信号空间就是我们压缩的对象，即

1）物理空间，如存储器和U盘等数据存储介质。

2）时间空间，如传输给定消息集合所需的时间。

3）频带空间，如传输给定消息所要求的宽带等。

1-2：数据压缩的另一个基本问题是“为什么进行压缩”，对此你又是如何理解的？

答：减少信息存储空间，提高其传输、存储和处理效率。经过数据压缩可以将一些占用内存比较大多媒体数据，压缩成可以缩小的文件内存，这样可以方便传递。

1-6：数据压缩技术是如何进行分类的？
答：（1）按照压缩方法是否产生失真分类 —— 根据解码后数据与原始数据是否完全一致进行分类，压缩方法可被分为有失真编码和无失真编码两大类。
   （2）按照压缩方法的原理分类 —— 根据编码原理进行分类，大致有编码、变换编码、统计编码、分析－合成编码、混合编码和其他一些编码方法。


1.4 1、用你的计算机上的压缩工具来压缩不同文件。研究原文件的大小和类型对于压缩文件与原文件大小之比的影响。

压缩了一下发现小的图片压缩后变化基本没有，文字文件变化不大，但是影音文件变化很大。




1.4.2 从一本通俗杂志中摘录几段文字，并删除所有不会影响理解的文字，实现压缩。例如，在“This is the dog that belongs 
to my friend”中，删除is、the、that和to之后，仍然能传递相同的意思。用被删除的单词数与原文本的总单词数之比来衡量文本 
中的冗余度。用一本技术期刊中的文字来重复这一试验。对于摘自不同来源的文字，我们能否就其冗余度做出定量论述？

冗余度它表征源信息率的多于程度，是描述信源客观统计特性的一个物理量。也可以说是从多余的一个量，它不影响数据的完整，也正是因为这一个多余量的存在，才能对其信源进行压缩，压缩后不会影响传递信息。信源=信息+冗余度。

三、参考书《数据压缩导论（第4版）》Page 30

3、给定符号集A={a1,a2,a3,a4},求一下条件下的一阶熵：

（a）P(a1)=P(a2)=P(a3)=P(a4)=1/4

h=-1/4*4*log21/4

=2(bit)

（b）P(a1)=1/2 , P(a2)=1/4 , P(a3)=P(a4)=1/8

h= -1/2log21/2-1/4*log21/4-2*1/8*log21/8

=1.75(bit)

（c）P(a1)=0.505 , P(a2)=1/4 , P(a3)=1/4 , P(a4)=0.12

h=-0.505*log20.505-1/4*log21/4-1/4*log21/4-0.12*log20.12

=1.8672（bit）

5、考虑以下序列：

ATGCTTAACGTGCTTAACCTGAAGCTTCCGCTGAAGAACCTG

CTGAACCCGCTTAAGCTTAAGCTGAACCTTCTGAACCTGCTT

（a）根据此序列估计各概率值，并计算这一序列的一阶、二阶、三阶和四阶熵。

（b）根据这些熵，能否推断此序列具有什么样的结构？

答(a)：
1：
A出现的次数是：21； T出现的次数是：23 ；G出现的次数是：16 ；C出现的次数是：24；
P(A)=1/4 ；
P(T)=23/84；
P(G)=4/21；
P(C)=2/7；
一阶熵为：
-1/4*log2(1/4)-23/84*log2(23/84)-4/21*log2(4/21)-2/7*log2(2/7)
=1.983(bit)
2：按顺序把每两个字母进行组队得到：
AT，GC，TT，AA，CG，TG，CT，TA，AC，CT，GA，AG，CT，TC，CG，CT，GA，AG，AA，CC，TG
CT，GA，AC，CC，GC，TT，AA，GC，TT，AA，GC，TG，AA，CC，TT，CT，GA，AC，CT，GC，TT
出现的组合分别是：AT，GC，TT，AA，CG，TG，TA，AC，AG，TC，CC，CT十二种组合，
AT出现的次数是：1 ；GC出现的次数是：5 ；TT出现的次数是：5； AA出现的次数是：5 ；CG出现的次数是：2； TG出现的次数是：3；TA出现的次数是：1 ；AC出现的次数是：4 ；AG出现的次数是：2； TC出现的次数是：1 ；CC出现的次数是：3 ；CT出现的次数是：7；
P(AT)=1/42，P(GC)=5/42，P(TT)=5/42，P(AA)=5/42，P(CG)=1/21，P(TG)=1/14，P(CT)=7/42，P(TA)=1/42，P(AC)=1/14，P(GA)=2/21，P(AG)=1/21，P(TC)=1/42,P(CC)=1/14
二阶熵为：
-1/42*log2(1/42)*4-5/42*log2(5/42)*3-1/21*log2(1/21)*2-1/14*log2(1/14)*3-2/21*log2(2/21)-7/42*log2(7/42)
=3.530(bit)
3：按顺序把每三个字母进行组队得到：

ATG，CTT，AAC，GTG，CTT，AAC，CTG，AAG，CTT，CCG，CTG，AAG，AAC，CTG
CTG，AAC，CCG，CTT，AAG，CTT，AAG，CTG，AAC，CTT，CTG，AAC，CTG，CTT
得到的组合分别是：ATG，CTT，AAC，GTG，CTG，AAG，AAG
ATG出现的次数是：1 ；CTT出现的次数是：7 ；AAC出现的次数是：6 ；GTG出现的次数是：1；
CTG出现的次数是：7 ；AAG出现的次数是：4 ；AAG出现的次数是：2；
P(ATG)=1/28，P(CTT)=7/28，P(AAC)=3/14，P(GTG)=1/28，P(CTG)=1/4，P(AAG)=1/7，P(CCG)=1/14
三阶熵为：
-1/28*log2(1/28)*2-1/4*log2(1/4)*2-3/14*log2(3/14) -1/7*log2(1/7) -1/14*log2(1/14)
=2.491(bit)
4：按顺序把每四个字母进行组队得到：
ATGC，TTAA，CGTG，CTTA，ACCT，GAAG，CTTC，CGCT，GAAG，AACC，TGCT
GAAC，CCGC，TTAA，GCTT，AAGC，TGAA，CCTT，CTGA，ACCT，GCTT
得到的组合分别是：ATGC，TTAA，CGTG，CTTA，ACCT，GAAG，CTTC，CGCT，AACC，TGCT；

ATGC出现的次数是：1 TTAA出现的次数是：2； CGTG出现的次数是：1； CTTA出现的次数是：1； ACCT出现的次数是：2； GAAG出现的次数是：2 ；CTTC出现的次数是：1 ；
CGCT出现的次数是：1 ；AACC出现的次数是：1； TGCT出现的次数是：1；
GAAC出现的次数是：1 ；GCTT出现的次数是：2 ； AAGC出现的次数是：1；
TGAA出现的次数是：1‘ CCTT出现的次数是：1； CTGA出现的次数是：1 ；
P(ATGC)=1/21，P(TTAA)=2/21，P(CGTG)=1/21，P(CTTA)=1/21，P(ACCT)=2/21，P(GAAG)=2/21，P(CTTC)=1/21，P(CGCT)=1/21，P(AACC)=1/21，P(TGCT)=1/21，P(GAAC)=1/21，P(CCGC)=1/21，P(GCTT)=2/21，P(AAGC)=1/21，P(TGAA)=1/21，P(CCTT)=1/21，P(CTGA)=1/21.
四阶熵为：
-1/21*log2(1/21)*13-2/21*log2(2/21)*4
=4.01(bit)
得到的规律：当构成的字母个数越多所得的熵就越大。

7、做一个实验，看看一个模型能够多么准确地描述一个信源。

(a)编写一段程序，从包括26个字母的符号集{a,b,...,z}中随机选择字母，组成100个四字母单词，这些单词中有多少是有意义的？