第一次作业

一、教材习题1-1，1-2，1-6

1-1、数据压缩的一个基本问题是“我们要压缩什么”，对此你是怎样理解的？

我的理解是：我们需要压缩的是物理空间，如存储器、光盘等数据存储介质；时间空间，传输消息所给定的时间；电磁频段，传输给定消息集合所要求的频谱、贷款等。究竟要压缩什么，要根据实际需要与技术来决定。

1-2、数据压缩的另一个基本问题是“为什么进行压缩”，对此你有事怎样理解？

数据压缩就是以紧凑的方式表示信息的技术或科学。这样可以节约存储空间，还可以提高传输速率。

1-6、数据压缩技术是如何分类的？

根据重构要求可分为：无损压缩和有损压缩。

二、参考书《数据压缩导论（第四版）》Page 8

1.4 项目与习题

1、用你的计算机上的压缩工具来压缩不同文件。研究原文件的大小和类型对于压缩文件与原文件大小之比的影响。

答：备注：压缩比=压缩文件大小/原文件大小

文件类型	压缩前	压缩后	压缩比
文本	13.2MB	848KB	0.624
图像	5.94MB	5.26MB	0.886
视频	50.0MB	46.6MB	0.932

结论：有上述可以看出，文本的压缩率小于图像的压缩率，而图像的压缩率小于视频的压缩率。所以不同的文件压缩率是不同的，有的文件类型压缩之后会比原文件类型小很多，而有的文件压缩前后没有多大变化。

2、从一本通俗杂志中摘录几段文字，并删除所有不会影响理解的文字，实现压缩。例如，在"This is the dog that belongs to my friend” 中，删除 is 、the、that和to之后，仍然能传递相同的意思。用被删除的单词数与原文本的总单词数之比来衡量文本中的冗余度。用一本技术期刊中的文字来重复这一实验。对于摘自不同来源的文字，我们能否就其冗余度做出定量论述？

答：我们不能对摘自不同来源的文字的冗余度做定量论述。

理由：因为在处理文本时，除了冗余外，还有的单词经常重复出现，不同来源的文字，重复度是不一样。情况也不一样，处理方式也不同。

三、参考书《数据压缩导论（第4版）》Page 30 3, 5, 7

3、给定符号集A={a1,a2,a3,a4},求一下条件下的一阶熵：

（a）P(a1)=P(a2)=P(a3)=P(a4)=1/4

（b）P(a1)=1/2 , P(a2)=1/4 , P(a3)=P(a4)=1/8

（c）P(a1)=0.505 , P(a2)=1/4 , P(a3)=1/4 , P(a4)=0.12

答：

（a）一阶熵：

-4*1/4*log(1/4)=2

（b）一阶熵：

-1/2*1*log(1/2)+(-)1*1/4*log(1/4)+(-)2*1/8*log(1/8)=7/4

（c）一阶熵：

-1*0.505*log(0.505)+(-)2*1/4*log(1/4)+(-)1*0.12*log(0.12)=1.375

5、考虑以下序列：

ATGCTTAACGTGCTTAACCTGAAGCTTCCGCTGAAGAACCTG

CTGAACCCGCTTAAGCTTAAGCTGAACCTTCTGAACCTGCTT

（a）根据此序列估计各概率值，并计算这一序列的一阶。

（b）根据这些熵，能否推断此序列具有什么样的结构？

答：（a）首先总的字母有84个，其中字母A出现21次，字母T出现23次，字母G出现16次，字母C出现24次。

各字母的概率值如下：

P(A)=21/84=1/4=0.25;

P(T)=23/84=0.27;

P(G)=16/84=4/21=0.19;

P(C)=24/84=2/7=0.29.

一阶熵为：

（-log₂（0.25））*（0.25）+（-log₂（0.27））*（0.27）+（-log₂（0.19））*（0.19）+（-log₂（0.29））*（0.29）

= 0.50 + 0.51+ 0.47+ 0.51

=1.99 bit

7、做一个实验，看看一个模型能够多么准确地描述一个信源。

(a)编写一段程序，从包括26个字母的符号集{a,b,...,z}中随机选择字母，组成100个四字母单词，这些单词中有多少是有意义的？