编程珠玑第二章

问题A

题目：给定一个包含40亿个随机排列的顺序文件，找到一个不在文件中的32位整数，在有足够内存的情况下应该如何解决该问题？如果有几个外部的临时文件可用，但是仅有几百字节的内存，又该如何解决？

（1）对于有足够内存的情况，完全可以采用位图存储的方法，详细内容看《编程珠玑》第一章。

（2）Ed Reingold 给出了另外一种解法。

　问题的关键是只要找到一个数字，那么我们把问题简化一下，给定一个文件，里头最多包含16个4bit的整数，找到一个不在文件中的4bit整数。假设这十个数是 1 2 3 4 5 7 6 9 8 10。

　　取出一个数字，如果是最高位为1，放到一个文件中，否则放到另外一个文件中。同时用两个计数器记录这两个文件中的数字个数。最高位为1或0的4bit数字有都只有8个。所以如果其中有一个文件（也可能两个都是）分过去的个数小于8个，那么遗漏的数字肯定在这个文件的这堆数字里头。

　　
　　高位为0， 1 2 3 4 5 6 7
　　高位为1， 8 9 10
　　
　　高位为0的数字是7个，高位为1的数字个数为3个，显然这两堆都遗漏了数字（比如第一堆遗漏了0），

如果有重复的数字，那么也有可能其中的一堆数字个数多余8，那么另外一堆肯定少于8
　　选择数字个数少的那一堆，如此再继续区分第二高位为1跟为0的……以此类推，最后就找到了那个遗漏的数据

如果有重复的数据怎么办，假设数据是9个7，一个8？

比如第一次找，

高位为0，7 7 7 7 7 7 7 7 7

高位为1，8

那选择个数少于16/2=8的那组数据继续就能找到，这里对第二堆数据（只有8，说明高位为1的只有一个数）很快就找到了9,10,11,12,13,14,15都是缺失的。

Q2:给定一个包含4300000000个32位整数的顺序文件，请问如何找到一个至少出现两次的整数？

解答：二分查找。由于4.3G>32位的整数空间，根据鸽笼原理，肯定会有重复的整数。搜索范围从所有的32位正整数开始（全部当成unsigned int，简化问题），即[0, 2^32)，中间值即为2^31。然后遍历文件，如果小于2^31的整数个数大于N/2=2^31，则调整搜索范围为[0, 2^31]，反之亦然；然后再对整个文件再遍历一遍，直到得到最后的结果。T(n) = T(n/2) + n，总体的复杂度为o(logn)。

例子：数组[4,2,5,1,3,6,3,7,0,7]，假定从3位的整数空间内搜索。第一次的范围为[0,8)，遍历过后发现[0,4)范围内的整数个数为5，于是调整为搜索[0,4)范围内的整数。第二次发现[2, 4)范围内的证书为3，大于2，于是调整为[2, 4)。再经过第三次的遍历，找出3为重复出现的整数

问题B：

字符串转置

/************************************************************************/
/*function: 字符串转置
author:liuwei
time:2013-07-10  
基本思想:代码也是一样若想求出ab的逆序ba,则先对a求逆，再对b求逆，最后对整体求逆     
*/
/************************************************************************/
#define  M 4
#define  N 10
#include <stdio.h>
int a[10] = {0};
void reverse(int i,int j)
{
 int tmp = 0;
 while (i < j)
 {
  tmp = a[i];
  a[i] = a[j];
  a[j] = tmp;
  i++;
  j--;
 }
}
int main()
{
 for (int i = 0;i<10;++i)
 {
  scanf("%d",&a[i]);
 }
 reverse(0,M-1);
 reverse(M,N-1);
 reverse(0,N-1);
 for (i = 0;i<10;++i)
 {
  printf("%d",a[i]);
 }
 return 0;
}

问题C

给定一本英语单词词典，请找出所有的变位词集。所谓的变位词是指，组成各个单词的字母完全相同，只是字母排列的顺序不同。

/************************************************************************/
/*function: 找出一本词典里的变位数,
1.第一步是对所有的单词通过排序的方式进行标记(单词本身排序)
2.利用系统的sort函数对标记的单词排序(单词间的的排序)
3.压缩变位词到一行

author:liuwei
time:2013-07-10
name:sort.c  
基本思想:代码也是一样若想求出ab的逆序ba,则先对a求逆，再对b求逆，最后对整体求逆     
*/
/************************************************************************/

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#define MAX 100

int charcomp(const void * a,const void * b)
{
	return *(char*)a - *(char*)b;
}

int main()
{
	FILE *in = freopen("in.txt","r",stdin);
	if(in == NULL)
	{
		printf("open error
");
		return 0;
	}
	char word[MAX] = {0};
	char sig[MAX] = {0};
    while (scanf("%s",word) != EOF)
	{
		strcpy(sig,word);
		qsort(sig,strlen(sig),sizeof(char),charcomp);
		printf("%s %s
",sig,word);
	}
	fclose(in);
    return 0;
}

squash.c

/************************************************************************/
/*function: 找出一本词典里的变位数,
1.第一步是对所有的单词通过排序的方式进行标记(单词本身排序)
2.利用系统的sort函数对标记的单词排序(单词间的的排序)
3.压缩变位词到一行

author:liuwei
time:2013-07-10
name:squash.c  
基本思想:代码也是一样若想求出ab的逆序ba,则先对a求逆，再对b求逆，最后对整体求逆     
*/
/************************************************************************/

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#define MAX 100

int charcomp(const void * a,const void * b)
{
	return *(char*)a - *(char*)b;
}

int main()
{
//	FILE *out = freopen("out.txt","r",stdout);
//	if(out == NULL)
	//{
	//	printf("open error
");
	//	return 0;
//	}
    int linenum = 0;
	char word[MAX] = {0};
	char sig[MAX] = {0};
	char oldsig[MAX] = {0};
    while (scanf("%s %s",sig,word) != EOF)
	{
		if (strcmp(oldsig,sig) != 0 && linenum > 0)
		{
			printf("
");
		}
		strcpy(oldsig,sig);
		linenum++;
		//qsort(sig,strlen(sig),sizeof(char),charcomp);
		printf("%s  ",word);
	}
	printf("
");
//	fclose(out);
    return 0;
}