面试题_二分查找及其变形

二分查找常用来查找指定有序集合中元素的位置，思路和代码都比较简单，所以大家都很熟练。二分查找貌似很多公司在面试或笔试的时候都会多少涉及到，经常会让你在纸上直接写代码，所以平常只知道原理而从来不自己写的人，可能不会太快写出来，或是代码有点小漏洞，所以经常敲敲常见的数据结构和代码还是很必要的。

很多问题，只要涉及到有序的数据结构，就可以往二分查找的思路上靠。下面的代码，可能不是很完善，仅供参考。

经典二分查找的代码，在有序数组里面查找是否存在某个元素，如果存在，则返回相应元素所在索引号：

int Find(int arr[], int key,int length)
{
assert(arr!=NULL&&length>0);
int low=0,high=length,mid;
while(low<=high)
{
mid=(low+high)/2;
if(arr[mid]==key) return mid;
else
{
if(arr[mid]>key) high=mid-1;
else low=mid+1;
}
}
return-1;
}

变形1：

问题来了：在循环有序数组中查找指定元素，也就是说在类似这样的{12,16,18,20,41,100,1,4,6,9}数组中查找指定的元素。

分析一下，这里所说的循环有序数组，就是把一个有序数组从某个（未知）位置处截为两段，把前一段放到后一段的后面（数组里的元素还是有序的，只不过最小值不一定是数组的第一个元素，而可能是其中的任何一项，从它开始逐项递增，到数组的最后一个元素时再回到第一个元素）。
显然传统的二分法已经无法直接使用了，但考虑一下，如果已经知道分界点位置，那问题就简单多了，只要先判断一下待查元素是在分界点的左侧还是右侧，然后直接对那一侧的半个数组使用二分查找。

那么重点就是判定待测元素在分界点的左侧还是右侧的问题了，可以发现每次取mid后，就会形成两种情况的子序列。一种情况是类似{4,6,9}，他是一个正常有序的子集合，另一种情况是类似{12,16,18,20,41,100,1}的与源问题类似结构的相对复杂的子集合。显然第一种情况是简单的，那么判定待测元素在分界点的简单一侧会比较容易。

第一种情况（arr[mid]>=arr[low]）：当key<=arr[mid]&&key>=arr[low]时，待测元素肯定会在mid的左侧；其他情形则会在mid的右侧。

第二种情况（arr[mid]<arr[low]）：当key<=arr[low]&&key>=arr[mid]时，待测元素肯定会在mid的右侧，其他情形则会在mid的左侧。

上面两个子条件的选择比较重要。

最后给出代码：

int find ( int * arr, int low , int high, int key)
{
	int mid ;
	while(low<=high)
	{
		mid = (low+high)/2;
		if (arr[mid] == key ) return mid;
		if(arr[mid]>=arr[low])
		{
			if(key<=arr[mid]&&key>=arr[low]) high = mid -1;
			else low = mid +1;	
		}
		else
		{
			if(key<=arr[high]&&key>=arr[mid]) low = mid + 1;
			else high = mid -1;		
		}
	}
	return -1;
}

变形2：假如集合中的元素有重复，要找到key首次出现的位置。

int find(int * arr , int length, int key){
    int low = 0,high = length-1,mid;
    while(low <= high){
        mid = (low + high)/2;
        if (arr[mid] < key){
            low = mid + 1;
        }else if(arr[mid] > key){
            high = mid - 1;
        }else{
            if (mid == 0) return mid;
            if (mid >= 1 && arr[mid-1] != key) return mid;
            else high = mid - 1;
        }
    }
    return -1;
}

变形3：在一个有序的数组里，查找不小于key的最小的数的索引，如果key值存在，则返回key第一次出现的位置，如果不存在则返回-1。（类似的查找比key小的最大的数）

#include<iostream>
using namespace std;

int find(int * arr, int low, int high, int key){
    if(arr[low] >= key) return low;
    if (low > high) return -1;
    int mid = (low + high) / 2;
    if (arr[mid] < key) return find(arr,mid+1,high,key);
    else if(arr[mid] >= key){
        if(mid >= low && arr[mid-1]>=key)
            return find(arr,low, mid-1, key);
        return mid;
    }
}
int main(){
    int arr[] = {1,3,3,3,3,3,6,6,7,9,11,12};
    int length = sizeof(arr) / sizeof(int);
    cout<<"KEY"<<"\t"<<"索引"<<"\t"<<"对应值"<<endl;
    for(int i=0;i<15;i++){
        int idx = find(arr,0,length-1,i);
        if (idx >= 0)
            cout<<i<<"\t"<<idx<<"\t"<<arr[idx]<<endl;
        else cout<<i<<"\t"<<idx<<"\t"<<"None"<<endl;
    }
    return 0;
}

变形4：在一个有序的数组里，数据里面元素可能有重复的，查找指定key所在的索引范围。

例如：int arr[] = {1,2,2,2,2,3,3,3,3,3,6,6,7,9,11,12}; 查找3的话，应该返回（5,9）

分析一下：一个思路是，先随意找到一个key所在的索引i，然后从i的左右两侧查找，直到左右两侧遇到不等于key的值为止，然后返回两边的索引号。

但是，这样存在一个问题，考虑一下如果一个数组是{1,2,3,3,3,3,3,3,3,4}，这样按照上面的想法就很扯淡了，因为与key相等的值太多了，比较代价太大。

于是可以考虑，用两次二分查找，找两个边界，这里我们可以使用变形3中所写好的find函数，我们去找比key+1大的最小的索引right，以及比key大的最小值得索引left。

返回结果，即为<left,right-1>

这里有个问题必须指出，在变形3我们写的函数中，如果key存在则返回key第一次出现的位置。

int find(int * arr, int low, int high, int key){
    if(arr[low] >= key) return low;
    if (low > high) return -1;
    int mid = (low + high) / 2;
    if (arr[mid] < key) return find(arr,mid+1,high,key);
    else if(arr[mid] >= key){
        if(mid >= low && arr[mid-1]>=key)
            return find(arr,low, mid-1, key);
        return mid;
    }
}

pair<int,int> findRange(int * arr, int length, int key){
    pair<int,int> res(-1,-1);
    int l = find(arr, 0,length-1, key);
    if(l<0 || arr[l] != key) return res;
    res.first = l;
    int r = find(arr, 0, length-1, key+1);
    if(r-1<0 || arr[r-1] != key) return res;
    res.second = r-1;
    return res;
}
int main(){
    int arr[] = {1,2,2,2,2,3,3,3,3,3,6,6,7,9,11,12};
    int length = sizeof(arr) / sizeof(int);
    for (int i=0;i<15;i++){
        pair<int,int> res = findRange(arr, length,i);
        cout<<i<<"\t"<<res.first<<"\t"<<res.second<<endl;
    }
    return 0;
}