算法之--字符串包含【python实现】

题目描述

给定两个分别由字母组成的字符串A和字符串B，字符串B的长度比字符串A短。请问，如何最快地判断字符串B中所有字母是否都在字符串A里？

为了简单起见，我们规定输入的字符串只包含大写英文字母，请实现函数bool StringContains(string &A, string &B)

比如，如果是下面两个字符串：

String 1：ABCD

String 2：BAD

答案是true，即String2里的字母在String1里也都有，或者说String2是String1的真子集。

如果是下面两个字符串：

String 1：ABCD

String 2：BCE

答案是false，因为字符串String2里的E字母不在字符串String1里。

同时，如果string1：ABCD，string 2：AA，同样返回true。

分析与解法

题目描述虽长，但题意很明了，就是给定一长一短的两个字符串A，B，假设A长B短，要求判断B是否包含在字符串A中。

初看似乎简单，但实现起来并不轻松，且如果面试官步步紧逼，一个一个否决你能想到的方法，要你给出更好、最好的方案时，恐怕就要伤不少脑筋了。

解法一

判断string2中的字符是否在string1中?最直观也是最简单的思路是，针对string2中每一个字符，逐个与string1中每个字符比较，看它是否在String1中。

代码可如下编写：

def StringContian(strA, strB):
    for i in strB:              # 循环字符串A
        m = 0                   # 每次循环设置不等个数为0
        for j in strA:          # 循环字符串B
            if i != j:          # 如果字符串A中的第j个字符串和B中的第j个字符串不相等，就加1，不相等就加0
                m += 1
        if m >= len(strA):      # 如果不相等个数大于等于A字符串长度，就说明B的第i个字符在A字符串中没有，则绝对不包含
            return False
    return True                 # 表明B中的每个字符在A字符串中都出现了，返回Ture

strA = input().strip()          # 获取输入字符串A
strB = input().strip()          # 获取输入字符串B
print(StringContian(strA,strB)) # 打印结果

假设n是字符串String1的长度，m是字符串String2的长度，那么此算法，需要O(n*m)次操作。显然，时间开销太大，应该找到一种更好的办法。

解法二

如果允许排序的话，我们可以考虑下排序。比如可先对这两个字符串的字母进行排序，然后再同时对两个字串依次轮询。两个字串的排序需要(常规情况)O(m log m) + O(n log n)次操作，之后的线性扫描需要O(m+n)次操作。

关于排序方法，可采用最常用的快速排序，参考代码如下：

def StringContian(strA, strB):
    strA = ''.join(sorted(strA))    # 字符串A排序
    strB = ''.join(sorted(strB))    # 字符串B排序
    for i in range(len(strB)):      # 循环字符串B
        m = 0
        while m < len(strA) and (strA[m] < strB[i]):    # 循环字符串A，如果A中某个字符小于B中的第i个字符，则加1
            m += 1
        if m >= len(strA) or strA[m] > strB[i]:         # 加完之后，如果长度大于等于A的长度，或者A中的第m+1个字符比B中第i个字符大，则说明字符串A不包含字符串B
            return False
    return True

strA = input().strip()          # 获取输入字符串A
strB = input().strip()          # 获取输入字符串B
print(StringContian(strA,strB)) # 打印结果

解法三

有没有比快速排序更好的方法呢？

我们换一种角度思考本问题：

假设有一个仅由字母组成字串，让每个字母与一个素数对应，从2开始，往后类推，A对应2，B对应3，C对应5，......。遍历第一个字串，把每个字母对应素数相乘。最终会得到一个整数。

利用上面字母和素数的对应关系，对应第二个字符串中的字母，然后轮询，用每个字母对应的素数除前面得到的整数。如果结果有余数，说明结果为false。如果整个过程中没有余数，则说明第二个字符串是第一个的子集了（判断是不是真子集，可以比较两个字符串对应的素数乘积，若相等则不是真子集）。

思路总结如下：

按照从小到大的顺序，用26个素数分别与字符'A'到'Z'一一对应。
遍历长字符串，求得每个字符对应素数的乘积。
遍历短字符串，判断乘积能否被短字符串中的字符对应的素数整除。
输出结果。

如前所述，算法的时间复杂度为O(m+n)的最好的情况为O(n)（遍历短的字符串的第一个数，与长字符串素数的乘积相除，即出现余数，便可退出程序，返回false），n为长字串的长度，空间复杂度为O(1)。

# 此方法只有理论意义，因为整数乘积很大，有溢出风险
def StringContian(strA, strB):
    p = [2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31, 37, 41, 43, 47, 53, 59, 61, 67, 71, 73, 79, 83, 89, 97, 101] # 将26个字母对应26个素数
    f = 1
    for i in strA:                  # 循环字符串A
        x = p[ord(i) - ord('A')]    # 求出第i个字符对应的素数
        if (f % x):                 # 如果字符串未重复，则给f乘以对应的素数
            f *= x
    for j in strB:                  # 循环字符串B
        y = p[ord(j) - ord('A')]    # 如果第j个字符在字符串A中出现，则余数为0，否则余数不为0，返回False
        if (f % y):
            return False
    return True

strA = input().strip()          # 获取输入字符串A
strB = input().strip()          # 获取输入字符串B
print(StringContian(strA,strB)) # 打印结果

此种素数相乘的方法看似完美，但缺点是素数相乘的结果容易导致整数溢出。

解法四

如果面试官继续追问，还有没有更好的办法呢？计数排序？除了计数排序呢？

事实上，可以先把长字符串a中的所有字符都放入一个Hashtable里（python可理解为字典或者列表），然后轮询短字符串b，看短字符串b的每个字符是否都在Hashtable里，如果都存在，说明长字符串a包含短字符串b，否则，说明不包含。

def StringContian(strA, strB):
    for i in strB:          # 循环遍历字符串B中每个字符
        if i not in strA:   # 如果第i个字符没有在A中出现，则返回False
            return False
    return True

strA = input().strip()          # 获取输入字符串A
strB = input().strip()          # 获取输入字符串B
print(StringContian(strA,strB)) # 打印结果

这个方法的实质是用字符串本身代替了hashtable，空间复杂度为O(1)，时间复杂度还是O(n)。

举一反三

一个字段中存储了若干个单词
查找指定单词在字典中的兄弟单词个数
将找到的兄弟按字典顺序排序，打印出指定的某个序号的单词（从1开始）
输入描述：先输入单词个数n，再输入n个单词作为字典，然后再输入一个单词，查找其在字典中的兄弟单词个数，再输入要打印的兄弟单词中的第m个

输入：3 abc bca cab abc 1

输出：2 bca

while True:
    try:
        s = input().strip().split()
        dict_num = int(s[0])
        bro_search_num = int(s[-1])
        dict_list = []
        for i in range(1,dict_num+1):
            dict_list.append(s[i])
        key = s[dict_num + 1]
        result = []
        for j in dict_list:
            if len(j) != len(key) or j == key:
                continue
            letter = list(j)
            for m in key:
                if m in letter:
                    letter.remove(m)
            if len(letter) == 0:
                result.append(j)
        result.sort()
        print(len(result))
        if bro_search_num <= len(result):
            print(result[bro_search_num - 1])
    except:
        break