『Python』列表生成式、生成器与迭代器

1. 迭代

在 Python中，迭代是通过 for ... in 来完成的，而很多语言比如 C 语言，迭代 list 是通过下标完成的。 Python 的 for 循环抽象程度要高于 C 的 for 循环，因为 Python 的 for循环不仅可以用在 list 或 tuple上，还可以作用在其他可迭代对象(Iterable的实例)上。

d = {1: 'a', 2: 'b', 3: 'c', 4: 'd', 5: 'e', 6: 'f'}
for x in d:
print(x)  # 1 2 3 4 5 6
	
for y in d.values():
    print(y)  # a b c d e f
	
for k, v in d.items():
    print(f"{k}={v}")  # 1=a 2=b 3=c 4=d 5=e 6=f

在 Python中，迭代是通只要是可迭代的对象，都可以用于迭代，如何判断一个对象是不是可迭代对象可以用内置函数isinstance()判断：

isinstance(obj, Iterable)

2. 列表生成式

举个简单例子，要生成[1,2,3,4,5,6,7,8,9]很简单， list(range(1,10))就行了，但要是想生产[1,4,9,16,25,36,49,64,81]就不太容易，这时就需要列表生成式了

[x * x for x in range(1,10)]  # [1, 4, 9, 16, 25, 36, 49, 64, 81]

再进一步，还可以用if语句进行过滤：

[x * x for x in range(1,10) if x % 2 == 0]  # [4, 16, 36, 64]

<font size=4还可以使用两层循环，可以生成全排列：

[m + n for m in "ABC" for n in "123"]  # ['A1', 'A2', 'A3', 'B1', 'B2', 'B3', 'C1', 'C2', 'C3']

同样地，这里也可以过滤条件：

[m + n for m in "ABC" for n in "123" if m == "B" and n != "2"]  # ['B1', 'B3']
[m + n for m in "ABC" if m == "B"  for n in "123" if n != "2"]  # ['B1', 'B3']

3. 生成器

通过列表生成式，我们可以直接创建一个列表。但是，受到内存限制，列表容量肯定是有限的。而且，创建一个包含 100 万个元素的列表，不仅占用很大的存储空间，如果我们仅仅需要访问前面几个元素，那后面绝大多数元素占用的空间都白白浪费了。
所以，如果列表元素可以按照某种算法推算出来，那我们是否可以在循环的过程中不断推算出后续的元素呢？这样就不必创建完整的list，从而节省大量的空间。在Python中，这种一边循环一边计算的机制，称为生成器：generator。
第一种方法很简单，只要把一个列表生成式的[ ]改成( )，就创建了一个generator：

(x for x in range(10))  # <generator object <genexpr> at 0x0000021B2B266308>

我们可以直接打印出list的每一个元素，但我们怎么打印出generator的每一个元素呢？如果要一个一个打印出来，可以通过next()函数获得generator的下一个返回值：

g = (x * x for x in range(5))
print(next(g))  # 0
print(next(g))  # 1
print(next(g))  # 4
print(next(g))  # 9
print(next(g))  # 16
print(next(g))  # StopIteration

我们讲过，generator保存的是算法，每次调用next(g)，就计算出g的下一个元素的值，直到计算到最后一个元素，没有更多的元素时，抛出StopIteration的错误。
当然，上面这种不断调用next(g)实在是太变态了，正确的方法是使用for循环，因为generator也是可迭代对象：

g = (x * x for x in range(5))
for n in g:
    print(n)  # 0 1 2 4 9 16

所以，我们创建了一个generator后，基本上永远不会调用next()，而是通过for循环来迭代它，并且不需要关心StopIteration的错误。
第二种方法类似于函数，只要在函数中出现yield关键字，那么此时该函数就不是一个普通函数，而是一个generator

# ============================
#       求斐波那契数列
# ============================
def fib(max):
    n, a, b = 0, 0, 1
    while n < max:
        yield b
        a, b = b, a + b
        n += 1
    return "done"

f = fib(6)
print(f)  # <generator object fib at 0x0000025036F46678>

这里，最难理解的就是generator和函数的执行流程不一样。函数是顺序执行，遇到return语句或者最后一行函数语句就返回。而变成generator的函数，在每次调用next()的时候执行，遇到yield语句返回，再次执行时从上次返回的yield语句处继续执行。
举个简单的例子，定义一个generator，依次返回数字1，3，5：

def odd():
    print('step 1')
    yield 1
    print('step 2')
    yield 3
    print('step 3')
    yield 5

调用该generator时，首先要生成一个generator对象，然后用next()函数不断获得下一个返回值：

o = odd()
print(next(o))  # step1  1
print(next(o))  # step2  3
print(next(o))  # step3  5
print(next(o))  # StopIteration

可以看到，odd不是普通函数，而是generator，在执行过程中，遇到yield就中断，下次又继续执行。执行3次yield后，已经没有yield可以执行了，所以，第4次调用next(o)就会报错。
回到fib的例子，我们在循环过程中不断调用yield，就会不断中断。当然要给循环设置一个条件来退出循环，不然就会产生一个无限数列出来。
同样的，把函数改成generator后，我们基本上从来不会用next()来获取下一个返回值，而是直接使用for循环来迭代：

for n in fib(6):
    print(n, end=' ')
    # 1 1 2 3 5 8

但是用for循环调用generator时，发现拿不到generator的return语句的返回值。如果想要拿到返回值，必须捕获StopIteration错误，返回值包含在StopIteration的value中：

g = fib(6)
while True:
    try:
        x = next(g)
        print('g:', x)
    except StopIteration as e:
        print('Generator return value:', e.value)  # Generator return value: done
        break
# ================================================
#	 g: 1
#	 g: 1
# 	 g: 2
#	 g: 3
# 	 g: 5
# 	 g: 8
# 	 Generator
# 	 return value: done
# ================================================

生成器还有一个send()函数：generator.send(obj)，其功能是给yield表达式赋值，而且next(g)就等价于g.send(None)

def fun():
    print('start...')
    m = yield 5  # m的值就是yield表达式
    print(m)
    print('middle...')
    d = yield 12
    print(d)
    print('end...')


m = fun()  # 没有输出，因为fun现在是生成器了
out = next(m)  # start...
print(out)  # 5
out = m.send('message')  # message middle...
print(out)  # 12
out = next(m)  # None end... StopIteration

可以发现，每次迭代都是到yield表达式为止，此时yield就相当于一个阶段性的“return”，每次迭代的返回值就是yield后的值。但是，如果出现类似m = yield n这种语句，下次迭代开始是从这句后面开始的，m是不会接着上次的yield n得到值的，如果后面要用到m的值，就需要用send()函数了，send()函数和next()一样，也可以唤起一次迭代，但是send()可以给m传值，如在第二次迭代时，m.send('message')，这样m的值就有了，为message
第一次迭代必须是next(g)或者g.send(None)！

4. 迭代器

我们已经知道，可以直接作用于for循环的数据类型有以下几种：
★ 一类是集合数据类型，如list、tuple、dict、set、str等；
★ 一类是generator，包括生成器和带yield的generator function。

这些可以直接作用于for循环的对象统称为可迭代对象：Iterable,可以使用isinstance()判断一个对象是否是Iterable对象。而生成器不但可以作用于for循环，还可以被next()函数不断调用并返回下一个值，直到最后抛出StopIteration错误表示无法继续返回下一个值了。
同样地，可以被next()函数调用并不断返回下一个值的对象称为迭代器：Iterator，可以使用isinstance()判断一个对象是否是Iterator对象。
生成器都是Iterator对象，但list、dict、str虽然是Iterable，却不是Iterator。
把list、dict、str等Iterable变成Iterator可以使用iter()函数：

from collections.abc import Iterator

isinstance(iter([]), Iterator)				# True
sinstance(iter('abc'), Iterator)			# True

你可能会问，为什么list、dict、str等数据类型不是Iterator？
这是因为Python的Iterator对象表示的是一个数据流，Iterator对象可以被next()函数调用并不断返回下一个数据，直到没有数据时抛出StopIteration错误。可以把这个数据流看做是一个有序序列，但我们却不能提前知道序列的长度，只能不断通过next()函数实现按需计算下一个数据，所以Iterator的计算是惰性的，只有在需要返回下一个数据时它才会计算。
Iterator甚至可以表示一个无限大的数据流，例如全体自然数。而使用list是永远不可能存储全体自然数的。