python基础之迭代器与生成器

　　一、什么是迭代器：

　　迭代是Python最强大的功能之一，是访问集合元素的一种方式。

　　迭代器对象从集合的第一个元素开始访问，直到所有的元素被访问完结束。

　　迭代器是一个可以记住遍历的位置的对象。

　　迭代器的特点：只能往前不会后退。

　　迭代器有两个基本的方法：iter() 和 next()。

　　　　1、iter方法：返回迭代器对象本身

　　　　2、next方法：返回迭代器的下一个元素

　　可迭代的：只要对象本身有__iter__方法，那它就是可迭代的。

　　字符串，列表或元组对象都可用于创建迭代器：

list = [1,2,3,4] #list列表
r = iter(list)用iter方法将list转成迭代器赋值给r
print(next(r)) #用next方法使用迭代器r，并输出结果
print(next(r)) #因为迭代器是一次性的，so，要想看下面的内容，
                       # 还得用next方法使用迭代器r，并输出结果   
----------------以下是输出结果--------------------
    1
    2

　　二、迭代器的优点：

　　　　1、迭代器提供了一种不依赖于索引的取值方式，这样就可以遍历那些没有索引的可迭代对象了（字典，集合，文件）；

　　　　2、迭代器与列表比较，迭代器是惰性计算的，更节省内存。

　　三、迭代器的缺点：

　　　　1、无法获取迭代器的长度，使用不如列表索引取值灵活；

　　　　2、一次性的，只能往后取值，不能倒着取值。就像象棋里卒一样不能倒着走。

　　下面来用代码展示一下吧：

　　使用next需要注意的：

d = {"a":1,"b":2,"c":3} #定义了一个字典
r = iter(d) #用iter方法将字典转成了一个迭代器并赋值给r
while True: #定义了一个循环
        print(next(r)) #用next调用迭代器r
-------------------以下是输出的结果-------------------
    a   #一直循环next的话，超出了元素的个数的时候就会报错
    b
    c
    Traceback (most recent call last) #报错的内容

　　下面介绍一个方法，使不会报错：

d = {"a":1,"b":2,"c":3}
r = iter(d)
while True: #加上try之后，它会自己判断，超出后会自动break
    try:
        print(next(r))
    except StopIteration:
        break
-------------以下是输出结果---------------
    a
    b
    c

　　我们用for循环来试试：

d = {"a":1,"b":2,"c":3}
for i in d : #for循环，遍历字典的中的每一个元素
    print(i) 
--------------以下是输出的结果--------------
    a
    b
    c

　　总结：不难看出for的作用是遍历迭代器——对一个迭代器（实现了 __next__）或者可迭代对象（实现了 __iter__）。

　　查看可迭代对象与迭代器对象：

from collections import Iterable,Iterator #调用模块
#以下是定义的不同数据类型
s='hello' #字符串
l=[1,2,3] #列表
t=(1,2,3) #元组
d={'a':1，'b':2} #字典
set1={1,2,3,4} #集合
f=open('a.txt') #文件

#都是可迭代的（只有可迭代的才有iter方法）
s.__iter__()
l.__iter__()
t.__iter__()
d.__iter__()
set1.__iter__()
f.__iter__()

#查看是否是可迭代对象(True为是，False为否)
print(isinstance(s,Iterable))--------->True  #字符串
print(isinstance(l,Iterable))--------->True  #列表
print(isinstance(t,Iterable))--------->True  #元组
print(isinstance(d,Iterable))--------->True  #字典
print(isinstance(set1,Iterable))--------->True  #集合
print(isinstance(f,Iterable))--------->True  #文件

#查看是否是迭代器(Turn为是，False为否)
print(isinstance(s,Iterator))--------->False  #字符串
print(isinstance(l,Iterator))--------->False  #列表
print(isinstance(t,Iterator))--------->False  #元组
print(isinstance(d,Iterator))--------->False  #字典
print(isinstance(set1,Iterator))--------->False  #集合
print(isinstance(f,Iterator))--------->True  #文件

　　四、生成器

　　定义：

　　　　函数内带有yield关键字，那么这个函数执行的结果就是生成器（generator）。

　　　　跟普通函数不同的是，生成器是一个返回迭代器的函数，只能用于迭代操作，更简单点理解生成器就是一个迭代器。

　　　　在调用生成器运行的过程中，每次遇到 yield 时函数会暂停并保存当前所有的运行信息，返回yield的值。并在下一次执行 next()方法时从当前位置继续运行。

　　下面用实例使用 yield 实现斐波那契数列：

def fibonacci(n): # 生成器函数 - 斐波那契
    a, b, counter = 0, 1, 0
    while True:
        if (counter > n):
            return
        yield a
        a, b = b, a + b
        counter += 1
f = fibonacci(10) # f 是一个迭代器，由生成器返回生成

while True:
    try:
        print (next(f), end=" ")
    except StopIteration:
        break
-----------以下是输出的结果-------------
0 1 1 2 3 5 8 13 21 34 55

　　总结yield的功能：

　　　　1.相当于把__iter__和__next__方法封装到函数内部

　　　　2.与return比，return只能返回一次，而yield能返回多次

　　　　3.函数暂停已经继续运行的状态是通过yield保存的

　　生成器与return有何区别？

　　return只能返回一次函数就彻底结束了，而yield能返回多次值。

　　return作用：

　　在一个生成器中，如果没有return，则默认执行到函数完毕；

　　如果遇到return,在执行过程中 return，则直接抛出 StopIteration 终止迭代。

　　yield的表达式形式：

　　food = yield

#定义阶段
def eater(name):
    print('%s start to eat' % name)
    while True:
        food = yield
        print('%s eat %s' % (name, food))
#调用阶段
e = eater('egon')
next(e)
print(e.send("盖饭"))
------------------以下是输出结果---------------------
    egon start to eat
    egon eat 盖饭

　　e.send与next(e)的区别:

　　　　1、如果函数内yield是表达式形式，那么必须先next(e)

　　　　2、二者的共同之处是都可以让函数在上次暂停的位置继续运行，不一样的地方在于send在触发下一次

代码的执行时，会顺便给yield传一个值。

　　实操一：

　　迭代器的应用：

　　　　实现的功能：linux命令：cat a.txt | grep apple

　　　　要求1：定义迭代器函数cat;

　　　　要求2：定义迭代器函数grep;

　　　　要求3：模拟管道的功能，将cat的输出结果作为grep的输入参数

def cat(file_path):
    '''输出a.txt里的内容'''
    with open(file_path,mode="r",encoding="utf8") as f:#打开文件a.txt
        line = f.read()#读取文件内容
        yield line #返回值line
def grep(cho,lines):
    '''将a.txt里的内容作为参数传进来进行匹配'''
    for ab in lines: #循环a.txt
        if cho in ab: #判断输入的元素是否在a.txt里
            yield cho #在就返回值给g2
        else: #没在a.txt里面的情况
            print("33[31;1m不存在33[0m")
g1 = cat("a.txt") #输入参数调用函数cat，并赋值给g1
g2=grep("apple",g1) #将g1作为参数调用函数grep，并赋值给g2
for i in g2: #相当于迭代器的next方法(next(g2))
    print("33[42;1m%s33[0m"%i) #打印输出结果

　　实操二

　　生成器的应用：

　　把下述函数改成生成器的形式，执行生成器函数到一个生成器g，然后，每次g.send(url)，打印页面的内容，利用g可以无限send(url)。

def get(url): 
    def index():
        return urlopen(url).read()
    return index

　　只用一层函数的方法：

def get(): 
    print("开始爬虫了！")
    while True:
        url = yield #每次执行到这，都会在这等着用户的下次输入
        print(urlopen(url).read())
        print("33[31;1m完成了一次爬虫33[0m")
g = get() #调用get函数并赋值给g
next(g) #用next方法调用生成器get
print(g.send("http://www.baidu.com")) #send一个网址
print(g.send("http://www.sina.com"))#可以无限的send(url)
-----------------------以下是输出的结果----------------------------
    开始爬虫了！
    b'<!DOCTYPE html>
<!--STATUS OK-->





              <<<<< 中间内容省略>>>>>
    d dmp -->

<!-- body code end -->
</body>
</html>'
    完成了一次爬虫

　　用闭包函数的方法：

#定义函数阶段
def get():
    def index():
        print("开始爬虫了!")
        while True:
            url = yield #每次在这等着用户的输入
            print(urlopen(url).read()) #打印爬虫的结果
            print("33[31;1m完成了一次爬虫33[0m") #爬虫完毕打印
    return index #返回 index的内存地址
#调用函数阶段
g = get() #调用函数get，并将返回值赋值给g
g2 = g() #将get的返回值g调用即index函数，并赋值给g2
next(g2) #用next方法调用g2，此时会停在yield那
print(g2.send("http://www.baidu.com")) #给url传参数
print(g2.send("http://www.sina.com")) #可以无限的send(url)
---------------------------以下是输出的结果--------------------------
　　开始爬虫了!
　　b'<!DOCTYPE html>
<!--STATUS OK-->






            <<<<<中间的内容省略>>>>>
　　</script>



</body>
</html>





'
　　完成了一次爬虫