【Python】第二章组合数据类型学习笔记

Python组合数据类型

概述

Python中常用的组合数据类型有列表、元组、字符串、字典、集合以及range等对象也支持很多类似的操作
其操作相当于其他语言的数组，但功能更加强大。
列表、元组、字符串支持双向索引。

推荐网址：可视化网站传送门

1-列表

有序可变，放在一对中括号中，并用逗号隔开。
自动扩展收缩，一个列表中的各种元素类型可以不同，甚至可以是其他组合数据类型以及自定义类型。

列表的创建与删除

直接等号赋值
用list()将元组、字符串、range对象等可迭代对象转化为列表
del删除

列表元素增加

+，本质是创建新列表然后复制，效率差，详见上述可视化网站。
append()，尾部追加，原地修改

列表元素删除

list.remove(),根据参数值删除，但是在需要删除整个列表多个元素时，删除一个后列表压缩会导致出错。
del list[i],i为索引。

切片

两个冒号分隔三个数字，第一个数字表示切片开始位置（默认为0），第二个数字表示切片结束位置（但不包括，默认为列表长度），第三个数字表示切片步长（默认为1，默认时可省略第二个冒号）
返回的是浅复制，即原列表不变。

列表排序

关于lambda表达式
lambda表达式可以声明匿名函数。也可以取名。用法如下：

>>> f=lambda x,y,z:x+y+z
>>> f(1,2,3)
6

list.sort(key,reverse)，原地排序。key值决定利用lambda表达式来决定排序规则，reverse决定正序或逆序。True为逆序，默认为正。
内置函数sorted()，返回新列表，原列表不变
list.reverse()，原地逆序。
内置函数reversed()，逆序排列，返回迭代对象。关于迭代对象以后会讲。

其他常用内置函数

len()，返回列表元素个数
max(),min()，返回最大最小元素。
sum()，求和，对非数值型列表要指定start参数。用法如下

>>> sum(range(1,11)) #1到10求和
55
>>> sum(range(1,11),5) #start=5,相当于5+sum(range(1,11))
60

列表推导式

直接上例题。

国王赏米，1粒开始，64格依次翻倍。

>>> sum([2**i for i in range(64)])
18446744073709551615

筛选自然数

>>> lst=[-1,-4,6,7.5,-2.3,9,-11]
>>> [i for i in lst if i>0]
[6, 7.5, 9]

有成绩字典，算最高最低平均分，查找所有最高分同学

>>> average=sum(scores.values())/len(scores)
>>> scores={"Zhang San":45,"Li Si":78,"Wang Wu":40,
	"Zhao Liu":96,"Zhao Qi":97,"Sun Ba":90,
	"Zheng Jiu":78,"Wu Shi":99,"Dong Shiyi":60}
>>> higest=max(scores.values())
>>> lowest=min(scores.values())
>>> average=sum(scores.values())/len(scores)
>>> higest,lowest,average
(99, 40, 75.88888888888889)
>>> higestPerson=[name for name,score in scores.items() if score==higest]
>>> higestPerson
['Wu Shi']

也可使用多个循环，或者使用函数或复杂表达式
生成100以内素数

>>> [p for p in range(2,100) if 0 not in [p%d for d in range(2,int(p**0.5)+1)]]
[2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31, 37, 41, 43, 47, 53, 59, 61, 67, 71, 73, 79, 83, 89, 97]

2-元组

和列表类似，但属于不可变序列。一旦创建不能修改其元素。
定义方式和列表相同，放在一对圆括号当中。

元组的创建和删除

等号赋值（包含一个元素的元组创建最后要加一个逗号）。
使用tuple函数可以把其他序列转化为元组。
可以索引和切片
del删除整个元组，不能删元素。

元组和列表的区别

不允许更改，无法添加、删除元素，可以看作list()融化元组，tuple()冻结列表。
速度比列表快，写保护更加安全，可用作字典的键，也可以作为集合的元素

序列解包

对多个变量同时赋值。用法如下。

x,y,z=1,2,3#多个变量同时赋值
v_tuple = (False, 3.5, 'exp')
(x,y,z)=v_tuple
x,y,z =v_tuple
x,y,z = range(3)#可以对range对象进行序列解包
x,y,z = map(str, range(3)) #使用可迭代的map对象进行序列解包
a,b=b,a#交换两个变量的值
x, y, z = sorted([1, 3, 2])#sorted()函数返回排序后的列表
a, b, c ='ABC'#字符串也支持序列解包
x=[1,2,3,4,5,6]
x[:3] = map(str, range(5))#切片也支持序列解包

对于列表和字典也有效

>>>s = {'a':1, 'b':2, 'C':3}
>>>b, c, d = s.items()
>>>b
('c',3)
>>>b, c,d=s #字典不考虑顺序
>>>b
'c'
>>>b, c, d = s.values()
>>>print(b, c, d)
1 3 2

序列解包遍历多个序列

>>>keys = ['a', 'b', 'C', 'd']
>>>values = [1, 2, 3, 4]
>>>for k, v in zip(keys, values):
	print((k，v), end=' ')
('a',1) ('b',2) ('c',3) ('d',4)

使用序列解包遍历enumerate对象

>>>x = ['a', 'b','c']
>>>for i, v in enumerate(x):
	print('The value on position {0} is {1}' .format(i,v))
The value on position 0 is a
The value on position 1 is b
The value on position 2 is C
>>>aList = [1,2,3]
>>>bList = [4,5,6]
>>>cList = [7,8,9]
>>>dList = zip(aList, bList, cList)
>>>for index, value in enumerate( dList):
	print(index, ':' , value)
0 : (1,4,7)
1 : (2,5,8)
2 : (3,6,9)

python 3.5支持下列方法解包

>>>print(*[1,2,3],4,*(5,6))
1 2 3 4 5 6
>>>*range(4),4
(0,1,2,3,4)
>>>{*range(4),4,*(5,6,7)}
{0,1,2,3,4,5,6,7}
>>>{'x':1,**{'y':2}}
{'y':2,'x':1}

内置函数zip

把多个可迭代的对象中的元素压缩到一起，返回一个可迭代的zip对象。

生成器推导式

惰性求值，可用生成器对象的__next__()方法或内置函数next()进行遍历，也可以转化为列表或元组，或者直接将其作为迭代器对象。

g=((i+2)**2 for i in range(10))

3-字典

无序可变，键和值用冒号分隔，元素之间用逗号分割，所有元素放在一对大括号中。字典中的键可以为任意不可变数据。
global()返回包含当前作用域内所有全局变量和值的字典
locals()返回包含当前作用域内所有局部变量和值的字典

字典的创建与删除

使用 = 将一个字典赋值给一个变量

>>> a_dict = {'server': 'db.diveintopython3.org', 'database': 'mysql'}
>>> a_dict
{'database': 'mysql', 'server': 'db.diveintopython3.org'}
>>> x = {} #空字典
>>> x
{}

使用dict利用已有数据创建字典

>>> keys = ['a', 'b', 'c', 'd']
>>> values = [1, 2, 3, 4]
>>> dictionary = dict(zip(keys, values))
>>> dictionary
{'a': 1, 'c': 3, 'b': 2, 'd': 4}
>>> x = dict() #空字典
>>> x
{}

使用dict根据给定的键、值创建字典

>>> d = dict(name='Bob', age=23)
>>> d
{'age': 23, 'name': 'Bob'}

以给定内容为键，创建值为空的字典

>>> adict = dict.fromkeys(['name', 'age', 'sex'])
>>> adict
{'age': None, 'name': None, 'sex': None}

可以使用del删除整个字典

字典元素的读取

以键作为下标可以读取字典元素，若键不存在则抛出异常

>>> aDict = {'name':'Bob','age':23}
>>> aDict['name']
'Bob'
>>> aDict['tel'] #键不存在，抛出异常
Traceback (most recent call last):
File "<pyshell#53>", line 1, in <module>
aDict['tel']
KeyError: 'tel'

使用字典对象的get方法获取指定键对应的值，并且可以在键不存在的时候返回指定值。

>>> print(aDict.get('tel'))
None
>>> print(aDict.get('tel', '12345678')) #返回指定值，没有增加字典元素
'12345678‘
>>> aDict['tel'] = aDict.get('tel', '12345678') #增加一个键值对
>>> aDict['score'] = aDict.get('score',[])
>>> aDict['score'].append(98)
>>> aDict['score'].append(97)
>>> aDict
{'age': 23, 'score': [98, 97], 'name': 'Bob', 'tel': ‘12345678'}

使用字典对象的items()方法可以返回字典的键、值对
使用字典对象的keys()方法可以返回字典的键
使用字典对象的values()方法可以返回字典的值

>>> aDict={'name':'Bob', 'sex':'male', 'age':23}
>>> for item in aDict.items(): #输出字典中所有元素
		print(item)
('age', 23)
('name', 'Bob')
('sex', 'male')
>>> for key in aDict: #不加特殊说明，默认输出键
		print(key)
age
name
sex
>>> for key, value in aDict.items(): #序列解包用法
		print(key, value)
age 23
name Bob
sex male
>>> aDict.keys() #返回所有键
dict_keys(['name', 'sex', 'age'])
>>> aDict.values() #返回所有值
dict_values(['Bob', 'male', 23])

字典元素的添加与修改

当以指定键为下标为字典赋值时：1）若键存在，则可以修改该键的值；2）若不存在，则表示添加一个键、值对。

>>> aDict['age'] = 37 #修改元素值
>>> aDict
{'age': 37, 'name': 'Bob', 'sex': 'male'}
>>> aDict['address'] = 'Wenzhou' #增加新元素
>>> aDict
{'age': 37, 'address': 'Wenzhou', 'name': 'Bob', 'sex': 'male'}

使用字典对象的update()方法将另一个字典的键、值对添加到当前字典对象。

>>> aDict
{'age': 37, 'score': [98, 97], 'name': 'Bob', 'sex': 'male'}
>>> aDict.items()
dict_items([('age', 37), ('score', [98, 97]), ('name', 'Bob'), ('sex', 'male')])
>>> aDict.update({'a':'a','b':'b'})
>>> aDict
{'a': 'a', 'score': [98, 97], 'name': 'Bob', 'age': 37, 'b': 'b', 'sex': 'male'}

使用del删除字典中指定键的元素

>>> del aDict['tel']

使用字典对象的clear()方法来删除字典中所有元素

>>> aDict.clear()

使用字典对象的pop()方法删除并返回指定键的元素

>>> aDict.pop('name')

使用字典对象的popitem()方法删除并返回字典中的一个元素

>>> aDict.popitem()

字典应用案例

已知有一个包含一些同学成绩的字典，计算成绩的最高分、最低分、平均分，并查找所有最高分同学。

>>> scores = {"Zhang San": 45, "Li Si": 78, "Wang Wu": 40,
"Zhou Liu": 96,"Zhao Qi": 65, "Sun Ba": 90,
"Zheng Jiu": 78, "Wu Shi": 99,"Dong Shiyi": 60}
>>> highest = max(scores.values())
>>> lowest = min(scores.values())
>>> average = sum(scores.values())*1.0/len(scores)
>>> highest, lowest, average
99 40 72.33333333333333
# 对字典，如何从值找到键？
>>> highestPerson = [name for name, score in scores.items()
if score == highest]
>>> highestPerson
['Wu Shi']

首先生成包含1000个随机字符的字符串，然后统计每个字符的出现次数。

>>> import string
>>> import random
>>> x = string.ascii_letters + string.digits
+ string.punctuation
>>> y = [random.choice(x) for i in range(1000)]
>>> z = ''.join(y)
>>> d = dict() #使用字典保存每个字符出现次数
>>> for ch in z:
d[ch] = d.get(ch, 0) + 1 #这里如果使用 d[ch] = d[ch]+1 会怎样？

补充：jieba库的使用

函数	描述
jieba.cut(s)	精确模式，返回一个可迭代的数据类型
jieba.cut(s, cut_all=True)	全模式，输出文本s中所有可能单词
jieba.cut_for_search(s)	搜索引擎模式，适合搜索引擎建立索引的分词结果
jieba.lcut(s)	精确模式，返回一个列表类型，建议使用
jieba.lcut(s, cut_all=True)	全模式，返回一个列表类型，建议使用
jieba.lcut_for_search(s)	搜索引擎模式，返回一个列表类型，建议使用
jieba.add_word(w)	向分词词典中增加新词w

>>>import jieba
>>>jieba.lcut("中华人民共和国是一个伟大的国家")
['中华人民共和国', '是', '一个', '伟大', '的', '国家']
>>>jieba.lcut("中华人民共和国是一个伟大的国家", cut_all=True)
['中华', '中华人民', '中华人民共和国', '华人', '人民', '人民共和国', '共和', '共和国', '国是', '一个', '伟大', '的', '国家']
>>>jieba.lcut_for_search("中华人民共和国是一个伟大的国家")
['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '一个', '伟大', '的', '国家']

collections模块的Counter类介绍

使用collections模块的Counter类可以快速实现这个功能，并且提供更多功能，例如查找出现次数最多的元素。
Counter返回counter对象，类似字典，不同于字典，可以用dict()函数转换为字典

>>> from collections import Counter
>>> frequences = Counter(z)
>>> frequences.items()
>>> frequences.most_common(1) #出现次数最多的一个字符
[('A', 22)]
>>> frequences.most_common(3)
[('A', 22), (';', 18), ('`', 17)]

内置函数filter()

内置函数filter()将一个单参数函数作用到一个序列上，返回该序列中使得该函数返回值为True的那些元素组成的filter对象，如果指定函数为None，则返回序列中等价于True的元素。

>>> seq = ['foo', 'x41', '?!', '***']
>>> def func(x):
return x.isalnum() #测试是否为字母或数字
>>> filter(func, seq) #返回filter对象
<filter object at 0x000000000305D898>
>>> list(filter(func, seq)) #把filter对象转换为列表
['foo', 'x41']

字典推导式

>>> s = {x:x.strip() for x in (' he ', 'she ', ' I')}
>>> s
{' he ': 'he', ' I': 'I', 'she ': 'she'}
>>> for k, v in s.items():
print(k, ':', v)
he : he
I : I
she : she

>>> {i:str(i) for i in range(1, 5)}
{1: '1', 2: '2', 3: '3', 4: '4'}
>>> x = ['A', 'B', 'C', 'D']
>>> y = ['a', 'b', 'b', 'd']
>>> {i:j for i,j in zip(x,y)}
{'A': 'a', 'C': 'b', 'B': 'b', 'D': 'd'}