re

依赖re模块

匹配单个字符

.

import re
ret = re.match(".","M")
print(ret.group())

ret = re.match("t.o","too")
print(ret.group())

ret = re.match("t.o","two")
print(ret.group())
>>>
M
too
two

[ ]
import re

# 如果hello的首字符小写，那么正则表达式需要小写的h
ret = re.match("h","hello Python") 
print(ret.group())


# 如果hello的首字符大写，那么正则表达式需要大写的H
ret = re.match("H","Hello Python") 
print(ret.group())

# 大小写h都可以的情况
ret = re.match("[hH]","hello Python")
print(ret.group())
ret = re.match("[hH]","Hello Python")
print(ret.group())
ret = re.match("[hH]ello Python","Hello Python")
print(ret.group())

# 匹配0到9第一种写法
ret = re.match("[0123456789]Hello Python","7Hello Python")
print(ret.group())

# 匹配0到9第二种写法
ret = re.match("[0-9]Hello Python","7Hello Python")
print(ret.group())

#跳过了4

ret = re.match("[0-35-9]Hello Python","7Hello Python")
print(ret.group())

# 下面这个正则不能够匹配到数字4，因此ret为None
ret = re.match("[0-35-9]Hello Python","4Hello Python")
# print(ret.group())


import re

# 普通的匹配方式
ret = re.match("嫦娥1号","嫦娥1号发射成功") 
print(ret.group())


# 使用\d进行匹配
ret = re.match("嫦娥\d号","嫦娥1号发射成功") 
print(ret.group())


import re

match_obj = re.match("\D", "f")
if match_obj:
    # 获取匹配结果
    print(match_obj.group())
else:
    print("匹配失败")

import re

# 空格属于空白字符
match_obj = re.match("hello\sworld", "hello world")
if match_obj:
    result = match_obj.group()
    print(result)
else:
    print("匹配失败")



# \t 属于空白字符
match_obj = re.match("hello\sworld", "hello\tworld")
if match_obj:
    result = match_obj.group()
    print(result)
else:
    print("匹配失败")

import re

match_obj = re.match("hello\Sworld", "hello&world")
if match_obj:
result = match_obj.group()
print(result)
else:
print("匹配失败")



match_obj = re.match("hello\Sworld", "hello$world")
if match_obj:
result = match_obj.group()
print(result)
else:
print("匹配失败")

import re

# 匹配非特殊字符中的一位
match_obj = re.match("\w", "A")
if match_obj:
    # 获取匹配结果
    print(match_obj.group())
else:
    print("匹配失败")

# 匹配特殊字符中的一位
match_obj = re.match("\W", "&")
if match_obj:
    # 获取匹配结果
    print(match_obj.group())
else:
    print("匹配失败")

import re

#  | 	匹配左右任意一个表达式

# 定义列表
my_list = ["苹果", "芒果", "菠萝", "草莓", "香蕉"]

 # 芒果 草莓
for name in my_list:

 # 正则
 match_obj = re.match("芒果|草莓", name)
#判断
if match_obj:
    print("%s是我想要的水果" % match_obj.group())
else:
    print("%s不是我想要的水果" % name)


# (ab) 	将括号中字符作为一个分组
# 邮箱
# 163 126 qq sina
# 因为在正则中.有特殊的函数 代表的是任意字符
# 需求: 只是单纯的代表一个点
#　解决方案" \ (转义字符) .
match_obj = re.match("[a-zA-Z0-9_]{5,20}@(163|126|qq|sina)\.com", "hello@163.com")
print(match_obj.group()）


match_obj = re.match("(\w+)(@)(163|126|qq|sina)\.com", "hello@163.com")


print(match_obj.group())         hello@163.com
print(match_obj.group(0))        hello@163.com
print(match_obj.group(1))         hello
print(match_obj.group(2))         @
print(match_obj.group(3))         163

 \num 	引用分组num匹配到的字符串

# 字符串
desc = "<html>hh</html>"

match_obj = re.match("<(\w*)>.*</\\1>", desc)
print(match_obj.group())


</\\1> /表示/html的/
第二个\表示转义字符
第三个\和1配合使用，道标第一组的正则

match_obj = re.match("<(?P<name1>\w*)><(?P<name2>\w*)>.*</(?P=name2)></(?P=name1)>", desc)
if match_obj:
    print(match_obj.group())
else:
     print("匹配失败")

desc = "水果有201个 其中苹果10个"
match_obj = re.search("\d+", desc)
print(match_obj.group())

desc ="水果有20个 其中苹果10个"
match_obj = re.findall('\d+',desc)
print(match_obj)

>>    ['20','10']

desc = "评论数:10 赞数:20"
# result = re.sub("\d+", "666", desc)
# print(result)


# 02: 需求： 10 20 -> (num + 10) * 2
desc = "评论数:10 赞数:20"

def deal_data(match_obj):
     result = int(match_obj.group())
     return str((result + 10) * 2)

result = re.sub("\d+", deal_data, desc)
print(result)

\d进行正则匹配，匹配到的是match_obj对象，
因为匹配到的是字符串，要进行int转换才能进行运算，
最终返回到原始的字符串中需要再次转化为str

desc = "貂蝉,杨玉环:西施-王昭君"
my_list = re.split(",|:|-", desc)
print(my_list)

['貂蝉', '杨玉环', '西施', '王昭君']


compile()与findall()一起使用，返回一个列表。
import re
def main():
    content = 'Hello, I am Jerry, from Chongqing, a montain city, nice to meet you……'
    regex = re.compile('\w*o\w*')
    x = regex.findall(content)
    print(x)


if __name__ == '__main__':
    main()
# ['Hello', 'from', 'Chongqing', 'montain', 'to', 'you']

compile()与match()一起使用，可返回一个class、str、tuple。但是一定需要注意match()，从位置0开始匹配，匹配不到会返回None，
返回None的时候就没有span/group属性了，并且与group使用，返回一个单词‘Hello’后匹配就会结束。


import re
def main():
    content = 'Hello, I am Jerry, from Chongqing, a montain city, nice to meet you……'
    regex = re.compile('\w*o\w*')
    y = regex.match(content)
    print(y)
    print(type(y))
    print(y.group())
    print(y.span())


if __name__ == '__main__':
    main()
# <_sre.SRE_Match object; span=(0, 5), match='Hello'>
# <class '_sre.SRE_Match'>
# Hello
# (0, 5)

#compile()与search()搭配使用, 返回的类型与match()差不多，
但是不同的是search(), 可以不从位置0开始匹配。但是匹配一个单词之后，匹配和match()一样，匹配就会结束。

import re
def main():
    content = 'Hello, I am Jerry, from Chongqing, a montain city, nice to meet you……'
    regex = re.compile('\w*o\w*')
    z = regex.search(content)
    print(z)
    print(type(z))
    print(z.group())
    print(z.span())


if __name__ == '__main__':
    main()
# <_sre.SRE_Match object; span=(0, 5), match='Hello'>
# <class '_sre.SRE_Match'>
# Hello
# (0, 5)

import re

s = "This is a number 234-235-22-423"

match_obj = re.match(".+(\d+-\d+-\d+-\d+)", s)
print(match_obj.group())
# python正则是贪婪 尽可能多的匹配
print(match_obj.group(1))

match_obj = re.match(".+?(\d+-\d+-\d+-\d+)", s)
print(match_obj.group())
print(match_obj.group(1))

# 02:
desc = """<img data-original="https://rpic.douyucdn.cn/appCovers/2016/11/13/1213973_201611131917_small.jpg" src="https://rpic.douyucdn.cn/appCovers/2016/11/13/1213973_201611131917_small.jpg" style="display: inline;">"""
match_obj = re.search("https?://.*?\.jpg", desc)
if match_obj:
    print(match_obj.group())

import re
m = re.match(r'(.*) are (.*?) dog','fat are cat dog 111')

print('整句话',m.group(0))
整句话 fat are cat dog

print(m.group(1))
fat

print(m.group(2))
cat

print(m.groups())
('fat', 'cat')

import re
m = re.match('www','www.baidu.com')

print('结果对象',m)
结果对象 <_sre.SRE_Match object; span=(0, 3), match='www'>

print('结果',m.group())
结果 www

print('起始与终点',m.span())
起始与终点 (0, 3)

print('匹配的起始位置',m.start())
匹配的起始位置 0

print('终点位置',m.end())
终点位置 3

问题

报错 nothing to repeat at position
r = 'asdadsasdasd*'
re.search(r,str)
报错

正则有问题， r应该为 '.asdasd.asdasd.*'


中文符号	规则	中文符号	规则
（	\uff08	）	\uff09
〈	\u3008	〉	\u3009
《	\u300a	》	\u300b
「	\u300c	」	\u300d
『	\u300e	』	\u300f
﹃	\ufe43	﹄	\ufe44
〔	\u3014	〕	\u3015
…	\u2026	—	\u2014
～	\uff5e	﹏	\ufe4f
￥	\uffe5	、	\u3001
【	\u3010	】	\u3011
，	\uff0c	。	\u3002
？	\uff1f	！	\uff01
：	\uff1a	；	\uff1b
“	\u201c	”	\u201d
‘	\u2018	’	\u2019

查找两个特殊字符之间的段落

pat = re.conpile('字符1'+'(.*?)'+'字符2',re.S)
res_list = pat.findall(data)  # 获取所有符合正则的段落信息

注意:
如果段落是这样的  
aaa
asdasdasd
aaa
dsfdsfdsfdf
aaa

字符1 和字符2 都用aaa的话,会抵消掉一个,可以在处理直线将aaa变为 aaa\naaa
aaa
gdsffsgfdg
aaa
aaa
gsfdsgs
aaa
aaa
asdasdasd