python 网络爬虫与信息提取 学习笔记day4

正则表达式简介:

简洁表示一组字符串的特征或者模式,在文本处理中十分常用,主要应用于字符串匹配中

1.  通用的字符串表达框架

2.  简洁表达一组字符串的表达式

3.  针对字符串表达简洁和特征思想的工具

4.  判断某字符串的特征归属

正则表达式的语法:

由字符和操作符构成·了解正则表达式的常用操作符

 

匹配IP地址的正则表达式:

  1. IP地址字符串形式的正则表达式:IP地址分为4段,每段0-255

答案:    

精确写法

0‐99:[1‐9]?d 

100‐199: 1d{2}

200‐249: 2[0‐4]d

250‐255: 25[0‐5]

(([1‐9]?d|1d{2}|2[0‐4]d|25[0‐5]).){3}([1‐9]?d|1d{2}|2[0‐4]d|25[0‐5])

Re库的介绍使用

  1. 使用raw string类型(原生字符串类型),string类型表示正则表达式。
  2. 了解Re库的主要功能

 

Match对象的属性:

Re库的贪婪匹配和最小匹配

       Re库默认采用贪婪匹配的方式,即输出匹配最长的子串

       采用?,即输出最小匹配

原文地址:https://www.cnblogs.com/yezhaodan/p/7486450.html