程序员的资源宝库

网站首页 > gitee 正文

python 网络爬虫与信息提取 学习笔记day4

sanyeah 2024-04-01 12:00:25 gitee 4 ℃ 0 评论

正则表达式简介:

简洁表示一组字符串的特征或者模式,在文本处理中十分常用,主要应用于字符串匹配中

 

1.  通用的字符串表达框架

2.  简洁表达一组字符串的表达式

3.  针对字符串表达简洁和特征思想的工具

4.  判断某字符串的特征归属

 

正则表达式的语法:

由字符和操作符构成·了解正则表达式的常用操作符

 

 

 

匹配IP地址的正则表达式:

  1. IP地址字符串形式的正则表达式:IP地址分为4段,每段0-255

答案:    

精确写法

0‐99:[1‐9]?\d 

100‐199: 1\d{2}

200‐249: 2[0‐4]\d

250‐255: 25[0‐5]

(([1‐9]?\d|1\d{2}|2[0‐4]\d|25[0‐5]).){3}([1‐9]?\d|1\d{2}|2[0‐4]\d|25[0‐5])

Re库的介绍使用

  1. 使用raw string类型(原生字符串类型),string类型表示正则表达式。
  2. 了解Re库的主要功能

 

Match对象的属性:

Re库的贪婪匹配和最小匹配

       Re库默认采用贪婪匹配的方式,即输出匹配最长的子串

       采用?,即输出最小匹配

 

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表