Python爬虫类正则表达式的常用符号和方法
1。常见的符号
匹配任何字符,除了换行符
匹配前一个字符0次或无限次。
匹配前一个字符0或1次
*贪婪算法,尽可能多的字符
非贪婪算法。
()括号中的数据作为结果返回。
2。常见的方法
Findall:匹配所有符合内容和返回结果。
搜索:匹配并提取第一个符合内容,并返回一个正则表达式对象。
子:替换一致的内容,并在替换后返回值。
三.使用的例子
(1)。用一个例子来匹配任何字符,除了换行字符
进口重新#导入库文件
a 'xy123
B = re.findall('x.。一个)
打印B
打印的结果是:{ 'xy1},每。一个占位符
(2)*使用一个例子,匹配前一个字符0次或无穷大。
a 'xyxy123
B = re.findall(x *,一个)
打印B
打印结果:{ x,x,' ',' ',' ',' ',' ',' ' }
(3)使用示例匹配前一个字符0或1次。
a 'xy123
B = re.findall(X,A)
打印B
打印结果:{ x,' ',' ',' ',' ',' ' }
(4)使用实例。
secret_code = 'hadkfalifexxixxfasdjifja134xxlovexx23345sdfxxyouxx8dfse
B = re.findall('xx。* XX,secret_code)
打印B
打印的结果是:{ 'xxixxfasdjifja134xxlovexx23345sdfxxyouxx}
(5)*使用例子
secret_code = 'hadkfalifexxixxfasdjifja134xxlovexx23345sdfxxyouxx8dfse
C = re.findall('xx。* XX,secret_code)
打印C
打印结果是:{ 'xxixx ','xxlovexx ','xxyouxx}
(6)使用()的示例
secret_code = 'hadkfalifexxixxfasdjifja134xxlovexx23345sdfxxyouxx8dfse
a re.findall('xx(。*)XX,secret_code)
D打印
打印的结果是:{我,爱,你},括号中的数据作为返回结果
(7)使用s的例子。
S =''sdfxxhello
xxfsdfxxworldxxasdf '''
a re.findall('xx(XX,S,再。S.))
D打印
打印结果,{你好',‘'},再让它的使用。包括在比赛中。
(8)对所有的使用的一个例子
S2 = 'asdfxxixx123xxlovexxdfd
F2 = re.findall('xx(。)xx123xx(。)XX,S2)
打印F20
印刷的结果是:爱。
此时,F2是一个包含一个元组的列表。元组包含两个元素。元组中的两个元素是两个()匹配的内容。如果S2包含multiple'xx(。)xx123xx(。)xx'subclusters,然后F2包含多个元组。
(9)使用搜索的一个例子
S2 = 'asdfxxixx123xxlovexxdfd
F =化学('xx(。)xx123xx(。)XX,S2)组(2)。
打印F
印刷的结果是:爱。
组(2)表示返回第二个圆括号的内容,如果是(组(1)),则打印为:i
(10)使用子的示例
S = '123rrrrr123
输出= re.sub('123(123','123 % D123% 789,美国))
打印输出
印刷的结果是:123789123。
D是类似于C语言中的%d,如果输出= re.sub('123 123,'123789123 '(。(*)s,输出结果如下:123789123
(11)例如,用于匹配数字的
a 'asdfasf1234567fasd555fas
B = re.findall('( D +)',一个)
打印B
打印的结果是,{ '1234567 ','555}, D +可以匹配的数字串;
以上是一些常见的符号和语法的python爬虫类正则表达式,希望能对初学python的初学者有所帮助。