re模块模块

import re

findall() 烦的奥

import re

# 1. findall 查找所有结果,数据不是特别庞大

lst = re.findall('a','abcsdfasdfa')

print(lst)

finditer() 烦的一特

#2. finditer 找到的结果返回迭代器

it = re.finditer(r'\d+','你好啊200,哈哈233')

for el in it:#从迭代器中获取到的是分组的信息

    print(el.group())#个肉破,获取具体信息

search() 色吃

#3. search()  查找, 如果查找到第一个结果,就停止,如果查不到结果就返回None

ret = re.search('e','abc')

print(ret)#不要用空去点

match() 卖吃

#4. match()  查找

ret = re.match('a','abc')#从头开始找.给正则加^

print(ret.group())

相关操作　

ret = re.split('ab','ab哈哈ab你好哈哈')  (\d+)带了括号原来的刀还留着

print(ret)#按照正则切,切完了,产生空白

#sub(仨波)替换   第一个参数是替换的东西,第二个替换的结果

ret1 = re.sub('250','__sb__','哈哈250你好啊250,我不好250')

print(ret1)

#shbn(仨波n)替换,加替换了多少次

ret1 = re.subn('250','__sb__','哈哈250你好啊250,我不好250')

print(ret1)

#compile()康派奥!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!作用很大

obj = re.compile(r'\d+')#预加载.先把这个正则加载到内存,用的时候不用再加载,写一遍

lst = obj.findall('哈哈222,你好2222')#从内存中拿直接用

print(lst)

?P<名>正则给正则取名字,想把什么抠出来,就用这个取名

obj = re.compile(r'(?P<id>\d+)(?P<zimu>e{3})')#给这个正则起名,取值好取

lst = obj.search('abcsdfjsd123eeelkabc')

print(lst.group())

print(lst.group('id'))

print(lst.group('zimu'))

?: 去掉分组

#分组

ret = re.findall('www.(baidu|oldboy).com','www.oldboy.com')

#去掉分组

ret1 = re.findall('www.(?:baidu|oldboy).com','www.oldboy.com')

爬虫

rom urllib.request import urlopen #打开一个链接.读取源代码

import ssl

ssl._create_default_https_context = ssl._create_unverified_context

def getPage(url):

    response = urlopen(url)#打开,和网页链接

    return response.read().decode('utf_8')#返回正常页面源代码 读取源代码 编码                       抵扣的

def parsePage(s):#页面源代码

    ret = re.findall('<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>\d+).*?'+

        '<span class="title">(?P<title>.*?)</span>'+

        '.*?<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?<span>'+

        '(?P<comment_num>.*?)评价</span>', s, re.S)

    return ret #id,title, rating_num, comment_num

def main(num):

    url = 'https://movie.douban.com/top250?start=%s&filter=' % num

    response_html = getPage(url) # response_html是页面源代码

    ret = parsePage(response_html)

    print(ret) # id,title, rating_num, comment_num

s = 0

for i in range(10): #10页

    main(s)#分页  第一个0 25 50 75

    s += 25

精细版

import ssl

import re

from urllib.request import urlopen

# ⼲干掉数字签名证书

ssl._create_default_https_context = ssl._create_unverified_context

def getPage(url):

    response = urlopen(url)

    return response.read().decode('utf-8')

def parsePage(s):

    com = re.compile(

         '<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>\d+).*?' +

                 '<span class="title">(?P<title>.*?)</span>'+

                 '.*?<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?<span>'+

                 '(?P<comment_num>.*?)评价</span>', re.S)

    ret = com.finditer(s)

    for i in ret:

        yield {

            "id": i.group("id"),

            "title": i.group("title"),

            "rating_num": i.group("rating_num"),

            "comment_num": i.group("comment_num"),}

def main(num):

    url = 'https://movie.douban.com/top250?start=%s&filter=' % num

    response_html = getPage(url)

    ret = parsePage(response_html)

        # print(ret)

    f = open("move_info7", "a", encoding="utf8")

    for obj in ret:

        print(obj)

        data = str(obj)

        f.write(data + "\n")

count = 0

for i in range(10):

    main(count)

    count += 25

模块

import 模块名嗯炮特

1.检查是否已经被导入过,顺序内存 -> 内置 -> sys.path

2. 如果没有导入过这个模块,先创建一个名称空间

3. 然后把导入的模块执行一遍. 把执行的结果放在刚才的空间中

4. 把模块的名字命名给这个空间

所有被导入的模块都会放在sys.modules字典里

使用模块中的内容. 模块名字.方法/变量/类

__name__:

如果当前模块是程序的入口. __name__的值:__main___

if __name__ == '__main__': # __main__ 程序的入口

    print("我在浪挖的测试")

如果模块是被其他模块引入的. __name__是模块名

from xxx import xxx
    from 模块 import 模块中的内容
    from 模块 import * 不推荐

    导入的内容可以直接使用. 不需要模块.xxx. 和当前模块中的变量冲突

as可以起名字

import sys

print(sys.modules.keys()) # 查看到已经引入的模块信息

print(sys.path)

re模块模块的更多相关文章

python常用模块(模块和包的解释，time模块，sys模块，random模块，os模块，json和pickle序列化模块)
1.1模块什么是模块: 在计算机程序的开发过程中,随着程序代码越写越多,在一个文件里代码就会越来越长,越来越不容易维护. 为了编写可维护的代码,我们把很多函数分组,分别放到不同的文件里,这样,每个文 ...
第十八篇模块与包--time&random模块&模块导入import（os.path.dirname（os.path.abspath(__file__)））
模块在Python中, 一个.py文件就称为一个模块. 使用模块的好处: 1. 最大的好处就是大大提高了代码的可维护性 2. 编写代码不必从零开始.一个模块编写完毕,就可以被其他地方引用.在写其他程 ...
python学习之模块-模块(一)
第五章 5.1 自定义模块模块概念: 把一些常用的函数放在一个py文件中,这个文件就称之为模块. 模块的意义: 1.方便管理.让程序的解构更加清晰,实现功能的重复使用: 2.提升开发效率 ...
（转）python常用模块(模块和包的解释，time模块，sys模块，random模块，os模块，json和pickle序列化模块)
阅读目录 1.1.1导入模块 1.1.2__name__ 1.1模块什么是模块: 在计算机程序的开发过程中,随着程序代码越写越多,在一个文件里代码就会越来越长,越来越不容易维护. 为了编写可维护的代 ...
random os 序列化模块模块随机选择
# 1 random 模块随机选择# import random#随机取小数# ret = random.random() #空是0到1之间的小数字# print(ret)# # 0.0799728 ...
python-day21--序列化模块模块
什么叫序列化——将原本的字典.列表等内容转换成一个字符串的过程就叫做序列化序列化的目的: 1.以某种存储形式使自定义对象持久化: 2.将对象从一个地方传递到另一个地方. 3.使程序更具维护性. ...
os 模块模块与包的初始
os模块是与操作系统交互的模块之前我们也用过os模块就是更改文件的名字的时候我们如果用os求求文件夹是不行的可以求文件因为文件夹在python中最大就是4090个字节所以你必须求出文件夹内 ...
ANSIBLE安装和常用模块模块使用详细教程
目录 ANSIBLE安装和各种模块应用功能安装配置ANSIBLE ANSIBLE使用 ansible-galaxy工具 ansible-pull工具 ansible-playbook ansible ...
导模块的细节：（跨文件导入模块 &模块的两种执行方式） | 包的概念与使用 | 包中的相对导入语法
今日内容包: 1. 导入模块的细节 2. 包的概念与使用 3. 包中的相对导入语法跨文件夹导入模块 1. 假设有一个文件夹a ,a 的下面有一个ma 的模块,如果a文件夹所在目录在环境变量,a文件 ...

随机推荐

HTML and CSS学习概述-续
1, CSS是层叠样式表(Cascading Style Sheets)的缩写,它用于定义HTML元素的显示形式,是一种格式化网页内容的技术.CSS现在已经被大多数浏览器所支持,成为网页设计者必须 ...
2018.11.24 loj#111. 后缀排序（后缀数组）
传送门后缀排序模板题. 终于会后缀数组了(然而只会倍增并不会DC3DC3DC3). 在这里列举几个数组的意思: sai:sa_i:sai:当前排名第iii的后缀的起始下标. rkirk_irki ...
2018.10.31 NOIP模拟几串字符（数位dp+组合数学）
传送门如果观察到性质其实也不是很难想. 然而考试的时候慌得一批只有心思写暴力233. 下面是几个很有用的性质: c0,1+1≥c1,0≥c0,1c_{0,1 }+1 ≥ c_{1,0} ≥ c_{0 ...
Educational Codeforces Round 61 F 思维 + 区间dp
https://codeforces.com/contest/1132/problem/F 思维 + 区间dp 题意给一个长度为n的字符串(<=500),每次选择消去字符,连续相同的字符可以同 ...
C++STL 迭代器
迭代器类别: 输入迭代器(只读迭代器).输出迭代器(只写迭代器).正向迭代器.双向迭代器.随机访问迭代器逆向遍历 for(vector<int>::reverse_iterator ri ...
Java之spilt()函数,trim()函数
一.单个符号作为分隔符 package com.regix; public class FuncSpilt { public static void main(String[] args) { // ...
SVN安装配置与使用
http://www.cnblogs.com/skyway/archive/2011/08/10/2133399.html http://www.cnblogs.com/lidabo/archive/ ...
IntellJ IDEA2017 springboot2.0.2 替代@SpringBootApplication方式
如果不想用@SpringBootApplication,那么可以用@EnableAutoConfiguration 和@ComponentScan替代@SpringBootApplication 详情 ...
svn 提交代码自动过滤技巧
操作在用svn管理版本时,有时希望在提交到服务器时,能过滤掉指定后缀名的所有文件,或指定名称的文件夹.文件名. 常见的文件夹名称和文件名如下: bin obj debug temppe *.suo ...
Andorid第一次作业
一.作业截图二.项目路径 https://git.coding.net/bestimbalance/Android.git 三.小组成员邢路: https://www.cnblogs.com/x ...

re模块 模块

re模块 模块的更多相关文章

随机推荐

热门专题

re模块模块

re模块模块的更多相关文章