python 豆瓣top250

豆瓣电影

import re

import requests

headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:94.0) Gecko/20100101 Firefox/94.0"}

url='https://movie.douban.com/top250'

proxies={

    'http':'http://123.207.96.189:80'

}           #防止被锁ip

word=0

while True:

    if word == 250:

        break

    p={'start':word}

    movie=requests.get(url,proxies=proxies,headers=headers,params=p)

    word=word+25

    abc=movie.text

    pattern=re.compile('<div class="item">.*?<em class="">(.*?)</em>.*? <a href="(.*?)">.*?<span class="title">(.*?)'

                    '</span>.*?<span class="title">&nbsp;/&nbsp;(.*?)</span>.*?<span class="other">&nbsp;/&nbsp;'

                    '(.*?)</span>.*?<p class="">.*?                           (.*?)&nbsp;&nbsp;&nbsp;(.*?)<br>'

                    '.*? property=(.*?)</span>.*?<span class="inq">(.*?)</span>',re.S)   #正则表达式     re.S 使得.匹配换行符  re.I 忽略大小写

    #print(pattern.findall(abc))

    for i in pattern.findall(abc):

        print(i)

豆瓣示例2

import requests

import re

import json

def param_html(url):

    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; "

                            "Win64; x64; rv:94.0) Gecko/20100101 Firefox/94.0"}

    proxies = {

        'http': 'http://123.207.96.189:80'

    }

    response=requests.get(url,headers=headers,proxies=proxies)

    text=response.text

    pattern = re.compile('<div class="item">.*?<em class="">(.*?)</em>.*?src="(.*?)" class=".*?<a href="(.*?)">.*?'

                        '<span class="title">(.*?)'

                        '</span>.*?<span class="title">&nbsp;/&nbsp;(.*?)</span>.*?<span class="other">&nbsp;/&nbsp;'

                        '(.*?)</span>.*?<p class="">.*?                           (.*?)&nbsp;&nbsp;&nbsp;(.*?)<br>'

                        '.*? property=(.*?)</span>.*?<span class="inq">(.*?)</span>', re.S)  # 正则表达式

    # re.S 使得.匹配换行符  re.I 忽略大小写

    # print(pattern.findall(abc))

    results=pattern.findall(text)     #生成符合正则表达式的小列表

    for i in results:        #输出小列表内容

        print(i)

    for i in results:

        down_jpg(i[1])    #把小列表里的第二个值传给down_jpg （url）

        yield {

            '排名':i[0],

            '电影名':i[3],

            '英文名':i[4],

            '港台地区':i[5]

        }         #使用1次此函数就会递归50个小字典 将小列表的值递归出来

def down_jpg(url):

    r=requests.get(url)

    regix=re.compile('/public/(.*?)$',re.S)         #以 /public/(.*?)结尾的 所以要加$

    filename=regix.search(url).group(1)

    with open(filename,'wb') as  f:

        f.write(r.content)

def write_txt(str_obj):

    with open('film.txt','a',encoding='utf-8') as f:

        f.write(json.dumps(str_obj,ensure_ascii=False))

            #追加写   以dumps形式

def main():

    for i in range(0,26,25):

        url='https://movie.douban.com/top250?start='+str(i)

        for j in param_html(url):     #将50个小字典写入文件

            write_txt(j)

main()

示例3

import re

import requests

import json

headers = {"User-Agent": "Mozilla/5.0"

" (Windows NT 10.0; Win64; x64; rv:94.0) Gecko/20100101 Firefox/94.0"}

proxies = {

    'http': 'http://123.207.96.189:80'

}

def get_html(proxies,headers):

    url='https://movie.douban.com/top250'

    word=0

    while True:

        if word == 50:

            break

        p={'start':word}

        movie=requests.get(url,proxies=proxies,headers=headers,params=p)

        word=word+25

        text=movie.text

        pattern=re.compile('<div class="item">.*?<em class="">(.*?)</em>.*?src="(.*?)" class="".*?<a href="(.*?)">.*?'

                        '<span class="title">(.*?)'

                        '</span>.*?<span class="title">&nbsp;/&nbsp;(.*?)</span>.*?<span class="other">&nbsp;/&nbsp;'

                        '(.*?)</span>.*?<p class="">.*?                           (.*?)&nbsp;&nbsp;&nbsp;(.*?)<br>'

                        '.*? property=(.*?)</span>.*?<span class="inq">(.*?)</span>',re.S)   #正则表达式

        for i in pattern.findall(text):

            yield {

                    '排名':i[0],

                    '电影名':i[3],

                    '英文名':i[4],

                    '港台地区':i[5],

                    '图片链接':i[1],

            }

def get_movie_brief():

    with open('movie.txt','a',encoding='utf-8') as f:

        for i in get_html(proxies,headers):

            f.write(json.dumps(i,ensure_ascii=False))

def get_movie_pic(proxies,headers):

    for i in get_html(proxies,headers):

        url=i['图片链接']

        re=requests.get(url,proxies=proxies,headers=headers)

        pic=re.content

        filename=str(i['排名'])+'.png'

        with open(filename,"wb") as f:

            f.write(pic)

get_movie_brief()

get_movie_pic(proxies,headers)

python 豆瓣top250的更多相关文章

python 豆瓣top250电影的爬取
我们先看一下豆瓣的robot.txt 然后我们查看top250的网页链接和源代码通过对比不难发现网页间只是start数字发生了变化. 我们可以知道电影内容都存在ol标签下的 div class属性为 ...
Python爬虫之多线程下载豆瓣Top250电影图片
爬虫项目介绍本次爬虫项目将爬取豆瓣Top250电影的图片,其网址为:https://movie.douban.com/top250, 具体页面如下图所示: 本次爬虫项目将分别不使用多线程和使 ...
Forward团队-爬虫豆瓣top250项目-项目总结
托管平台地址:https://github.com/xyhcq/top250 小组名称:Forward团队组长:马壮成员:李志宇.刘子轩.年光宇.邢云淇.张良我们这次团队项目内容是爬取豆瓣电影T ...
Forward团队-爬虫豆瓣top250项目-项目进度
项目地址:https://github.com/xyhcq/top250 我们的项目是爬取豆瓣top250的电影的信息,在做这个项目前,我们都没有经验,完全是从零开始,过程中也遇到了很多困难,不过我们 ...
正则表达式和豆瓣Top250的爬取练习
datawhale任务2-爬取豆瓣top250 正则表达式豆瓣250页面分析完整代码参考资料正则表达式正则表达式的功能用于实现字符串的特定模式精确检索或替换操作. 常用匹配模式常用修饰符 ...
豆瓣Top250爬取
第一次做爬虫项目,真的开心,非常顺利爬出了豆瓣Top250的电影 @^_^@ 自从今年6月份就开始自学python,断断续续一直没好好学.直到看了‘’老男孩python3全栈教育‘’,才有所收获.但是 ...
14、使用csv和excel存储豆瓣top250电影信息
记得我们第三关的时候爬取了豆瓣TOP250的电影名/评分/推荐语/链接,现在呢,我们要把它们存储下来,记得用今天课上学的csv和excel,分别存储下来哦- URL htt ...
《Forward团队-爬虫豆瓣top250项目-开发文档》
码云地址:https://github.com/xyhcq/top250 模块功能:获取豆瓣top250网页的源代码,并分析. def getHTMLText(url,k): # 获取网页源代码 tr ...
基础爬虫，谁学谁会，用requests、正则表达式爬取豆瓣Top250电影数据！
爬取豆瓣Top250电影的评分.海报.影评等数据! 本项目是爬虫中最基础的,最简单的一例: 后面会有利用爬虫框架来完成更高级.自动化的爬虫程序. 此项目过程是运用requests请求库来获取h ...

随机推荐

Codeforces 348C - Subset Sums（根号分治）
题面传送门对于这类不好直接维护的数据结构,第一眼应该想到-- 根号分治! 我们考虑记[大集合]为大小 \(\geq\sqrt{n}\) 的集合,[小集合]为大小 \(<\sqrt{n}\) 的 ...
curl实现SFTP上传下载文件
摘自:https://blog.csdn.net/swj9099/article/details/85292444 #include <stdio.h> #include <stdl ...
Demo02一千以内的水仙花数
package 习题集2;//1000以内的水仙花数public class Demo02 { public static void main(String[] args) { int i = 100 ...
oc中调用c函数实现将字符串转换成unsigned char
帮助码友解决问题,从而复习了一下oc中调用c函数的方式 1,新建c 头文件 test.h 定义 c 函数 #ifndef test_h #define test_h void verificatio ...
NSMutableArray-->NSString
1.如何把NSMutableArray 转化为NSString//用字符将NSArray中的元素拼接起来 NSArray *array = [NSArray arrayWithObjects:@&qu ...
【编程思想】【设计模式】【其他模式】hsm
Python版 https://github.com/faif/python-patterns/blob/master/other/hsm/hsm.py """ Impl ...
一文读懂RESTful架构
转载自https://zhuanlan.zhihu.com/p/381554129 RESTful架构究竟是什么别着急,想要了解RESTful,我们先来了解一位大佬Roy Thomas Fieldi ...
Spring Boot事务支持
一.创建项目二.添加依赖 <dependencies> <dependency> <groupId>org.projectlombok</groupId&g ...
SpringBoot+MybatisPlus实现批量添加的两种方式
第一种: 因为Mysql数据每次发送sql语句的长度不能超过1M,所以,每次发送insert语句以固定长度发送: 将sql语句在provider中,以固定长度装入List集合中,然后返回service ...
java配置文件的使用 —— 设置一个类为单例模式
阅读本文章前建议先阅读:java通过JDBC访问sqlserver数据库一.使用原因:通过JDBC连接数据库时有时会需要连接不同的数据库,而jar包.连接url.用户名和密码等都是写定在程序中,不便 ...

python 豆瓣top250

豆瓣电影

豆瓣示例2

示例3

python 豆瓣top250的更多相关文章

随机推荐

热门专题