爬取豆瓣电影Top250

目标

学习爬虫，爬豆瓣榜单，获取爬取静态页面信息的能力

豆瓣电影 Top 250 https://movie.douban.com/top250

代码

import requests

from bs4 import BeautifulSoup

def getHTMLText(url):

    try:

        r = requests.get(url,timeout=30)

        r.raise_for_status()

        r.encoding = r.apparent_encoding

        return r.text

    except:

        return '产生异常'

if __name__ == '__main__':

    i = 0

    urls = ['https://movie.douban.com/top250?start='+str(n)+'&filter=' for n in range(0,250,25)]

    for url in urls:

        r = getHTMLText(url)

        soup = BeautifulSoup(r,'html.parser')

        titles = soup.select('div.hd a')

        rates = soup.select('span.rating_num')

        pics = soup.select('img[width="100"]')

        for title,rate,pic in zip(titles,rates,pics):

            data={'title':list(title.stripped_strings),

                  'rate':rate.get_text(),

                  'pic':pic.get('src')}

            i+=1

            fileName=str(i)+'_'+data['title'][0]+' '+data['rate']+'分.jpg'

            pic1 = requests.get(data['pic'])

            with open('G:\\test\\'+fileName,'wb') as photo:

                photo.write(pic1.content)

            print(data)

爬取结果

爬取豆瓣电影Top250的更多相关文章

urllib+BeautifulSoup无登录模式爬取豆瓣电影Top250
对于简单的爬虫任务,尤其对于初学者,urllib+BeautifulSoup足以满足大部分的任务. 1.urllib是Python3自带的库,不需要安装,但是BeautifulSoup却是需要安装的. ...
python2.7爬取豆瓣电影top250并写入到TXT，Excel，MySQL数据库
python2.7爬取豆瓣电影top250并分别写入到TXT,Excel,MySQL数据库 1.任务爬取豆瓣电影top250 以txt文件保存以Excel文档保存将数据录入数据库 2.分析电影 ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...
scrapy爬取豆瓣电影top250
# -*- coding: utf-8 -*- # scrapy爬取豆瓣电影top250 import scrapy from douban.items import DoubanItem class ...
一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用
学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python requests的使用. 1.准备工作在pycharm中安装request库 ...
python 爬虫&爬取豆瓣电影top250
爬取豆瓣电影top250from urllib.request import * #导入所有的request,urllib相当于一个文件夹,用到它里面的方法requestfrom lxml impor ...
【转】爬取豆瓣电影top250提取电影分类进行数据分析
一.爬取网页,获取需要内容我们今天要爬取的是豆瓣电影top250页面如下所示: 我们需要的是里面的电影分类,通过查看源代码观察可以分析出我们需要的东西.直接进入主题吧! 知道我们需要的内容在哪里了, ...
Scrapy中用xpath/css爬取豆瓣电影Top250：解决403HTTP status code is not handled or not allowed
好吧,我又开始折腾豆瓣电影top250了,只是想试试各种方法,看看哪一种的方法效率是最好的,一直进行到这一步才知道 scrapy的强大,尤其是和selector结合之后,速度飞起.... 下面我就采用 ...
Python爬虫入门：爬取豆瓣电影TOP250
一个很简单的爬虫. 从这里学习的,解释的挺好的:https://xlzd.me/2015/12/16/python-crawler-03 分享写这个代码用到了的学习的链接: BeautifulSoup ...
Scrapy爬虫（4）爬取豆瓣电影Top250图片
在用Python的urllib和BeautifulSoup写过了很多爬虫之后,本人决定尝试著名的Python爬虫框架--Scrapy. 本次分享将详细讲述如何利用Scrapy来下载豆瓣电影To ...

随机推荐

VIJOS-P1450 包裹快递
洛谷 P1542 包裹快递 https://www.luogu.org/problem/P1542 JDOJ 1527: VIJOS-P1450 包裹快递 https://neooj.com/oldo ...
Python-numpy包中多维数组转置，transpose.swapaxes的轴编号（axis）的理解
transpose()中三个轴编号的位置变化理解 transpose(a,b,c)其中a轴编号即为参考编号,垂直于a的平面即为所有平面,该平面上的数据再根据b,c相对于(0,1,2)的位置关系进行改变 ...
Linux三剑客入门
grep文本过滤工具 grep命令是Linux系统中最重要的命令之一,功能是从文本文件或管道数据流中筛选匹配的行和数据,如果再配合正则表达式,功能十分强大,是Linux运维人员必备的命令语法: gr ...
portal项目启动问题
错误信息: Disconnected from the target VM, address: '127.0.0.1:58909', transport: 'socket' Process finis ...
为某金融企业开发团队分享DevOps Server流水线使用经验
http://www.cnblogs.com/danzhang/ DevOps MVP 张洪君
pyspark 日常整理
1 联表 df1.join(df2,连接条件,连接方式) 如:df1.join(df2,[df1.a==df2.a], "inner").show() 连接方式:字符串类型, 如 ...
Loj #3085. 「GXOI / GZOI2019」特技飞行
Loj #3085. 「GXOI / GZOI2019」特技飞行题目描述公元 \(9012\) 年,Z 市的航空基地计划举行一场特技飞行表演.表演的场地可以看作一个二维平面直角坐标系,其中横坐标代 ...
33，Leetcode 搜索旋转排序数组-C++ 递归二分法
题目描述假设按照升序排序的数组在预先未知的某个点上进行了旋转. ( 例如,数组 [0,1,2,4,5,6,7] 可能变为 [4,5,6,7,0,1,2] ). 搜索一个给定的目标值,如果数组中存在这 ...
小程序1px边框在苹果机上变粗问题
在ios系统上1px的边框会变成2px,ui会感觉很粗列表间隔,只需要一条边框 .border:after { position: absolute; content: ''; width: 100 ...
SQL --------------- between 和< >
between值 and 值运算符用于选取介于两个值之间的数据范围内的值,常与where一块使用between运算符选择给定范围内的值.值可以是数字,文本或日期. 使用between的时候会与and ...

爬取 豆瓣电影Top250

目标

代码

爬取结果

爬取 豆瓣电影Top250的更多相关文章

随机推荐

热门专题

爬取豆瓣电影Top250

爬取豆瓣电影Top250的更多相关文章