基础爬虫，谁学谁会，用requests、正则表达式爬取豆瓣Top250电影数据！

爬取豆瓣Top250电影的评分、海报、影评等数据！

本项目是爬虫中最基础的，最简单的一例；

后面会有利用爬虫框架来完成更高级、自动化的爬虫程序。

此项目过程是运用requests请求库来获取html，再用正则表达式来解析从中获取所需数据。

话不多说，直接上代码，盘！（具体代码解释在代码旁边）

1.加载包，requests请求库，re是正则表达式的包，json是后面来把字典序列化的包；



#请求库：requests    解析工具：正则表达式

import requests

import re

import json

import time

2.用requests库通过url获取响应，得到html文本。

def get_one_page(url):

    #头部的定义，自己在网页中可以获取（网页右击检查，network中的header）

    headers={

        'User-Agent':'ozilla/5.0 (iPhone; CPU iPhone OS 11_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Mobile/15E5216a QQ/7.5.5.426 V1_IPH_SQ_7.5.5_1_APP_A Pixel/1080 Core/UIWebView Device/Apple(iPhone 8Plus) NetType/WIFI QBWebViewType/1'

        }

    response=requests.get(url,headers=headers)

    if response.status_code==200:  #只有status_code为200时才表示响应正确

        return response.text

    return None

3.用正则表达式从html中匹配出想要数据

def parse_one_page(html):

    #re.compile是把正则化字符串对象化，方便复用。

    pattern=re.compile('<li>.*?<em\sclass.*?>(.*?)</em>.*?<img.*? src="(.*?)".*?title">(.*?)<.*?<p class="">(.*?)</p>.*?rating_num.*?>(.*?)<.*?<span>(.*?)</span>.*?.*?inq">(.*?)<.*?</li>',re.S)

    items=re.findall(pattern,html)

    #列表形成字典（通过findall获取的数据是一条条记录，形成一个列表）

    for item in items:

        yield{'index':item[0],  #电影排名

              'image':item[1],  #电影海报

              'title':item[2],  #电影名称

              'actor':item[3],  #电影导演，主演

              'score':item[4],  #评分

              'people_num':item[5],  #多少人评价

              'evaluate':item[6]     #影评

                }

4.把获得的数据存入到txt文件当中去



def write_to_file(content):

    #创建或打开result.txt以追加的读写方式写入数据

    with open('result.txt','a',encoding='utf-8') as f:

        print(json.dumps(content,ensure_ascii=False))  #json.dumps()用于把字典序列化，方便写入txt文件

        f.write(json.dumps(content,ensure_ascii=False)+'\n')

5.通过改变url中start的值来实现换页，进行下一页的切换。

def main(start):

    #更换url中的start值来切换页面，具体更换的数值要更具实际情况而变

    url='https://movie.douban.com/top250?start='+str(start)+'&filter='

    html=get_one_page(url)

    for item in parse_one_page(html):

        write_to_file(item)

if __name__=='__main__':

    for i in range(10):

        start=i*25

        main(start)

        time.sleep(1)#防止请求过快被网页检测出来，休眠1秒

本文所有代码复制可以直接运行欧！

基础爬虫，谁学谁会，用requests、正则表达式爬取豆瓣Top250电影数据！的更多相关文章

requests爬取豆瓣top250电影信息
''' 1.爬取豆瓣top250电影信息 - 第一页: https://movie.douban.com/top250?start=0&filter= - 第二页: https://movie ...
python爬虫知识点总结（九）Requests+正则表达式爬取猫眼电影
一.爬取流程二.代码演示 #-*- coding: UTF-8 -*- #_author:AlexCthon #mail:alexcthon@163.com #date:2018/8/3 impor ...
Scrapy爬虫入门系列4抓取豆瓣Top250电影数据
豆瓣有些电影页面需要登录才能查看. 目录 [隐藏] 1 创建工程 2 定义Item 3 编写爬虫(Spider) 4 存储数据 5 配置文件 6 艺搜参考创建工程 scrapy startproj ...
使用Requests+正则表达式爬取猫眼TOP100电影并保存到文件或MongoDB,并下载图片
需要着重学习的地方:(1)爬取分页数据时,url链接的构建(2)保存json格式数据到文件,中文显示问题(3)线程池的使用(4)正则表达式的写法(5)根据图片url链接下载图片并保存(6)MongoD ...
爬虫之爬取豆瓣top250电影排行榜及爬取斗图啦表情包解读及爬虫知识点补充
今日内容概要如何将爬取的数据直接导入Excel表格 #如何通过Python代码操作Excel表格 #前戏 import requests import time from openpyxl impo ...
Python爬虫学习==>第十章：使用Requests+正则表达式爬取猫眼电影
学习目的: 通过一个一个简单的爬虫应用,初窥门径. 正式步骤 Step1:流程框架抓取单页内容:利用requests请求目标站点,得到单个页面的html代码,返回结果: 正则表达式分析:根据html ...
爬虫系列1：Requests+Xpath 爬取豆瓣电影TOP
爬虫1:Requests+Xpath 爬取豆瓣电影TOP [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]: ...
PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_pag ...
requests+正则爬取豆瓣图书
#requests+正则爬取豆瓣图书 import requests import re def get_html(url): headers = {'User-Agent':'Mozilla/5.0 ...

随机推荐

PDF文档转换为图片、图片转成PDF 及PDF合并
简介功能:PDF文档按每页转换成一张图片,一张图片转换成一张PDF 并将多张PDF合成一个多页的PDF文档. 经历:在各个网站上搜索始终出现各种问题,尤其是遇到引用的版本问题尤其头疼,不是不能适用当 ...
不用外部插件启用u盘ntfs写功能
mac下启用NTFS u盘读写功能. 不用要任何外部插件,其实mac本来就支持,只是因为专利原因隐藏了而已. macbook:~ uwe$ sudo umount /Volumes/UNTITLED ...
String，Json，Map之间的转化
前提条件: 1)String的格式是map或json类型的 ; 2)在JAVA中使用JSON需要引入 org.json 包 String >>Json JSONObject jsonObj ...
Delphi XE2 编译ralease版本,无法添加UAC解决方法
我今天把一个原来是Delphi2007的工程升级到了Delphi XE2,在编译ralease版本时候,发现无法添加UAC,我觉得可能是升级的原因,随后我用XE2新建了一个工程,但是在编译raleas ...
sqlite3简单操作
最近在操作公司视频设备的tutk转发服务器的时候,用到的数据库是sqlite,在此复习一下目录 1 建立数据库档案 2 在sqlite3提示列下操作 3 SQL的指令格式 4 建立资料表 5 建立索 ...
Spring-初识Spring框架-IOC控制反转（DI依赖注入）
---恢复内容开始--- IOC :控制反转 (DI:依赖注入)使用ioc模式开发实体类必须有无参构造方法1.搭建Spring环境下载jarhttp://maven.springframework. ...
java修饰符顺序
Modifiers should be declared in the correct order (squid:ModifiersOrderCheck) Code smell Minor The J ...
ubuntu下apache2使用的简单总结
一. 修改apache2原80端口为90端口 1. 修改/etc/apache2/ports.conf, 将端口80改为90,443,改为444 2. 修改/etc/apache2/sites ...
Spring 并发事务的探究
前言在目前的软件架构中,不仅存在单独的数据库操作(一条SQL以内,还存在逻辑性的一组操作.而互联网软件系统最少不了的就是对共享资源的操作.比如热闹的集市,抢购的人群对同见商品的抢购由一位售货员来处理 ...
数学规划求解器lp_solve超详细教程
前言最近小编学了运筹学中的单纯形法.于是,很快便按奈不住跳动的心.这不得不让我拿起纸和笔思考着,一个至关重要的问题:如何用单纯形法装一个完备的13? 恰巧,在我坐在图书馆陷入沉思的时候,一位漂亮的小 ...

基础爬虫，谁学谁会，用requests、正则表达式爬取豆瓣Top250电影数据！

爬取豆瓣Top250电影的评分、海报、影评等数据！

1.加载包，requests请求库，re是正则表达式的包，json是后面来把字典序列化的包；

2.用requests库通过url获取响应，得到html文本。

3.用正则表达式从html中匹配出想要数据

4.把获得的数据存入到txt文件当中去

5.通过改变url中start的值来实现换页，进行下一页的切换。

基础爬虫，谁学谁会，用requests、正则表达式爬取豆瓣Top250电影数据！的更多相关文章

随机推荐

热门专题