一个豆瓣电影Top250爬虫

一个爬虫

这是我第一次接触爬虫，写的第一个爬虫实例。

https://movie.douban.com/top250

模块

import requests #用于发送请求
import re #使用正则表达式，用于匹配处理文本
import os #用于创建文件夹
from lxml import etree #这里我使用了Xpath表达式用于数据解析，我觉得这个模块比BeautifulSoup好用，强烈推荐
from fake_useragent import UserAgent #反爬虫，随机获取浏览器 UA 信息

代码

import requests
import re
import os
from lxml import etree
from fake_useragent import UserAgent
class doubanSpider(object):
    def __init__(self):
        if not os.path.exists('db/douban'):
            os.makedirs('db/douban')
        else:
            pass
        self.f = open('./db/douban/douban.txt', 'a', encoding='utf-8')
    def start(self):
        for i in range(46):
            headers = {
                'User-Agent': UserAgent().random
            }
            url = 'https://movie.douban.com/top250?start=' + str(i * 25)
            r = requests.get(url, headers=headers)
            html = etree.HTML(r.text)
            li_list = html.xpath('//*[@id="content"]/div/div[1]/ol/li')
            movies = []
            for each in li_list:
                movie = {}
                order = each.xpath('.//div/div[1]/em/text()')[0]
                movie['id'] = order
                cover = each.xpath('.//div/div[1]/a/img/@src')[0]
                movie['cover'] = cover
                name = each.xpath('.//div/div[2]/div[1]/a/span/text()')
                flag = ''
                for mo in name:
                    flag += mo
                movie['name'] = flag
                info = each.xpath('.//div/div[2]/div[2]/p[1]/text()[1]')[0].strip()
                info = info.replace("\n", "")
                info = info.replace("\xa0", "")
                director = re.findall(r'[导演:].+[主演:]', info)[0]
                director = director[4:len(director) - 3]
                movie['director'] = director
                try:
                    role = re.findall(r'主.+', info)[0]
                    role = role[4:]
                except IndexError:
                    role = ''
                movie['role'] = role
                plot = each.xpath('.//div/div[2]/div[2]/p[1]/text()[2]')[0].strip()
                plot = plot.replace("\xa0", "")
                movie['plot'] = plot
                star = each.xpath('.//div/div[2]/div[2]/div/span[2]/text()')[0]
                movie['star'] = star
                try:
                    comment = each.xpath('.//div/div[2]/div[2]/p[2]/span/text()')[0]
                except IndexError:
                    comment = ''
                movie['comment'] = comment
                movies.append(movie)
                self.f.write(str(movie)+'\n')
                print(movie)
    def run(self):
        self.start()
        self.f.close()
if __name__ == '__main__':
    spider = doubanSpider()
    spider.run()

一个豆瓣电影Top250爬虫的更多相关文章

[Python] 豆瓣电影top250爬虫
1.分析 <li><div class="item">电影信息</div></li> 每个电影信息都是同样的格式,毕竟在服务器端是用 ...
记一次python爬虫实战，豆瓣电影Top250爬虫
import requests from bs4 import BeautifulSoup import re import traceback def GetHtmlText(url): for i ...
练习：一只豆瓣电影TOP250的爬虫
练习:一只豆瓣电影TOP250爬虫练习:一只豆瓣电影TOP250爬虫 ①创建project ②编辑items.py import scrapyclass DoubanmovieItem(scrapy ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...
一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用
学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python requests的使用. 1.准备工作在pycharm中安装request库 ...
Scrapy爬虫（4）爬取豆瓣电影Top250图片
在用Python的urllib和BeautifulSoup写过了很多爬虫之后,本人决定尝试著名的Python爬虫框架--Scrapy. 本次分享将详细讲述如何利用Scrapy来下载豆瓣电影To ...
python爬虫 Scrapy2-- 爬取豆瓣电影TOP250
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...
Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
Python爬虫入门：爬取豆瓣电影TOP250
一个很简单的爬虫. 从这里学习的,解释的挺好的:https://xlzd.me/2015/12/16/python-crawler-03 分享写这个代码用到了的学习的链接: BeautifulSoup ...

随机推荐

3┃音视频直播系统之浏览器中通过 WebRTC 直播视频实时录制回放下载
一.录制分类在音视频会议.在线教育等系统中,录制是一个特别重要的功能录制一般分为服务端录制和客户端录制服务端录制:优点是不用担心客户因自身电脑问题造成录制失败(如磁盘空间不足),也不会因录制时抢 ...
Asp.Net Core 7 preview 4 重磅新特性--限流中间件
前言限流是应对流量暴增或某些用户恶意攻击等场景的重要手段之一,然而微软官方从未支持这一重要特性,AspNetCoreRateLimit这一第三方库限流库一般作为首选使用,然而其配置参数过于繁多,对使 ...
如何利用 React Hooks 管理全局状态
如何利用 React Hooks 管理全局状态本文写于 2020 年 1 月 6 日 React 社区最火的全局状态管理库必定是 Redux,但是 Redux 本身就是为了大型管理数据而妥协设计的- ...
一文学会Java的交互式编程环境jshell
什么是交互式编程环境?重点词交互,在这样的编程环境中,你每输入一行代码,环境都会给你一个反馈,这就是交互式的编程环境.这种编程环境并不太适合工程化的复杂性需求,但在一些快速验证.简单计算之类的场景下还 ...
什么！Sentinel流控规则可以这样玩？
项目源码地址:公众号回复 sentinel,即可免费获取源码前言上一篇文章中,我们讲解了关于sentinel基本介绍以及流控规则中直接和快速失败的效果,有兴趣的可以去看上一篇文章,今天,我们给大家 ...
20212115 实验三《python程序设计》实验报告
实验报告 20212115<python程序设计>实验三报告课程:<Python程序设计>班级: 2121姓名: 朱时鸿学号:20212115实验教师:王志强老师实验日期:2 ...
《Unix 网络编程》08：基本UDP套接字编程
基本UDP套接字编程系列文章导航:<Unix 网络编程>笔记 UDP 概述流程图 recvfrom 和 sendto #include <sys/socket.h> ssi ...
绿色城市智慧运营：Web 3D 垃圾分类 GIS 系统
前言感谢所有为上海疫情奉献的人,祈求上海疫情早日清零,中国加油,上海加油! <上海市生活垃圾管理条例>施行至今已有两年多,上海市民践行绿色低碳理念.主动参与生活垃圾分类的习惯基本养成,分 ...
python封装发送邮件类
import smtplib from email.mime.text import MIMEText from email.mime.multipart import MIMEMultipart i ...
【JNPF修改通告】fastjson≤1.2.80反序列化漏洞
近日Fastjson Develop Team 发现 fastjson 1.2.80及以下存在新的风险,存在反序列化漏洞.攻击者可绕过默认autoType关闭限制,攻击远程服务器,风险影响较大,请大家 ...

一个豆瓣电影Top250爬虫

一个爬虫

模块

代码

一个豆瓣电影Top250爬虫的更多相关文章

随机推荐

热门专题