Python 爬虫个人记录（一）豆瓣电影250

一、爬虫环境

Python3.6
scrapy1.4
火狐浏览器
qq浏览器

二、scrapy shell 测试并获取 xpath

1、进入scrapy shell

2 、获取html

fetch('https://movie.douban.com/top250')

DEBUG: Crawled (403) GET https://movie.douban.com/top250访问失败
失败原因：豆瓣250拒绝爬虫访问
解决方案：为访问添加header,伪装成浏览器访问
浏览器header参考位置

scrapy shell 添加header参考：http://blog.csdn.net/qq_30242609/article/details/54581674

$ scrapy shell

...

>>> from scrapy import Request

>>> req = Request('yoururl.com', headers={'User-Agent':'Mozilla/5.0'}) 

>>> fetch(req)

如下

成功获取网页
使用qq浏览器 ‘查看元素’ 获取所需元素的xpath（火狐浏览器查看方法自行搜索）

得到

*[@id=”content”]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/span[1]

response.xpath(‘//*[@id=”content”]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/span[1]/text()’).extract()

类比分析网页得到电影名字：

Xpath = ‘//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[1]/a/span[1]/text()’

在shell中验证结果

验证通过，在shell中已经得到了所需xpath

三、编写python代码

1、分析豆瓣250网址
https://movie.douban.com/top250?start=0&filter=
https://movie.douban.com/top250?start=25&filter=
https://movie.douban.com/top250?start=25&filter=
.
.
.

得到需要打开的网址表达式

for i in range(10):

        page_url = 'https://movie.douban.com/top250?start=' + str(i*25) + '&filter='

2、如何在python中运用xpath（）筛选数据

from lxml import etree

#html 为urllib.request.urlopen(url).read()文本

html = url_open(page_url)

        selector = etree.HTML(html)

        result = selector.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[1]/a/span[1]/text()')

至此已经获得了xpath路径，爬虫网址源代码已经没有难度了

3 源代码参考

import urllib.request

import os

from lxml import etree

#打开一个网页操作

def url_open(url):

    req = urllib.request.Request(url)

    req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.3226.400 QQBrowser/9.6.11681.400')

    response = urllib.request.urlopen(url)

    html = response.read()

    return html

#找到数据进行xpath分析

def find_urls(page = 1):

    result_data = []

    file_urls = []

    url = 'https://movie.douban.com/top250?start=0&filter='

    for i in range(10):

        page_url = 'https://movie.douban.com/top250?start=' + str(i*25) + '&filter='

        html = url_open(page_url)

        selector = etree.HTML(html)

        result = selector.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[1]/a/span[1]/text()')

        for each in result:

            result_data.append(each)

    return result_data

#将数据保存在本地

def save(name):

    file_name = '豆瓣250.txt'

    with open(file_name, 'w') as f:

        for each in name:

            f.write(each)

            f.write('\n')

            print(each)    

if __name__ == '__main__':

    name = find_urls()

    save(name)

4、爬虫结果

四、总结

1、获取xpath
2、获取爬虫网址
3、编写python代码

五、最后说两句

第一次编写教程，也是边学边写写，第一次教程会稍微啰嗦点，后面较复杂的会尽量写的简洁易懂些。

Python 爬虫个人记录（一）豆瓣电影250的更多相关文章

python爬虫--用xpath爬豆瓣电影
步骤将目标网站下的页面抓取下来将抓取下来的数据根据一定规则进行提取具体流程将目标网站下的页面抓取下来 1. 倒库 import requests 2.头信息(有时候可不写) headers ...
Python爬虫个人记录（三）爬取妹子图
这此教程可能会比较简洁,具体细节可参考我的第一篇教程: Python爬虫个人记录(一)豆瓣250 Python爬虫个人记录(二)fishc爬虫一.目的分析获取煎蛋妹子图并下载 http://jan ...
Python爬虫个人记录（二）获取fishc 课件下载链接
参考: Python爬虫个人记录(一)豆瓣250 (2017.9.6更新,通过cookie模拟登陆方法,已成功实现下载文件功能!!) 一.目的分析获取http://bbs.fishc.com/for ...
第一个nodejs爬虫：爬取豆瓣电影图片
第一个nodejs爬虫:爬取豆瓣电影图片存入本地: 首先在命令行下 npm install request cheerio express -save; 代码: var http = require( ...
Python爬虫之多线程下载豆瓣Top250电影图片
爬虫项目介绍本次爬虫项目将爬取豆瓣Top250电影的图片,其网址为:https://movie.douban.com/top250, 具体页面如下图所示: 本次爬虫项目将分别不使用多线程和使 ...
Python爬虫入门教程：豆瓣Top电影爬取
基本开发环境 Python 3.6 Pycharm 相关模块的使用 requests parsel csv 安装Python并添加到环境变量,pip安装需要的相关模块即可. 爬虫基本思路一. ...
爬虫——正则表达式爬取豆瓣电影TOP前250的中英文名
正则表达式爬取豆瓣电影TOP前250的中英文名 1.首先要实现网页的数据的爬取.新建test.py文件 test.py 1 import requests 2 3 def get_Html_text( ...
一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用
学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python requests的使用. 1.准备工作在pycharm中安装request库 ...
Python爬虫实践 -- 记录我的第二只爬虫
1.爬虫基本原理我们爬取中国电影最受欢迎的影片<红海行动>的相关信息.其实,爬虫获取网页信息和人工获取信息,原理基本是一致的. 人工操作步骤: 1. 获取电影信息的页面 2. 定位(找到 ...

随机推荐

bzoj千题计划145：bzoj3262: 陌上花开
http://www.lydsy.com/JudgeOnline/problem.php?id=3262 三维偏序第一维排序,第二维CDQ分治,第三维树状数组 #include<cstdio& ...
51 nod 1046 A^B Mod C
1046 A^B Mod C 基准时间限制:1 秒空间限制:131072 KB 分值: 0 难度:基础题收藏关注给出3个正整数A B C,求A^B Mod C. 例如,3 5 8,3^ ...
[Baltic2009]Radio Transmission
bzoj 1355: [Baltic2009]Radio Transmission http://www.lydsy.com/JudgeOnline/problem.php?id=1355 Time ...
[Luogu 3398] 仓鼠找sugar
[Luogu 3398] 仓鼠找sugar 又是 LCA- 前两天死活写不过的一个题今天终于顺手切了. 思路嘛参考了一楼题解. 就是说,对于 a, b, c, d 四个点, 令 x = LCA(a, ...
网页制作中最有用的免费Ajax和JavaScript代码库
网上看到的一篇小文,挺有用的,收藏在这. 本文中,我整理了12个免费的Ajax和JavaScript代码库,可以帮助Web开发人员将应用程序提升到一个新水平. Ajax Instant Messeng ...
CodeForces 816C 思维
On the way to school, Karen became fixated on the puzzle game on her phone! The game is played as fo ...
Ubuntu 14.04 + xRDP + Xfce 实现Windows远程桌面连接
1. 安装xRDP及vncserver sudo apt-get install xrdp sudo apt-get install vnc4server tightvncserver 2. 安装Xf ...
Redis简介——（一）
1．关于关系型数据库和nosql数据库关系型数据库是基于关系表的数据库,最终会将数据持久化到磁盘上,而nosql数据库是基于特殊的结构,并将数据存储到内存的数据库.从性能上而言,nosql数据库 ...
C++面试常见问题
转载:https://zhuanlan.zhihu.com/p/34016871?utm_source=qq&utm_medium=social 1.在C++ 程序中调用被C 编译器编译后的函 ...
js实现ctrl+v粘贴图片或是截图
浏览器环境:谷歌浏览器 1.ctrl+v粘贴图片都是监听paste时间实现的,复制的数据都存在clipboardData下面,虽然打印显示数据长度为0,但是还是可以获取数据的 2.打印clipboar ...