豆瓣爬虫小记(lowB版)

爬虫小记

看了python正则知识之后，可以利用正则知识学学网络爬虫。

需求分析

按照自己平时浏览的网页，留意下哪个网页的信息对自己有价值，分析要爬取哪些网页信息。这里我先爬取简单的静态网页，豆瓣网经典电影排名及详细信息。

爬取目标信息：排名，电影名，导演，评分，评价人数

具体步骤

设计下载html网页的函数
设计正则规则
存储爬取信息

#!/usr/bin/env python

#coding:utf8

import requests

import re

import json

def download():

        response = requests.get(url.format(page=p*25))

        res = response.text

        return res

def spider_dpuban():

    get_html = download()

    obj = re.compile('<div class="item">.*?<em class="">(?P<id>.*?)</em>.*?<span class="title">(?P<title>.*?)</span>'

                     '.*?<p class="">.*?导演:(?P<director>.*?)&nbsp.*?</p>.*?<span class="rating_num".*?>(?P<num>.*?)</span>.*?<span>(?P<comment>.*?)人评价</span>',

                     re.S)

    res = obj.finditer(get_html)

    title = ('排名','电影名','导演','评分','评价人')

    with open('douban', 'a', encoding='utf-8') as f:

        for i in res:

            dic = dict(zip(title, i.group('id', 'title', 'director', 'num', 'comment')))

            wr = json.dumps(dic,ensure_ascii=False)

            f.write(wr + '\n')

url = 'https://movie.douban.com/top250?start={page}&filter='

for p in range(10):

    spider_dpuban()

with open('douban', 'r', encoding='utf-8') as f:

    for i in f:

        i = json.loads(i)

        print(i)

心得

回头来看，这个程序还是比较挫，扩展性不好，结构也一般。不过最终看到结果也还是挺兴奋，只有等以后有时间慢慢完善了。先记录下来吧。

豆瓣爬虫小记(lowB版)的更多相关文章

spider-web 是爬虫的网页版，使用xml配置
spider-web 是爬虫的网页版,使用xml配置,支持大部分页面的爬取,支持爬取内容的保存.下载等. 其中配置文件格式为: ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 ...
【python】理想论坛爬虫长贴版1.00
理想论坛有些长贴,针对这些长贴做统计可以知道某ID什么时段更活跃. 爬虫代码为: #---------------------------------------------------------- ...
【pyhon】理想论坛爬虫1.05版，将读取和写DB分离成两个文件
下午再接再厉仿照Nodejs版的理想帖子爬虫把Python版的也改造了下,但美中不足的是完成任务的线程数量似乎停滞在100个左右,让人郁闷.原因还待查. 先把代码贴出来吧,也算个阶段性成果. 爬虫代码 ...
nodejs豆瓣爬虫
从零开始nodejs系列文章,将介绍如何利Javascript做为服务端脚本,通过Nodejs框架web开发.Nodejs框架是基于V8的引擎,是目前速度最快的Javascript引擎.chrome浏 ...
【收藏】收集的各种Python爬虫、暗网爬虫、豆瓣爬虫、抖音爬虫 Github1万+星
收集的各种Python爬虫.暗网爬虫.豆瓣爬虫 Github 1万+星磁力搜索网站2020/01/07更新 https://www.cnblogs.com/cilisousuo/p/1209954 ...
豆瓣爬虫Scrapy“抄袭”改写
主要是把项目从docker里面扒拉出来,但是扒拉完好像又没有什么用,放在docker里面运行多好. 源码下载下面主要记一下改动的地方吧. 配置:在database.py中改掉自己的数据库配置. 表结构 ...
豆瓣爬虫——通过json接口获取数据
最近在复习resqusts 爬虫模块,就重新写了一个豆瓣爬虫,这个网页从HTML 源码上来看是没有任何我想要的信息的,如下图所示: 这是网页视图,我在源码中查找影片信息,没有任何信息,如图: 由此我判 ...
豆瓣top250（go版以及python版）
最近学习go,就找了一个例子练习[go语言爬虫]go语言爬取豆瓣电影top250,思路大概就是获取网页,然后根据页面元素,用正则表达式匹配电影名称.评分.评论人数.原文有个地方需要修改下patte ...
Shell终端收听音乐--豆瓣FM命令行版
douban.fm Terminal-based douban.fm inspired by douban.fm.该版本版基于Python2.* 安装Python2.* pacman -S pytho ...

随机推荐

reduce 方法 (Array) (JavaScript)
对数组中的所有元素调用指定的回调函数.该回调函数的返回值为累积结果,并且此返回值在下一次调用该回调函数时作为参数提供. 语法 array1.reduce(callbackfn[, in ...
ZOJ 1403&&HDU 1015 Safecracker【暴力】
Safecracker Time Limit: 2 Seconds Memory Limit: 65536 KB === Op tech briefing, 2002/11/02 06:42 ...
BZOJ 1029: [JSOI2007]建筑抢修【优先队列+贪心策略】
1029: [JSOI2007]建筑抢修 Time Limit: 4 Sec Memory Limit: 162 MBSubmit: 4810 Solved: 2160[Submit][Statu ...
UVa 10341 - Solve It【经典二分，单调性求解】
原题: Solve the equation: p*e-x + q*sin(x) + r*cos(x) + s*tan(x) + t*x2 + u = 0 where ...
ACM_扩展欧几里德算法
<pre name="code" class="cpp">/* 扩展欧几里德算法基本算法:对于不完全为 0 的非负整数 a,b,gcd(a,b)表 ...
HDU--1060
Leftmost Digit Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others) T ...
关于WPF添加右击ContextMeun,以及获取所绑定控件的源
今天在公司给公司做一个门禁软件,其中有一个添加员工的功能,功能已经做好,但是页面的右边是一个treeView控件,于是我想到再添加员工后,可以在treeview上的部门的TreeViewWithIco ...
return机制
C/C++中,函数内部的一切变量(函数内部局部变量,形参 )都是在其被调用时才被分配内存单元.子函数运行结束时,所有局部变量的内存单元会被系统释放.形参和函数内部的局部变量的生命期和作用域都是在函数内 ...
2017年 JavaScript 框架回顾 -- React生态系统
前一篇文章中,我们介绍了2017年 JavaScript 框架的整体情况.我们也了解到在众多的前端框架中,目前最为庞大又在快速增长的当属 React 了,本文就来重点介绍 React 的生态系统. 首 ...
Flask连接数据库打怪升级之旅
一.前言在初学 Flask 的时候,在数据库连接这部分也跟每个初学者一样.但是随着工作中项目接手的多了,代码写的多了,历练的多了也就有了自己的经验和技巧.在对这块儿代码不断的进行升级改造后,整理了在 ...

豆瓣爬虫小记(lowB版)

爬虫小记

需求分析

具体步骤

心得

豆瓣爬虫小记(lowB版)的更多相关文章

随机推荐

热门专题