Python 多进程爬虫实例

import json

import re

import time

from multiprocessing import Pool

import requests

from requests.exceptions import RequestException

from bs4 import BeautifulSoup

def get_one_page(url):

    try:

        response = requests.get(url)

        if response.status_code == 200:

            return response.text

        return None

    except RequestException:

        return None

def parse_one_page(html):

    data_list = []

    soup = BeautifulSoup(html, "lxml")

    index_list = soup.select('i.board-index')

    img_list = [x['data-src'] for x in soup.findAll('img', {'class': 'board-img'})]

    name_list = soup.select('p.name')

    actor_list = soup.select('p.star')

    time_list = soup.select('p.releasetime')

    score_list = soup.select('p.score')

    for i in range(len(index_list)):

        data_list.append({

            'index': index_list[i].get_text(),

            'image': img_list[i],

            'title': name_list[i].get_text(),

            'actor': actor_list[i].get_text().strip(),

            'time': time_list[i].get_text(),

            'score': score_list[i].get_text()

        })

    return data_list

def write_to_file(content):

    with open('resul1t.txt', 'a', encoding='utf-8') as f:

        f.write(json.dumps(content, ensure_ascii=False) + '\n')

        f.close()

def main(offset_list):

    for offset in offset_list:

        url = 'http://maoyan.com/board/4?offset=' + str(offset)

        html = get_one_page(url)

        if html:

            for item in parse_one_page(html):

                write_to_file(item)

if __name__ == '__main__':

    # pool = Pool()

    # pool.map(main, [i * 10 for i in range(10)])

    # pool.close()

    # pool.join()

    # main(1)

    offset_list = list(range(0, 100, 10))  # 多进程

    p = Pool()

    for index in range(5):

        p.apply_async(main, args=(offset_list[index * 2:(index + 1) * 2],))

    p.close()

    p.join()

Python 多进程爬虫实例的更多相关文章

python 多线程爬虫实例
多进程 Multiprocessing 模块 Process 类用来描述一个进程对象.创建子进程的时候,只需要传入一个执行函数和函数的参数即可完成 Process 示例的创建. star() 方法启动 ...
python多进程通信实例分析
操作系统会为每一个创建的进程分配一个独立的地址空间,不同进程的地址空间是完全隔离的,因此如果不加其他的措施,他们完全感觉不到彼此的存在.那么进程之间怎么进行通信?他们之间的关联是怎样的?实现原理是什么 ...
python scrapy 爬虫实例
1 创建一个项目 scrapy startproject basicbudejie 2 编写爬虫 import scrapy class Basicbudejie(scrapy.Spider): na ...
Python小爬虫实例
有几个注意点: # -*- coding: utf-8 -*- # func passport jw.qdu.edu.cn import re import urllib# python3后urlli ...
python 微信爬虫实例
单线程版: import urllib.request import urllib.parse import urllib.error import re,time headers = (" ...
Python 爬虫实例
下面是我写的一个简单爬虫实例 1.定义函数读取html网页的源代码 2.从源代码通过正则表达式挑选出自己需要获取的内容 3.序列中的htm依次写到d盘 #!/usr/bin/python import ...
Python多进程并发(multiprocessing)用法实例详解
http://www.jb51.net/article/67116.htm 本文实例讲述了Python多进程并发(multiprocessing)用法.分享给大家供大家参考.具体分析如下: 由于Pyt ...
Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取
很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面右边 li 标签中的就是短 ...
Python爬虫实例：爬取猫眼电影——破解字体反爬
字体反爬字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...

随机推荐

PHP的SPL标准库
1,简介 SPL,全称 Standard PHP Library 中文是标准PHP类库.是php内置的一些拓展类和拓展接口,其内容包含数据结构.迭代器.接口.异常.SPL函数,文件处理等内容.SPL ...
Ansible入门笔记（2）之常用模块
目录 Ansible常用模块 1.1.Ansible Ad-hoc 1.2.Ansible的基础命令 1.3.常用模块 Ansible常用模块 1.1.Ansible Ad-hoc 什么事ad-hoc ...
JAVA分页工具类
最近写了一个代码生成工具,分享下该工具下的分页工具一.分页工具类 package com.qy.code.api.page; import java.io.Serializable; import ...
《linux就该这么学》课堂笔记09 存储结构、磁盘划分
Linux一切都是文件 "/"为根目录(万物起始) **挂载后要想永久生效,需要修改开机启动项 vim /etc/fstab
微服务框架---搭建 go-micro环境
1.安装micro 需要使用GO1.11以上版本 #linux 下 export GO111MODULE=on export GOPROXY=https://goproxy.io # windows下 ...
git使用过程中的若干问题笔记
1.关于本地分支创建之后,如何在远程创建同名分支并完成本地分支到远程分支的push 首先创建本地库分支以dev为例然后输入命令git push --set-upstream origin dev / ...
pandas的pivot_table
参考文献: [1]pivot_table
TensorFlow之estimator详解
Estimator初识框架结构在介绍Estimator之前需要对它在TensorFlow这个大框架的定位有个大致的认识,如下图示: 可以看到Estimator是属于High level的API,而 ...
ArcGIS Server 注册托管数据库
需要已经安装好ArcGIS for Desktop.ArcGIS for Server和ArcSDE,并且已经创建了地理数据库我试了用管理网站添加,总是不成功,后来用ArcCatalog添加成功.这 ...
js的原型与模板类型
原型处于复用(原型)链上: 模版类型属于构造概念: 对象复用原型的数据和函数: 对象由模版类型+原型构造而成: 模版类型属于构造对象的临时变量,包含了对象空间的所有信息: 原型包含了对象所引用的原型空 ...

Python 多进程爬虫实例

Python 多进程爬虫实例的更多相关文章

随机推荐

热门专题