python多线程简单爬虫

爬虫本质就是将网站或者接口的数据经过筛选后按需求保存

这里实现一个简单爬虫仅供参考

import requests

import bs4

import threading

import queue

import os

class GetWebAndHandle(threading.Thread):

    status = {

        'work': True,

        'path': 'your-path',

        'suffix': '.html'

    }

    headers = {

        'User-Agent': 'your-agent',

        'Host': 'www.baidu.com'

    }

    def __init__(self, kw, page_que):

        super(GetWebAndHandle, self).__init__()

        self.page_que = page_que

        self.url = 'https://www.baidu.com/s?wd=' + kw + '&pn='

        self.file_path_name = self.status['path'] + self.name + self.status['suffix']

    def run(self):

        if os.path.isfile(self.file_path_name):

            os.remove(self.file_path_name)

        while self.status['work']:

            try:

                url = self.url + self.page_que.get(False)

                response = requests.get(url, headers=self.headers)

                self.handle(response.text)

            except queue.Empty:

                self.status['work'] = False

    def handle(self, response):

        soup = bs4.BeautifulSoup(response)

        sifted = soup.find_all('div', 'result c-container ')

        with open(self.file_path_name, mode='ab') as file:

            for sift in sifted:

                file.write(sift.encode('utf-8'))

            file.write(('-=-' * 30).encode('utf-8'))

if __name__ == '__main__':

    # ssl._create_default_https_context = ssl._create_unverified_context()

    kw = input('输入关键字')

    t_num = min(max(int(input('需要的线程数')), 1), 4)

    p_num = min(max(int(input('需要的页数')), 1), 20)

    page_que = queue.Queue(p_num)

    for p in range(p_num):

        page_que.put(str(p) + '')

    thread_list = []

    for i in range(t_num):

        spider_thread = GetWebAndHandle(kw, page_que)

        spider_thread.start()

        thread_list.append(spider_thread)

python多线程简单爬虫的更多相关文章

Python开发简单爬虫 - 慕课网
课程链接:Python开发简单爬虫环境搭建: Eclipse+PyDev配置搭建Python开发环境 Python入门基础教程用Eclipse编写Python程序课程目录第1章课程介绍 ...
python多线程简单例子
python多线程简单例子作者:vpoet mail:vpoet_sir@163.com import thread def childthread(threadid): print "I ...
Python开发简单爬虫
简单爬虫框架: 爬虫调度器 -> URL管理器 -> 网页下载器(urllib2) -> 网页解析器(BeautifulSoup) -> 价值数据 Demo1: # codin ...
python实现简单爬虫抓取图片
最近在学习python,正如大家所知,python在网络爬虫方面有着广泛的应用,下面是一个利用python程序抓取网络图片的简单程序,可以批量下载一个网站更新的图片,其中使用了代理IP的技术. imp ...
Python开发简单爬虫（一）
一 .简单爬虫架构: 爬虫调度端:启动爬虫,停止爬虫,监视爬虫运行情况 URL管理器:对将要爬取的和已经爬取过的URL进行管理:可取出带爬取的URL,将其传送给“网页下载器” 网页下载器:将URL指定 ...
Python做简单爬虫（urllib.request怎么抓取https以及伪装浏览器访问的方法）
一:抓取简单的页面: 用Python来做爬虫抓取网站这个功能很强大,今天试着抓取了一下百度的首页,很成功,来看一下步骤吧首先需要准备工具: 1.python:自己比较喜欢用新的东西,所以用的是Pyt ...
Python多线程在爬虫中的应用
题记:作为测试工程师经常需要解决测试数据来源的问题,解决思路无非是三种:(1)直接从生产环境拷贝真实数据 (2)从互联网上爬取数据 (3)自己用脚本或者工具造数据.前段时间,为了获取更多的测试数据,笔 ...
教你如何入手用python实现简单爬虫微信公众号并下载视频
主要功能如何简单爬虫微信公众号获取信息:标题.摘要.封面.文章地址自动批量下载公众号内的视频一.获取公众号信息:标题.摘要.封面.文章URL 操作步骤: 1.先自己申请一个公众号 2.登录自己 ...
python实现简单爬虫功能
在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌面壁纸,或者用来做设计的素材. 我们最常规的做法就是通过鼠标右键,选择另存为.但有些图片鼠标右键的 ...

随机推荐

有关导出Excel特殊字符的问题
在导出Excel的时候,如果在一个单元格的最前面有一个双引号(英文状态下),这个单元格一定要将其关闭这个双引号,否则会自动向下匹配同列单元格的双引号,从而导致串行,出现错误数据
mail语法
在Linux系统下mail命令的用法在Linux系统下mail命令的测试 1. 最简单的一个例子: mail -s test admin@aispider.com 这条命令的结果是发一封标题为tes ...
python学习2：turtle的使用蟒蛇绘制的学习以及自己摸索的等边三角形绘制（跟随mooc学习）
首先先放上蟒蛇的绘制程序 import turtle#引入外部库#def保留字用于定义函数 def drawSnake(rad,angle,len,neckrad): for i in range( ...
【SpringBoot】Logback日志框架介绍和SpringBoot整合实战
========================11.Logback日志框架介绍和SpringBoot整合实战 2节课================================ 1.新日志框架L ...
【转载】Win10系统桌面右键新建没有Word、Excel、PPT怎么恢复？
Win10系统桌面右键新建没有Word.Excel.PPT怎么恢复? 以下正文转载至: 网址:http://www.xitongzhijia.net/xtjc/20170307/93471.html ...
nginx的白名单
为nginx设置白名单的几个步骤: 第一步:指定能访问的白名单 vim /etc/nginx/ip.conf (如果在公司,记得这里是外网IP,要不然测很久都不知道为什么不行) ; 第二步 ...
关于java做题时需要注意的事项
1.要熟悉eclipse的使用 2.用java提交时只能有一个public class 且类名只能为Main 3.提交时不能提交包名 4.提交时要将引入的包一起提交 5.虽然java提供了很多的函数, ...
c++11 关于typelist的foreach
建好一个typelist,其中都是类型信息而已,很重要的一个应用,循环迭代干些事情. 看了下boost的for_each实现,用我自己的typelist,大概代码如下: template<typ ...
ftp 和vsftp
内置sftp:https://blog.csdn.net/xinxin19881112/article/details/46831311 vsftp:http://blog.51cto.com/cui ...
Node核心模块
在Node中,模块主要分两大类:核心模块和文件模块.核心模块部分在 Node 源代码的编译过程中,编译进了二进制执行文件.在 Node 进启动时,部分核心模块就被直接加载进内存中,所以这部分核心模块引 ...

python多线程简单爬虫

python多线程简单爬虫的更多相关文章

随机推荐

热门专题