链家网 + gevent

import gevent

from gevent import monkey

monkey.patch_all()

from gevent.queue import Queue

import time

import os

import requests

import re

start = time.perf_counter()

work = Queue()

# for i in range(1,101):

#     url = f'https://sh.fang.lianjia.com/loupan/pg{i}/'

#     print(url)

#     work.put_nowait(url)

url = 'https://sh.fang.lianjia.com/loupan/pg{}/'

url_list = (url.format(i) for i in range(1,101))

[work.put_nowait(url) for url in url_list]

info_set = set()

def spider():

    while not work.empty():

        url = work.get_nowait()

        res = requests.get(url).text

        title = re.findall('<a href="/loup.*?itle="(.*?)"'

                           '.*?<div class="resb.*?<span>(.*?)</span>'

                           '.*?<span>(.*?)</span>'

                           '.*?<span class="number">(.*?)</span>'

                           '.*?<span class="desc">&nbsp;(.*?)</span>',res,re.S)

        for i in title:

            info_set.add(i)

tasks = []

for x in range(200):

    task = gevent.spawn(spider)

    tasks.append(task)

gevent.joinall(tasks,timeout=6)

for i,n in enumerate(info_set):

    title = f'标题：  {n[0]}'

    addr = f'地区：  {n[1]}{n[2]}'

    price = f'价格：  {n[3]}{n[4]}'

    print(f"""

    {i}

    {title}

    {addr}

    {price}

    """)

    with open('./lianjie.cvs','a',encoding='utf-8') as f:

        f.writelines([title,addr,price,'\n'])

        print('写入完成')

print(time.perf_counter()-start)

链家网 + gevent的更多相关文章

分享系列--面试JAVA架构师--链家网
本月7日去了一趟链家网面试,虽然没有面上,但仍有不少收获,在此做个简单的分享,当然了主要是分享给自己,让大家见笑了.因为这次是第一次面试JAVA网站架构师相关的职位,还是有些心虚的,毕竟之前大部分时间 ...
Scrapy实战篇（一）之爬取链家网成交房源数据（上）
今天,我们就以链家网南京地区为例,来学习爬取链家网的成交房源数据. 这里推荐使用火狐浏览器,并且安装firebug和firepath两款插件,你会发现,这两款插件会给我们后续的数据提取带来很大的方便. ...
python链家网高并发异步爬虫asyncio+aiohttp+aiomysql异步存入数据
python链家网二手房异步IO爬虫,使用asyncio.aiohttp和aiomysql 很多小伙伴初学python时都会学习到爬虫,刚入门时会使用requests.urllib这些同步的库进行单线 ...
TOP100summit：【分享实录】链家网大数据平台体系构建历程
本篇文章内容来自2016年TOP100summit 链家网大数据部资深研发架构师李小龙的案例分享. 编辑:Cynthia 李小龙:链家网大数据部资深研发架构师,负责大数据工具平台化相关的工作.专注于数 ...
Python的scrapy之爬取链家网房价信息并保存到本地
因为有在北京租房的打算,于是上网浏览了一下链家网站的房价,想将他们爬取下来,并保存到本地. 先看链家网的源码..房价信息都保存在 ul 下的li 里面爬虫结构: 其中封装了一个数据库处理模 ...
使用python抓取并分析数据—链家网(requests+BeautifulSoup)（转）
本篇文章是使用python抓取数据的第一篇,使用requests+BeautifulSoup的方法对页面进行抓取和数据提取.通过使用requests库对链家网二手房列表页进行抓取,通过Beautifu ...
python链家网高并发异步爬虫and异步存入数据
python链家网二手房异步IO爬虫,使用asyncio.aiohttp和aiomysql 很多小伙伴初学python时都会学习到爬虫,刚入门时会使用requests.urllib这些同步的库进行单线 ...
Pyspider爬虫简单框架——链家网
pyspider 目录 pyspider简单介绍 pyspider的使用实战 pyspider简单介绍一个国人编写的强大的网络爬虫系统并带有强大的WebUI.采用Python语言编写,分布式架构, ...
Scrapy实战篇（九）之爬取链家网天津租房数据
以后有可能会在天津租房子,所以想将链家网上面天津的租房数据抓下来,以供分析使用. 思路: 1.以初始链接https://tj.lianjia.com/zufang/rt200600000001/?sh ...

随机推荐

「雕爷学编程」Arduino动手做（21）——激光开关模块
37款传感器与模块的提法,在网络上广泛流传,其实Arduino能够兼容的传感器模块肯定是不止37种的.鉴于本人手头积累了一些传感器和模块,依照实践出真知(一定要动手做)的理念,以学习和交流为目的,这里 ...
剑指Offer01之二维数组中查找目标数
剑指Offer之二维数组中查找目标数题目描述在一个二维数组中(每个一维数组的长度相等),每一行都是从左到右递增的顺序排序,每一列都是从上到下递增的顺序排序,输入这样一个二维数组和一个整数,判断 ...
MySQL事务隔离之MVCC版本控制
MVCC简介 MVCC是一种多版本并发控制机制. MVCC是为了解决什么问题? 大多数的MYSQL事务型存储引擎,如,InnoDB,Falcon以及PBXT都不使用一种简单的行锁机制.事实上,他们都和 ...
爬虫之图片懒加载技术、selenium工具与PhantomJS无头浏览器
图片懒加载技术 selenium爬虫简单使用 2.1 selenium简介 2.2 selenium安装 2.3 selenium简单使用 2.3.1 selenium使用案例 2.3.2 selen ...
PHP非常用函数汇总
1) ARRAY_FILTER — 用回调函数过滤数组中的单元 function odd ( $var ) { // returns whether the input integer i ...
MySQL的CHAR 和 VARCHAR的区别
CHAR 和 VARCHAR 类型,CHAR 列的长度固定, VARCHAR 列中的值为可变长字符串.在检索的时候,CHAR 列删除了尾部的空格,而 VARCHAR 则保留这些空格s
[CSS工具推荐]0001.推荐 10 个超棒的 CSS3 代码生成工具
引言:新的在线工具和 WebApp 帮助开发者快速地创建网站而不用写代码.前端开发已经在框架和代码库方面有了很大的进展. 现在许多开发者已经忘记了代码生成器在构建网站时的价值.下面的资源是完全免费的 ...
html5学习之路_007
CSS概述 CSS指层叠样式表 CSS样式表极大地提高了工作效率 CSS基础语法 selector { property:value } 例:hi {color:red; font-size:14px ...
# # # Vue的分环境打包
我们使用Vue-cli的默认环境是只有dev和prod两种环境,在开发中我们的项目一般是开发版.测试版.pre版.Prod版.我们一般是在源码中API地址中修改后然后打包. ###1.首先安装cros ...
VUE源码解析心得
解读vue源码比较好奇的几个点: VUE MVVM 原理 http://www.cnblogs.com/guwei4037/p/5591183.html https://cn.vuejs.org/v2 ...

链家网 + gevent

链家网 + gevent的更多相关文章

随机推荐

热门专题