l线程池抓取lianjia

1. 线程池的应用

from multiprocessing.dummy import Pool

import requests

from lxml import etree

url="https://sz.lianjia.com/ershoufang/co32/"

# url="https://sz.lianjia.com/ershoufang/pg2co32/"

from multiprocessing.dummy import Pool

headers = {

        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36',

}

import pymongo

res = requests.get(url=url,headers=headers)

class Ljia():

    def __init__(self):

        self.start_url ="https://sz.lianjia.com/ershoufang/co32/"

        self.headers ={

        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36',

            }

        self.client = pymongo.MongoClient()

        self.collention = self.client.Ljia.lianjia

    def get_content(self,url):

        # 提取数据

        html = requests.get(url,headers=self.headers)

        tree = etree.HTML(html.text)

        li_list=tree.xpath('//ul[@class="sellListContent"]/li')

        for li in li_list:

            item={}

            item['title'] =li.xpath(".//div[@class='title']/a/text()")[0]

            item['detail_url'] = li.xpath(".//div[@class='houseInfo']/a/@href")[0]

            item['houseInfo'] =li.xpath(".//div[@class='houseInfo']//text()")

            item['houseInfo'] =[i.strip() for i in item['houseInfo'] if i.strip()]

            item['houseInfo'] = ''.join(item['houseInfo'])

            item['totalPrice'] = li.xpath(".//div[@class='totalPrice']//text()")

            item['totalPrice'] = [i.strip()for i in item['totalPrice'] if i.strip()]

            item['totalPrice'] = ''.join(item['totalPrice'])

            item['Price'] = li.xpath(".//div[@class='unitPrice']/span/text()")[0]

            item['followInfo'] =li.xpath(".//div[@class='followInfo']//text()")

            item['followInfo'] = [i.strip() for i in item['followInfo'] if i.strip()]

            item['followInfo'] = ''.join( item['followInfo'])

            print(item)

            return item

    def  get_page_url(self):

        # 生成待抓取的url

        yield self.start_url

        for i in range(2,101):

            url = "https://sz.lianjia.com/ershoufang/pg%sco32/"%i

            print('正在抓取:=============%s'%url)

            yield url

    def save_data(self,item):

        # 保存数据

        if item:

            self.collention.insert(item)

        else:

            print('数据不存在===========')

    def run(self):

        pool = Pool(5)

        # 线程池进行抓取数据

        data = pool.map(self.get_content,self.get_page_url())

        # 线程池进行存储

        pool.map(self.save_data,data)

if __name__ == '__main__':

    lian_jia = Ljia()

    lian_jia.run()

l线程池抓取lianjia的更多相关文章

基于requests模块的cookie,session和线程池爬取
目录基于requests模块的cookie,session和线程池爬取基于requests模块的cookie操作基于requests模块的代理操作基于multiprocessing.dummy ...
python爬虫构建代理ip池抓取数据库的示例代码
爬虫的小伙伴,肯定经常遇到ip被封的情况,而现在网络上的代理ip免费的已经很难找了,那么现在就用python的requests库从爬取代理ip,创建一个ip代理池,以备使用. 本代码包括ip的爬取,检 ...
Python爬虫【四】Scrapy+Cookies池抓取新浪微博
1.设置ROBOTSTXT_OBEY,由true变为false 2.设置DEFAULT_REQUEST_HEADERS,将其改为request headers 3.根据请求链接,发出第一个请求,设置一 ...
Python+Requests+异步线程池爬取视频到本地
1.本次项目为获取梨视频中的视频,再使用异步线程池下载视频到本地 2.获取视频时,其地址中的Url是会动态变化,不播放时src值为图片的地址,播放时src值为mp4格式 3.查看视频链接是否存在aja ...
使用redis所维护的代理池抓取微信文章
搜狗搜索可以直接搜索微信文章,本次就是利用搜狗搜搜出微信文章,获得详细的文章url来得到文章的信息.并把我们感兴趣的内容存入到mongodb中. 因为搜狗搜索微信文章的反爬虫比较强,经常封IP,所以要 ...
使用requests、BeautifulSoup、线程池爬取艺龙酒店信息并保存到Excel中
import requests import time, random, csv from fake_useragent import UserAgent from bs4 import Beauti ...
使用requests、re、BeautifulSoup、线程池爬取携程酒店信息并保存到Excel中
import requests import json import re import csv import threadpool import time, random from bs4 impo ...
代理池抓取基础版-（python协程）--抓取网站（西刺-后期会持续更新）
# coding = utf- __autor__ = 'litao' import urllib.request import urllib.request import urllib.error ...
爬虫 requests模块的其他用法抽屉网线程池回调爬取+保存实例,gihub登陆实例
requests模块的其他用法 #通常我们在发送请求时都需要带上请求头,请求头是将自身伪装成浏览器的关键,常见的有用的请求头如下 Host Referer #大型网站通常都会根据该参数判断请求的来源 ...

随机推荐

【LeetCode】138. Copy List with Random Pointer 复制带随机指针的链表解题报告（Python）
作者: 负雪明烛 id: fuxuemingzhu 个人公众号:负雪明烛个人博客: http://fuxuemingzhu.cn/ 目录题目描述题目大意解题方法日期题目地址:https:/ ...
1632 B君的连通
B国拥有n个城市,其交通系统呈树状结构,即任意两个城市存在且仅存在一条交通线将其连接.A国是B国的敌国企图秘密发射导弹打击B国的交通线,现假设每条交通线都有50%的概率被炸毁,B国希望知道在被炸毁之后 ...
Beautiful Walls
[1553] Beautiful Walls 时间限制: 1000 ms 内存限制: 65535 K 问题描述 To simplify the building process, XadillaX b ...
破解UltraEdit64 Version 28.20.0.92 技术分享。
本文为原创作品,转载请注明出处,作者:Chris.xisaer E-mail:69920579@qq.com QQ群3244694 补丁程序下载地址:https://download.csdn.net ...
使用zTree插件实现可拖拽的树
在目前接触到的树插件中,我觉得zTree比较简单,也容易上手.有一次业务需求是将某对象分组树上的对象可以随意拖拽,相当于改变了对象的分组,因此我用到了zTree,对其进行了一些列学习. ...
Java初学者作业——编写JAVA程序，在控制台输入一位学生的英语考试成绩，根据评测规则，输出对应的成绩等级。定义方法实现学生成绩的评测功能。
返回本章节返回作业目录需求说明: 编写JAVA程序,在控制台输入一位学生的英语考试成绩,根据评测规则,输出对应的成绩等级.要求:定义方法实现学生成绩的评测功能. 学生的英语考试成绩进行评测,评测规 ...
Java练习小题_求一个3*3矩阵对角线元素之和，矩阵的数据用行的形式输入到计算机中程序分析：利用双重for循环控制输入二维数组，再将a[i][i]累加后输出。
要求说明: 题目:求一个3*3矩阵对角线元素之和,矩阵的数据用行的形式输入到计算机中程序分析:利用双重for循环控制输入二维数组,再将 a[i][i] 累加后输出. 实现思路: [二维数组]相关知识 ...
Linux无法登陆，var目录权限修改导致SSH失败
1.问题说明 Linux远程服务器突然无法SSH登录了, 登陆报错: ssh_exchange_identification: read: Connection reset by peer. 2.问题 ...
LDAP服务端安装
安装环境: 10.43.159.9 root/zdh1234 使用离线的yum源安装,如果机器重启过需要重新挂载镜像 mount /dev/cdrom /media/zidong/ 1.查看openl ...
读取 properties 配置文件含有中文的value内容导致中文乱码的解决办法
1.前言因为装系统的时候把中文写在了系统路径,现在我想把这个路径写在properties里面来读取,可是发现java 读取会导致中文乱码成问号????的乱码 ,百度找了好多博客,基本都是一摸一 ...

l线程池抓取lianjia

l线程池抓取lianjia的更多相关文章

随机推荐

热门专题