[python]赶集网二手房爬虫插件【可用任意扩展】

最近应一个老铁的要求，人家是搞房产的，所以就写了这个二手房的爬虫，因为初版，所以比较简单，有能力的老铁可用进行扩展。

import requests

import os

 

from bs4 import BeautifulSoup

 

 

 

class GanJi():

    """docstring for GanJi"""

 

    def __init__(self):

        super(GanJi, self).__init__()

 

    def get(self,url):

 

        user_agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36'

        headers    = {'User-Agent':user_agent}

         

        webData    = requests.get(url + 'o1',headers=headers).text

        soup       = BeautifulSoup(webData,'lxml')

         

         

        sum        = soup.find('span',class_="num").text.replace("套","")

        ave        = int(sum) / 32

        forNum     = int(ave)

 

        if forNum < ave:

            forNum = forNum + 1

 

 

        for x in range(forNum):

            webData    = requests.get(url + 'o' + str(x + 1),headers=headers).text

            soup       = BeautifulSoup(webData,'lxml')

            find_list  = soup.find('div',class_="f-main-list").find_all('div',class_="f-list-item ershoufang-list")

 

            for dl in find_list:

                 

                print(dl.find('a',class_="js-title value title-font").text,end='|') # 名称

 

                # 中间 5 个信息

                tempDD = dl.find('dd',class_="dd-item size").find_all('span')

                for tempSpan in tempDD:

                    if not tempSpan.text == '' :

                        print(tempSpan.text.replace("\n", ""),end='|')

 

                 

                print(dl.find('span',class_="area").text.replace(" ","").replace("\n",""),end='|') # 地址

                 

                print(dl.find('div',class_="price").text.replace(" ","").replace("\n",""),end='|') # 价钱

                 

                print(dl.find('div',class_="time").text.replace(" ","").replace("\n",""),end="|") # 平均

                 

                print("http://chaozhou.ganji.com" + dl['href'],end="|") # 地址

 

                print(str(x + 1))

 

if __name__ == '__main__':

    temp = GanJi()

    temp.get("http://chaozhou.ganji.com/fang5/xiangqiao/")

[python]赶集网二手房爬虫插件【可用任意扩展】的更多相关文章

使用scrapy框架做赶集网爬虫
使用scrapy框架做赶集网爬虫一.安装首先scrapy的安装之前需要安装这个模块:wheel.lxml.Twisted.pywin32,最后在安装scrapy pip install wheel ...
Python 爬取赶集网租房信息
代码已久,有可能需要调整 #coding:utf-8 from bs4 import BeautifulSoup #有这个bs4不用正则也可以定位要爬取的内容了 from urlparse impor ...
[Python学习] 简单网络爬虫抓取博客文章及思想介绍
前面一直强调Python运用到网络爬虫方面很有效,这篇文章也是结合学习的Python视频知识及我研究生数据挖掘方向的知识.从而简介下Python是怎样爬去网络数据的,文章知识很easy ...
使用Python + Selenium打造浏览器爬虫
Selenium 是一款强大的基于浏览器的开源自动化测试工具,最初由 Jason Huggins 于 2004 年在 ThoughtWorks 发起,它提供了一套简单易用的 API,模拟浏览器的各种操 ...
孤荷凌寒自学python第七十六天开始写Python的第一个爬虫6
孤荷凌寒自学python第七十六天开始写Python的第一个爬虫6 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 不过由于对python-docx模 ...
使用python实现简单的爬虫
python爬虫的简单实现开发环境的配置 python环境的安装编辑器的安装爬虫的实现包的安装简单爬虫的初步实现将数据写入到数据库-简单的数据清洗-数据库的连接-数据写入到数据库开发环境 ...
Sublime text 3搭建Python开发环境及常用插件安装转载
Sublime text 3搭建Python开发环境及常用插件安装一.环境准备 1.官方网站地址 2.Windows 10 3.Sublime Text 3 + 官网购买license(Just a ...
Python中的网络爬虫怎么用？
爬虫概述 (约2016年)网络爬虫个人使用和科研范畴基本不存在问题,但商业盈利范畴就要看对方了. 通过网站的Robots协议(爬虫协议)可以知道可以和不可以抓取的内容,其中User-Agent: 为允 ...
Python初学者之网络爬虫(二)
声明:本文内容和涉及到的代码仅限于个人学习,任何人不得作为商业用途.转载请附上此文章地址本篇文章Python初学者之网络爬虫的继续,最新代码已提交到https://github.com/octans ...

随机推荐

Python Tkinter 窗口创建与布局
做界面,首先需要创建一个窗口,Python Tkinter创建窗口很简单:(注意,Tkinter的包名因Python的版本不同存在差异,有两种:Tkinter和tkinter,读者若发现程序不能运行, ...
GAN代码实战
batch normalization 1.BN算法,一般用在全连接或卷积神经网络中.可以增强整个神经网络的识别准确率以及增强模型训练过程中的收敛能力2.对于两套权重参数,例如(w1:0.01,w2: ...
使用TCP的协议有哪些？使用UDP的协议有哪些？
运行于TCP协议之上的协议: HTTP协议:超文本传输协议,用于普通浏览 HTTPS协议:安全超文本传输协议,身披SSL外衣的HTTP协议 FTP协议:文件传输协议,用于文件传输 POP3协议:邮局协 ...
controller进行数据保存以及作用域
controller进行数据保存以及作用域一.request域 1.ModelAndView 在ModelAndView中进行存键值对,也可以进行跳转的地址存储,但是返回类型必须是ModelAndV ...
常用Tables控件介绍(一)
1.DataTables Datatables是一款jquery表格插件.它是一个高度灵活的工具,可以将任何HTML表格添加高级的交互功能. 分页,即时搜索和排序几乎支持任何数据源:DOM, jav ...
3. 键值对RDD
键值对RDD是Spark中许多操作所需要的常见数据类型.除了在基础RDD类中定义的操作之外,Spark为包含键值对类型的RDD提供了一些专有的操作在PairRDDFunctions专门进行了定义.这些 ...
java接口幂等性校验
关于接口幂等性的概念: 幂等性:同一接口调用多次(使用相同的参数),对系统的影响是相同的. 怎样才是对系统有影响? 有影响--->增删改操作,修改一个用户信息,删除用户与某人的关联关系,生成一个 ...
Shell变量一览
Shell变量一览 $# Shell命令的参数个数 $$ Shell本身的进程ID $! Shell最后运行的后台进程的进程ID $? Shell最后运行的命令的退出码(返回值) $- Shell使用 ...
(转)WEB服务器_IIS配置优化指南
原文地址:https://www.cnblogs.com/heyuquan/p/deploy-iis-set-performance-guide.html 通常把站点发布到IIS上运行正常后,很少会去 ...
扩展JS
//JS的扩展方法: 1 定义类静态方法扩展 2 定义类对象方法扩展 var aClass = function(){} //1 定义这个类的静态方法 aC ...

[python]赶集网二手房爬虫插件【可用任意扩展】

[python]赶集网二手房爬虫插件【可用任意扩展】的更多相关文章

随机推荐

热门专题