python 爬取链家

import json

import  requests

from lxml import etree

from time import sleep

url = "https://sz.lianjia.com/ershoufang/rs/"

headers = {

    "User-Agent":"",

    "Refer":"https://sz.lianjia.com/ershoufang/pg2/"

}

resp = requests.get(url,headers=headers)

base_url = "https://sz.lianjia.com/ershoufang/pg{}/"

html = etree.HTML(resp.text)

data = html.xpath('//*[@id="content"]//div[@class="page-box fr"]/div/@page-data')

data = json.loads(data[0])

totalPage = data['totalPage']

curPage = data['curPage']

def get_data(url):

    list = []

    resp = requests.get(url, headers=headers)

    html = etree.HTML(resp.text)

    ul = html.xpath('.//ul[@class="sellListContent"]/li')

    for li in ul:

        face = li.xpath('./a/img/@src')

        title = li.xpath('.//div[@class="title"]/a/text()')

        position = li.xpath('.//div[@class="positionInfo"]/a/text()')

        house_info = li.xpath('.//div[@class="houseInfo"]/text()')

        follow_info = li.xpath('.//div[@class="followInfo"]/text()')

        price = li.xpath('.//div[@class="priceInfo"]/div[@class="totalPrice"]/span/text()')

        unit_price = li.xpath('.//div[@class="priceInfo"]/div[@class="unitPrice"]/span/text()')

        tag = li.xpath('.//div[@class="tag"]//span/text()')

        content = {}

        content["face"] = face[0]

        content["title"] = title[0]

        content["position"] = position[0]

        content["house_info"] = house_info[0]

        content["follow_info"] = follow_info[0]

        content["price"] = price[0]

        content["unit_price"] = unit_price[0]

        if len(tag) >=1 and  tag[0] is not None:

            content['tag'] = tag[0]

        list.append(content)

    return list

totalList = []

for i in range(1,totalPage+1):

    url = base_url.format(i)

    print("crawl url  " + url)

    cur_list = get_data(url)

    print(cur_list)

    totalList = totalList + cur_list

url = base_url.format(1)

print(totalList)

python 爬取链家的更多相关文章

Python爬取链家二手房源信息
爬取链家网站二手房房源信息,第一次做,仅供参考,要用scrapy. import scrapy,pypinyin,requests import bs4 from ..items import L ...
适合初学者的Python爬取链家网教程
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: TinaLY PS:如有需要Python学习资料的小伙伴可以加点击下 ...
python爬取链家二手房信息，确认过眼神我是买不起的人
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
Python爬虫项目--爬取链家热门城市新房
本次实战是利用爬虫爬取链家的新房(声明: 内容仅用于学习交流, 请勿用作商业用途) 环境 win8, python 3.7, pycharm 正文 1. 目标网站分析通过分析, 找出相关url, 确 ...
Python的scrapy之爬取链家网房价信息并保存到本地
因为有在北京租房的打算,于是上网浏览了一下链家网站的房价,想将他们爬取下来,并保存到本地. 先看链家网的源码..房价信息都保存在 ul 下的li 里面爬虫结构: 其中封装了一个数据库处理模 ...
python爬虫：爬取链家深圳全部二手房的详细信息
1.问题描述: 爬取链家深圳全部二手房的详细信息,并将爬取的数据存储到CSV文件中 2.思路分析: (1)目标网址:https://sz.lianjia.com/ershoufang/ (2)代码结构 ...
python爬虫：利用BeautifulSoup爬取链家深圳二手房首页的详细信息
1.问题描述: 爬取链家深圳二手房的详细信息,并将爬取的数据存储到Excel表 2.思路分析: 发送请求--获取数据--解析数据--存储数据 1.目标网址:https://sz.lianjia.com ...
Python——Scrapy爬取链家网站所有房源信息
用scrapy爬取链家全国以上房源分类的信息: 路径: items.py # -*- coding: utf-8 -*- # Define here the models for your scrap ...
Scrapy实战篇（一）之爬取链家网成交房源数据（上）
今天,我们就以链家网南京地区为例,来学习爬取链家网的成交房源数据. 这里推荐使用火狐浏览器,并且安装firebug和firepath两款插件,你会发现,这两款插件会给我们后续的数据提取带来很大的方便. ...

随机推荐

小程序开发-6个优秀的UI组件库
微信小程序开发,当原生的控件不能满足我们时,可以尝试下面几个比较优秀的组件库. 1. WeUI WXSS WeUI WXSS是腾讯官方UI组件库WeUI的小程序版,提供了跟微信界面风格一致的用户体验. ...
本周 GitHub 速览：自动化当道，破密、爬虫各凭本事
作者:HelloGitHub-小鱼干摘要:安全门外汉,如何在不知道密钥或密码的情况下,破解哈希得到原文,Ciphey 会告诉你当中的密码.说到 auto 智能爬虫会基于上一次的爬虫经历进一步学习以获 ...
sql.表值类型
表值类型是在sql server 2008中新加入的功能,我个人觉得确实很有用,之前从没用过,自从来到现在的公司后学到很多东西,所以和大家分享一下. ------建表值类型语法------------ ...
goto 语法在 PHP 中的使用
在C++.Java及很多语言中,都存在着一个神奇的语法,就是goto.顾名思义,它的使用是直接去到某个地方.从代码的角度来说,也就是直接跳转到指定的地方.PHP中也有这个功能,我们先来看看它是如何使用 ...
鸿蒙真的是套壳吗？HarmonyOS应用开发初体验，Java原生和JavaScript的mvvm开发
初探寻鸿蒙os的应用开发本期视频已发布到bilibili 注意是应用开发,没错码农(应用开发)一般关注这个就行了 IDE 点击应用开发以后,点击链接下载IDE,DevEco Studio是基于IDE ...
【Unity 插件】Lean Pool 使用
2020-09-11 Lean Pool 是一个轻量级的游戏对象池库,它可以轻松的帮助你的游戏提高性能.当然,Lean Pool也可以工作于普通的C#类. 目录: 1.Lean Pool使用 2.Le ...
MyBatis学习（三）日志输出环境配置
一.编写日志输出环境配置文件在开发过程中,最重要的就是在控制台查看程序输出的日志信息,在这里我们选择使用 log4j 工具来输出: 准备工作:将[MyBatis]文件夹下[lib]中的 log4j ...
shiro 退出过滤器 logout ---退出清除HTTPSession数据
重写LogouFilter类 import org.apache.shiro.web.filter.authc.LogoutFilter; public class ShiroLogoutFilter ...
java中类的构造及其使用
class Person{ // 属性 public String name; public int age; // 构造方法 public Person(){ ...
Linux初步了解
文件系统类型:swap分区:用于内存扩充,用磁盘兑换,磁盘是内存的两倍,便于替换 / 分区:容纳根文件系统文件名:由字母,数字,下划线,圆点组成文件类型:显示在每一行的左边第一个字符普通文件 ...

python 爬取链家

python 爬取链家的更多相关文章

随机推荐

热门专题