xpath拉取链家二手房信息并保存到excel中

import os.path

import requests

from lxml import etree

import xlwt

import xlrd

def create_excel():

    if not os.path.exists('./lianjia_excel.xls'):

        book = xlwt.Workbook(encoding='utf-8', style_compression=0)

        sheet = book.add_sheet(f'{city}-链家二手房', cell_overwrite_ok=True)

        col = ('房源名称', '所在小区', '所在地区', '房源信息', '发布时间', '房源标签', '房源价格', '房源单价')

        # 创建列名

        for i in range(0, 8):

            sheet.write(0, i, col[i])

        savepath = './lianjia_excel.xls'

        book.save(savepath)

        return book

    book = xlrd.open_workbook('./lianjia_excel.xls')  # 得到文件

    return book

if __name__ == '__main__':

    city = input('请输入需要查询的城市数据：')

    # 创建一个excel

    book = xlwt.Workbook(encoding='utf-8', style_compression=0)

    sheet = book.add_sheet(f'{city}-链家二手房', cell_overwrite_ok=True)

    col = ('房源名称', '所在小区', '所在地区', '房源信息', '发布时间', '房源标签', '房源价格', '房源单价')

    # 创建列名

    for i in range(0, 8):

        sheet.write(0, i, col[i])

    url = 'https://cd.lianjia.com/ershoufang/'

    headers = {

        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36'

    }

    page = requests.get(url=url, headers=headers)

    page.encoding = 'utf-8'

    tree = etree.HTML(page.text)

    li_list = tree.xpath('//div[@class="content "]/div/ul[@class="sellListContent"]/li')

    data_list = []

    for li in li_list:

        li_div = li.xpath('./div[@class="info clear"]')

        if len(li_div) <= 0:

            continue

        li_div = li.xpath('./div[@class="info clear"]')[0]

        # 房源名称

        li_title = li_div.xpath('./div[@class="title"]/a/text()')[0]

        # 房源链接

        li_url = li_div.xpath('./div[@class="title"]/a/@href')[0]

        # 所在小区

        li_xiaoqu = li_div.xpath('./div[@class="flood"]/div/a[1]/text()')[0]

        # 所在小区URL

        li_xiaoqu_url = li_div.xpath('./div[@class="flood"]/div/a[1]/@href')[0]

        # 所在地区

        li_diqu = li_div.xpath('./div[@class="flood"]/div/a[2]/text()')[0]

        # 所在地区URL

        li_diqu_url = li_div.xpath('./div[@class="flood"]/div/a[2]/@href')[0]

        # 房源信息

        li_houseinfo = li_div.xpath('./div[@class="address"]/div/text()')[0]

        # 发布时间

        li_followinfo = li_div.xpath('./div[@class="followInfo"]//text()')

        # 房源标签

        li_tag = li_div.xpath('./div[@class="tag"]//text()')

        # 房源总价

        li_price = li_div.xpath('./div[@class="priceInfo"]/div[1]/span/text()')[0]

        li_price = li_price + '万'

        # 房源单价

        li_unitPrice = li_div.xpath('./div[@class="priceInfo"]/div[2]/span/text()')[0]

        data_list.append([li_title, li_xiaoqu, li_diqu, li_houseinfo, li_followinfo, li_tag, li_price, li_unitPrice])

    for data in data_list:

        for i in range(0, len(data_list)):

            data = data_list[i]

            for j in range(0, 8):

                sheet.write(i + 1, j, data[j])

    savepath = './lianjia_excel.xls'

    book.save(savepath)

excel保存效果如图：

xpath拉取链家二手房信息并保存到excel中的更多相关文章

使用requests、BeautifulSoup、线程池爬取艺龙酒店信息并保存到Excel中
import requests import time, random, csv from fake_useragent import UserAgent from bs4 import Beauti ...
使用requests、re、BeautifulSoup、线程池爬取携程酒店信息并保存到Excel中
import requests import json import re import csv import threadpool import time, random from bs4 impo ...
python爬取链家二手房信息，确认过眼神我是买不起的人
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
用python实现批量获取Linux主机简要信息并保存到Excel中 unstable 1.1
#!/usr/bin/env python3 # -*- coding: utf-8 -*- #filename get_linux_info.py #获取Linux主机的信息 # titles=[' ...
第三方模块的下载与使用、requests模块、爬取链家二手房数据、openpyxl模块、hashlib加密模块
目录第三方模块的下载与使用下载第三方模块可能会出现的问题网络爬虫模块之requests模块网络爬虫实战之爬取链家二手房数据自动化办公领域之openpyxl模块第三方模块的下载与使用第三方 ...
python抓取链家房源信息(二)
试着用scrapy将之前写的抓取链家网信息的重新写了写然后先是用了第一页的网页作为测试,调试代码,然后发现总是抓取的时候遇见了类似于这样的问题,并且抓取不到信息 2017-03-28 17:52: ...
【nodejs 爬虫】使用 puppeteer 爬取链家房价信息
使用 puppeteer 爬取链家房价信息目录使用 puppeteer 爬取链家房价信息页面结构爬虫库 pupeteer 库实现打开待爬页面遍历区级页面方法一方法二遍历街道页面遍 ...
python3 爬虫教学之爬取链家二手房（最下面源码） //以更新源码
前言作为一只小白,刚进入Python爬虫领域,今天尝试一下爬取链家的二手房,之前已经爬取了房天下的了,看看链家有什么不同,马上开始. 一.分析观察爬取网站结构这里以广州链家二手房为例:http:/ ...
Python爬取链家二手房源信息
爬取链家网站二手房房源信息,第一次做,仅供参考,要用scrapy. import scrapy,pypinyin,requests import bs4 from ..items import L ...
python抓取链家房源信息(三)
之前写过一个链家网北京二手房的数据抓取,然后本来今天想着要把所有的东西弄完,但是临时有事出去了一趟,耽搁了一下,然后现在是想着把北京的二手房的信息都进行抓取,并且存储在mongodb中, 首先是通过' ...

随机推荐

SpringBoot学习笔记 - 构建、简化原理、快速启动、配置文件与多环境配置、技术整合案例
[前置内容]Spring 学习笔记全系列传送门: Spring学习笔记 - 第一章 - IoC(控制反转).IoC容器.Bean的实例化与生命周期.DI(依赖注入) Spring学习笔记 - 第二章 ...
Linux环境下：程序的链接, 装载和库[静态链接]
看以下例子 main.c extern int x; int main() { int y = 100; swap(&x,&y); return 0; } int x = 1; voi ...
ClickHouse(12)ClickHouse合并树MergeTree家族表引擎之AggregatingMergeTree详细解析
目录建表语法查询和插入数据数据处理逻辑 ClickHouse相关资料分享 AggregatingMergeTree引擎继承自 MergeTree,并改变了数据片段的合并逻辑.ClickHouse ...
chatGPT vscode 体验
体验秘钥 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 多人用可能有点卡,重在体验. 自己(中国)想注册账号如下步骤一:找到入口搜索Ope ...
命令行部署KingbaseES流复制+切换测试
建立系统数据库安装用户组及用户,在所有的节点执行 root用户登陆服务器,创建用户组及用户并且设置密码 groupadd -g 2000 kingbase useradd -G kingbase -g ...
Vue18 过滤器
1 简介过滤器(filter)是输送介质管道上不可缺少的一种装置,大白话,就是把一些不必要的东西过滤掉,过滤器实质不改变原始数据,只是对数据进行加工处理后返回过滤后的数据再进行调用处理,我们也可以理 ...
5步带你入门GaussDB(DWS)的GDS导入导出
摘要:本篇文档为使用GDS导入示例的具体简单步骤和示例. 本文分享自华为云社区<带你快速入门GDS导入导出,玩转PB级数仓GaussDB(DWS)>,作者: yd_220527686. 1 ...
Git常用指令集合🔥
关联文章:Git入门图文教程(1.5W字40图)--深入浅出.图文并茂指令-查看状态信息指令描述 git --version 查看git版本 git status 查看本地仓库状态,比较常用的指 ...
跳板攻击之：frp代理转发
跳板攻击之:frp代理转发目录跳板攻击之:frp代理转发 1 frp 介绍 2 frp 原理 3 实验环境 3.1 实验准备 3.2 实验拓扑 4 frp代理socks 5 frp代理stcp安全 ...
《爆肝整理》保姆级系列教程-玩转Charles抓包神器教程(8)-Charles如何进行断点调试
1.简介 Charles和Fiddler一样也有个强大的功能,可以修改发送到服务器的数据包,但是修改前需要拦截,即设置断点.设置断点后,开始拦截接下来所有网页,直到取消断点.这个功能可以在数据包发送之 ...

xpath拉取链家二手房信息并保存到excel中

xpath拉取链家二手房信息并保存到excel中的更多相关文章

随机推荐

热门专题