Python爬虫入门教程石家庄链家租房数据抓取

1. 写在前面

这篇博客爬取了链家网的租房信息，爬取到的数据在后面的博客中可以作为一些数据分析的素材。
我们需要爬取的网址为：https://sjz.lianjia.com/zufang/

2. 分析网址

首先确定一下，哪些数据是我们需要的

可以看到，黄色框就是我们需要的数据。

接下来，确定一下翻页规律

https://sjz.lianjia.com/zufang/pg1/

https://sjz.lianjia.com/zufang/pg2/

https://sjz.lianjia.com/zufang/pg3/

https://sjz.lianjia.com/zufang/pg4/

https://sjz.lianjia.com/zufang/pg5/

...

https://sjz.lianjia.com/zufang/pg80/

3. 解析网页

有了分页地址，就可以快速把链接拼接完毕，我们采用lxml模块解析网页源码，获取想要的数据。

本次编码使用了一个新的模块 fake_useragent ，这个模块，可以随机的去获取一个UA（user-agent），模块使用比较简单，可以去百度百度就很多教程。

本篇博客主要使用的是调用一个随机的UA

self._ua = UserAgent()

self._headers = {"User-Agent": self._ua.random}  # 调用一个随机的UA

由于可以快速的把页码拼接出来，所以采用协程进行抓取，写入csv文件采用的pandas模块

from fake_useragent import UserAgent

from lxml import etree

import asyncio

import aiohttp

import pandas as pd

class LianjiaSpider(object):

    def __init__(self):

        self._ua = UserAgent()

        self._headers = {"User-Agent": self._ua.random}

        self._data = list()

    async def get(self,url):

        async with aiohttp.ClientSession() as session:

            try:

                async with session.get(url,headers=self._headers,timeout=3) as resp:

                    if resp.status==200:

                        result = await resp.text()

                        return result

            except Exception as e:

                print(e.args)

    async def parse_html(self):

        for page in range(1,77):

            url = "https://sjz.lianjia.com/zufang/pg{}/".format(page)

            print("正在爬取{}".format(url))

            html = await self.get(url)   # 获取网页内容

            html = etree.HTML(html)  # 解析网页

            self.parse_page(html)   # 匹配我们想要的数据

            print("正在存储数据....")

            ######################### 数据写入

            data = pd.DataFrame(self._data)

            data.to_csv("链家网租房数据.csv", encoding='utf_8_sig')   # 写入文件

            ######################### 数据写入

    def run(self):

        loop = asyncio.get_event_loop()

        tasks = [asyncio.ensure_future(self.parse_html())]

        loop.run_until_complete(asyncio.wait(tasks))

if __name__ == '__main__':

    l = LianjiaSpider()

    l.run()

上述代码中缺少一个解析网页的函数，我们接下来把他补全

def parse_page(self,html):

        info_panel = html.xpath("//div[@class='info-panel']")

        for info in info_panel:

            region = self.remove_space(info.xpath(".//span[@class='region']/text()"))

            zone = self.remove_space(info.xpath(".//span[@class='zone']/span/text()"))

            meters = self.remove_space(info.xpath(".//span[@class='meters']/text()"))

            where = self.remove_space(info.xpath(".//div[@class='where']/span[4]/text()"))

            con = info.xpath(".//div[@class='con']/text()")

            floor = con[0]  # 楼层

            type = con[1]   # 样式

            agent = info.xpath(".//div[@class='con']/a/text()")[0]

            has = info.xpath(".//div[@class='left agency']//text()")

            price = info.xpath(".//div[@class='price']/span/text()")[0]

            price_pre =  info.xpath(".//div[@class='price-pre']/text()")[0]

            look_num = info.xpath(".//div[@class='square']//span[@class='num']/text()")[0]

            one_data = {

                "region":region,

                "zone":zone,

                "meters":meters,

                "where":where,

                "louceng":floor,

                "type":type,

                "xiaoshou":agent,

                "has":has,

                "price":price,

                "price_pre":price_pre,

                "num":look_num

            }

            self._data.append(one_data)  # 添加数据

不一会，数据就爬取的差不多了。

Python爬虫入门教程石家庄链家租房数据抓取的更多相关文章

Python爬虫入门教程 23-100 石家庄链家租房数据抓取
1. 写在前面作为一个活跃在京津冀地区的开发者,要闲着没事就看看石家庄这个国际化大都市的一些数据,这篇博客爬取了链家网的租房信息,爬取到的数据在后面的博客中可以作为一些数据分析的素材. 我们需要爬取 ...
Python爬虫入门教程 30-100 高考派大学数据抓取 scrapy
1. 高考派大学数据----写在前面终于写到了scrapy爬虫框架了,这个框架可以说是python爬虫框架里面出镜率最高的一个了,我们接下来重点研究一下它的使用规则. 安装过程自己百度一下,就能找到 ...
Python爬虫入门教程 31-100 36氪(36kr)数据抓取 scrapy
1. 36氪(36kr)数据----写在前面今天抓取一个新闻媒体,36kr的文章内容,也是为后面的数据分析做相应的准备的,预计在12月底,爬虫大概写到50篇案例的时刻,将会迎来一个新的内容,系统的数 ...
Python爬虫入门教程 22-100 CSDN学院课程数据抓取
1. CSDN学院课程数据-写在前面今天又要抓取一个网站了,选择恐惧症使得我不知道该拿谁下手,找来找去,算了,还是抓取CSDN学院吧,CSDN学院的网站为 https://edu.csdn.net/ ...
Python爬虫入门教程 20-100 慕课网免费课程抓取
写在前面美好的一天又开始了,今天咱继续爬取IT在线教育类网站,慕课网,这个平台的数据量并不是很多,所以爬取起来还是比较简单的准备爬取打开我们要爬取的页面,寻找分页点和查看是否是异步加载的数据. ...
Python爬虫入门教程 3-100 美空网数据爬取
美空网数据----简介从今天开始,我们尝试用2篇博客的内容量,搞定一个网站叫做"美空网"网址为:http://www.moko.cc/, 这个网站我分析了一下,我们要爬取的图片在 ...
Python爬虫入门教程 12-100 半次元COS图爬取
半次元COS图爬取-写在前面今天在浏览网站的时候,忽然一个莫名的链接指引着我跳转到了半次元网站 https://bcy.net/ 打开之后,发现也没有什么有意思的内容,职业的敏感让我瞬间联想到了 c ...
Python爬虫入门教程 10-100 图虫网多线程爬取
图虫网-写在前面经历了一顿噼里啪啦的操作之后,终于我把博客写到了第10篇,后面,慢慢的会涉及到更多的爬虫模块,有人问scrapy 啥时候开始用,这个我预计要在30篇以后了吧,后面的套路依旧慢节奏的, ...
Python爬虫入门教程： All IT eBooks多线程爬取
All IT eBooks多线程爬取-写在前面对一个爬虫爱好者来说,或多或少都有这么一点点的收集癖 ~ 发现好的图片,发现好的书籍,发现各种能存放在电脑上的东西,都喜欢把它批量的爬取下来. 然后放着 ...

随机推荐

[Umbraco] 入门教程(转)
如在页面上显示Helloword. 设计:在umbraco里,最基础的一个概念是文档类型(document type),每个文档其实可以看成一个页面类型.比如我们要创建的两个页面,每个页面都需要显示自 ...
node-rsa非对称加密
写在最前:此文的目的是介绍编码,减少刚接触时的弯路,所以内容且不做详细累述一.使用 node-rsa 进行非对称加解密因为比特币中使用的非对称加密,所以在npm中对比找到一个比较方便也直观的库 ...
Docker 镜像安装 GitLab 中文社区版
docker run \ --detach \ --publish : \ --publish : \ --name gitlab \ --restart unless-stopped \ --vol ...
shell 终端terminfo命令 tput
tput命令 tput 可以更改终端功能,如移动或更改光标,更改文本属性,清除终端屏幕的特定区域等. 光标属性在shell脚本或命令行中,可以利用tput命令改变光标属性. tput clear # ...
vue2打包时内存溢出解决方案
vue项目完成时,若项目过大,就会出现内存溢出的问题,导致vue打包不成功错误截图解决方案在依赖package.json中修改build为 "build":"nod ...
JavaScript -- Math
----- 016-Math.html ----- <!DOCTYPE html> <html> <head> <meta http-equiv=" ...
揭开Future的神秘面纱——结果获取
前言在前面的两篇博文中,已经介绍利用FutureTask任务的执行流程,以及利用其实现的cancel方法取消任务的情况.本篇就来介绍下,线程任务的结果获取. 系列目录揭开Future的神秘面纱—— ...
B+树原理及mysql的索引分析
转自:http://blog.csdn.net/qq_23217629/article/details/52512041 B+/-Tree原理 B-Tree介绍 B-Tree是一种多路搜索树(并不是二 ...
win10 磁盘占用高--- 禁用用户改善反馈 CompatTelRunner.exe
1. 2.右键点开[这台电脑],点[管理],点[服务和应用程序]点[服务],在右边框里把[superfetch] [windows search][HomeGroupListener] [HomeGr ...
Java Collection 学习
定义:Java 作为面向对象语言,对象的操作必比然是重中之重.要操作一个对象容易,如果需要存储多个对象,则需要一个容器,存储多个对象可以使用数组,但是数组的长度是不可变的.所以有了集合的概念.Coll ...