python爬虫实例

import re

import requests

from bs4 import BeautifulSoup

# 主方法

def main():

    # 给请求指定一个请求头来模拟chrome浏览器

    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'}

    page_max = 100

    for i in range(1, int(page_max) + 1):

        if i == 1:

            house = 'https://cc.lianjia.com/ershoufang/erdaoqu/'

        else:

            house = 'https://cc.lianjia.com/ershoufang/erdaoqu/pg'+str(i)

        res = requests.get(house, headers=headers)

        soup = BeautifulSoup(res.text, 'html.parser')

        li_max = soup.find('ul', class_='sellListContent').find_all('li')

        for li in li_max:

            try:

                house_param = {}

                content = li.find('div', class_='houseInfo').text

                content = content.split("|")

                house_param['housing_estate'] = content[0]

                house_param['square_metre'] = re.findall(r'-?\d+\.?\d*e?-?\d*?', content[2])[0]

                # --------------------------------------------------------#

                position = li.find('div', class_='positionInfo').find('a').text

                house_param['position'] = position

                # --------------------------------------------------------#

                totalprice = li.find('div', class_='totalPrice').text

                house_param['total_price'] = re.sub("\D", "", totalprice)

                unitprice = li.find('div', class_='unitPrice').text

                house_param['unit_price'] = re.sub("\D", "", unitprice)

                # --------------------------------------------------------#

                follow = li.find('div', class_='followInfo').text

                follow = follow.split("/")

                house_param['follow'] = re.sub("\D", "", follow[0])

                house_param['take_look'] = re.sub("\D", "", follow[1])

                # --------------------------------------------------------#

                title_src = li.find('div', class_='title').find('a').attrs['href']

                house_param['url'] = re.sub("\D", "", title_src)

                res = requests.get(title_src, headers=headers)

                soup = BeautifulSoup(res.text, 'html.parser')

                # --------------------------------------------------------#

                pub_date = soup.find('div', class_='transaction').find_all('li')[0].find_all('span')[1].text

                house_param['pub_date'] = pub_date

                print(house_param)

            except Exception as e:

                print(e)

if __name__ == '__main__':

    main()

python爬虫实例的更多相关文章

Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取
很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面右边 li 标签中的就是短 ...
Python爬虫实例：爬取猫眼电影——破解字体反爬
字体反爬字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...
Python爬虫实例：爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...
Python 爬虫实例
下面是我写的一个简单爬虫实例 1.定义函数读取html网页的源代码 2.从源代码通过正则表达式挑选出自己需要获取的内容 3.序列中的htm依次写到d盘 #!/usr/bin/python import ...
shell及Python爬虫实例展示
1.shell爬虫实例: [root@db01 ~]# vim pa.sh #!/bin/bash www_link=http://www.cnblogs.com/clsn/default.html? ...
python爬虫实例——爬取歌单
学习自<<从零开始学python网络爬虫>> 爬取酷狗歌单,保存入csv文件直接上源代码:(含注释) import requests #用于请求网页获取网页数据 from b ...
Python爬虫实例：糗百
看了下python爬虫用法,正则匹配过滤对应字段,这里进行最强外功:copy大法实践一开始是直接从参考链接复制粘贴的,发现由于糗百改版导致失败,这里对新版html分析后进行了简单改进,把整理过程记录 ...
python爬虫实例大全
WechatSogou [1]- 微信公众号爬虫.基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典. DouBanSpider [2]- ...
Python 爬虫实例(爬百度百科词条)
爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入 ...
Python爬虫实例（三）代理的使用
一些网站会有相应的反爬虫措施,例如很多网站会检测某一段时间某个IP的访问次数,如果访问频率太快以至于看起来不像正常访客,它可能就会会禁止这个IP的访问.所以我们需要设置一些代理服务器,每隔一段时间换一 ...

随机推荐

Unity3D ParticleSystem粒子系统
粒子系统检视面板点击粒子系统检视面板的右上角的"+"来增加新的模块.(Show All Modules:显示全部) 初始化模块: 持续时间(Duration):粒子系统发射粒子的 ...
转载：UML学习（二）-----类图（silent）
原文:http://www.cnblogs.com/huiy/p/8552607.html 1.什么是类图类图(Class diagram)主要用于描述系统的结构化设计.类图也是最常用的UML图,用 ...
JNI 开发基础篇：Android开发中os文件的探索
正题: android开发中,时长会遇到os文件的使用,那么os文件到底是什么?在这篇文章中会进行说明. .os文件在android中意味着C语言书写的方法,经android提供的ndk进行编译,从而 ...
thinkphp (tcms)
使用的是:3.2.3模板: js获取thinkphp数组时:var obj = {:json_encode($obj)}: 转成js对象:进而再处理: 创建公共控制器: thinkphp:ajax返回 ...
STM32应用实例十一：基于SPI和AD7192的数据采集
在开发臭氧发生器的时,我们需要一个高分辨率的AD采集,于是选择了AD7192,选择这款ADC的原因比较简单.首先它是24位的符合我们的精度要求:其次它自带时钟,便于节省空间:第三他又4路单端或2路差分 ...
C#获取当前主机硬件信息
using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.T ...
Confluence 6 配置 Web 代理支持
这个页面中的相关平台中的内容是不被支持的.因此,Atlassian 支持不能保证能够为你提供任何支持.请注意,这个页面下面提供的信息仅为你提供参考同时也不能保证所有的的配置能正常工作.如果你按照本页面 ...
Confluence 6 用户目录图例 - 使用 LDAP 授权，在用户第一次登陆时拷贝用户
上面的图:Confluence 连接到一个 LDAP 目录只用作授权,当用户登录 Confluence 的时候,使用 LDAP 授权并且将用户信息同步到本地路服务器上. https://www.cwi ...
nginx之访问控制http_access_module与http_auth_basic_module
http_access_module 作用基于IP的访问控制语法使用局限性解决办法 1. http_x_forwarded_for http_auth_basic_module 作用基于用 ...
pythonz之__new__与__init__
new __new__是用来控制对象的生成过程,在对象生成之前 __init__是用来完善对象的如果new方法不返回对象(return super().new(cls)),则不会调用init函数 c ...

python爬虫实例

python爬虫实例的更多相关文章

随机推荐

热门专题