[Python] 快速爬取当前城市所有租房网站房源及配置，一目了然

Python爬取当前城市房源信息，以徐州为例

代码效果图请看下方，其他部分请查看附件，一起学习，谢谢

# -*- coding: utf-8 -*-
"""
@Time ： 2020/3/18 22:23
@Auth ： Suk
@File ： 5.小猪短租相关信息.py
@IDE ： PyCharm
@Motto： Knowing your ignorance is the best way to succeed.
@Tips ：版权所有，转载，转发请注明，如有侵权请联系，谢谢.
"""
# 小猪短租相关信息，包含出租房屋名称、地址、价格、房东、详细链接等信息
# 爬取搜索页面信息，爬取5页相关内容,通过获得的详细链接页面，爬取详细页面内容
import bs4
import requests
from bs4 import BeautifulSoup
kv = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36 Edg/83.0.478.45'
}
# format='{0:<10}\t{1:{6}<40}\t{2:{6}<10}\t{3:{6}^10}\t{4:{6}<10}\t{5:{6}<10}'
format = '{0:<10}\t{1:{5}<40}\t{2:{5}<10}\t{3:{5}^30}\t{4:{5}<10}'
def main():
global a
print('为您找到了{}条信息，您可以根据需要检索相关信息'.format(len(allInitMessage)))
print('-------------------------------------------------------------------------')
print(
'序号房屋名称价格地址房东 ')
for i in allInitMessage:
# print(format.format(i[0],i[1],i[2],i[3],i[4],i[5],chr(12288)))
print(format.format(i[0], i[1], i[2], i[3], i[4], chr(12288)))
a = eval(input('请输入你想了解的房屋序号：'))
return a
def houseDetails(num):
deurl = allInitMessage[num - 1][-1]
detailRe = requests.get(deurl, headers=kv)
sp = BeautifulSoup(detailRe.text, 'lxml')
print('标题：' + sp.title.string.strip())
print("价格：" + sp.find('div', class_='fl').text.strip())
print("地址：" + sp.find('span', class_='pr5').text.strip())
print("房东：" + sp.find('a', class_='lorder_name').text.strip())
print('详细信息：')
for i in sp.find('ul', class_='house_info clearfix').text.split():
if '：' in i:
print("\t" + i)
elif "宜住" in i:
print("\t" + i)
print("个性描述：")
for i in sp.find('div', class_='box_white clearfix detail_intro_item').text.split():
if "个性描述" in i or "查看全部" in i or "收起" in i:
continue
else:
print("\t" + i)
print("内部情况：")
for i in sp.find('div', class_='box_gray clearfix detail_intro_item').text.split():
if "内部情况" in i or "查看全部" in i or "收起" in i:
continue
else:
print("\t" + i)
print("交通情况：")
for i in sp.findAll('div', class_='info_r')[2].text.split():
if "交通信息" in i or "交通情况" in i or "查看全部" in i or "收起" in i:
continue
else:
print("\t" + i)
print("周边情况：")
for i in sp.findAll('div', class_='info_r')[3].text.split():
if "交通信息" in i or "查看全部" in i or "收起" in i:
continue
else:
print("\t" + i)
print("配套条件：")
print('\t', end="")
for i in sp.findAll('div', class_='info_r')[4].children:
if type(i) == bs4.element.Tag:
if i.ul != None:
for j in i.ul.children:
if type(j) == bs4.element.Tag:
if 'no' in j.get('class')[0]:
continue
else:
print(j.text.strip() + ',', end="")
print('\n' + "入住须知：")
for i in sp.findAll('div', class_='info_r')[5].text.split():
print('\t' + i)
print("押金及其他费用")
for i in sp.find('div', class_='clause_box').text.split():
if "押金及其他费用" in i or "查看全部" in i or "收起" in i or ">" in i:
continue
elif i[-1] == "：":
print("\t" + i, end="")
else:
print("\t" + i)
try:
select = input('是否返回主页面(y/n)?')
if select in 'yY':
main()
return True
if select in 'nN':
print("退出成功！")
return False
except:
print("ERROR！输入错误！")
url = 'http://xuzhou.xiaozhu.com/search-duanzufang-p'
allhref = []
allInitMessage = []
for page in range(1, eval(input('当前城市：徐州\t请输入你想检索的页数，共13页：')) + 1):
lis = []
hrefs = []
print('\t正在检索第' + str(page) + '页')
re = requests.get(url + str(page) + '-0/')
soup = BeautifulSoup(re.text, 'lxml')
for i in soup.find('ul', class_='pic_list clearfix list_code').children:
if type(i) == bs4.element.Tag:
lis.append(i.find("a"))
for i in lis:
if i != None:
hrefs.append(i.get('href'))
for i in hrefs:
message = []
innitMessageget = requests.get(i)
innitMessage = BeautifulSoup(innitMessageget.text, 'lxml')
message.append(str(len(allInitMessage) + 1) + '.')
message.append(innitMessage.title.string)
message.append(innitMessage.find('div', class_='fl').text.strip())
message.append(innitMessage.find('span', class_='pr5').text.strip())
message.append(innitMessage.find('a', class_='lorder_name').text.strip())
message.append(i)
allInitMessage.append(message)
allhref.append(hrefs)
print("\n\n\tMission Success!\n\n\n")
main()
while (True):
bolean = houseDetails(a)
if bolean == False:
exit(0)
else:
continue

[Python] 快速爬取当前城市所有租房网站房源及配置，一目了然的更多相关文章

[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息
[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息 2018-07-21 23:53:02 larger5 阅读数 4123更多分类专栏: 网络爬虫版权声明: ...
Python-定时爬取指定城市天气(一)-发送给关心的微信好友
一.背景上班的日子总是3点一线,家里,公司和上班的路径,对于一个特别懒得我来说,经常遇到上班路上下雨了,而我却没带伞,多么痛的领悟.最近对python有一种狂热的学习热情,写了4年多的C++代码,对 ...
Python-定时爬取指定城市天气(二)-邮件提醒
目录一.概述二.模块重新划分三.优化定时任务四.发送邮件五.源代码一.概述上一篇文章python-定时爬取指定城市天气(一)-发送给关心的微信好友中我们讲述了怎么定时爬取城市天气,并发送 ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
大神：python怎么爬取js的页面
大神:python怎么爬取js的页面可以试试抓包看看它请求了哪些东西, 很多时候可以绕过网页直接请求后面的API 实在不行就上 selenium (selenium大法好) selenium和pha ...
python连续爬取多个网页的图片分别保存到不同的文件夹
python连续爬取多个网页的图片分别保存到不同的文件夹作者:vpoet mail:vpoet_sir@163.com #coding:utf-8 import urllib import ur ...
python定时器爬取豆瓣音乐Top榜歌名
python定时器爬取豆瓣音乐Top榜歌名作者:vpoet mail:vpoet_sir@163.com 注:这些小demo都是前段时间为了学python写的,现在贴出来纯粹是为了和大家分享一下 # ...
python大规模爬取京东
python大规模爬取京东主要工具 scrapy BeautifulSoup requests 分析步骤打开京东首页,输入裤子将会看到页面跳转到了这里,这就是我们要分析的起点我们可以看到这个页面 ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...

随机推荐

centos7下做内存盘的方法
在找这个资料的时候,基本没几个能用的或者过时了的,或者是换了概念,做的不是需要的那种盘,只有少数文章有提到关键部分应该怎么去操作,现在还是自己总结一下内存盘tmpfs和ramdisk的区别这个在网 ...
Spring之事务源码
对@Transactional注解的类进行动态代理同前文<Spring AOP源码分析>中分析动态代理入口一样,都是在initializeBean时执行. Object exposedO ...
给力啊！这篇Spring Bean的依赖注入方式笔记总结真的到位，没见过写的这么细的
1. Bean的依赖注入概念依赖注入(Dependency Injection):它是 Spring 框架核心 IOC 的具体实现.在编写程序时,通过控制反转,把对象的创建交给了 Spring,但是 ...
【深度分析】：阿里，腾讯面试题 SpringBoot整合Spring MVC
Java学习总结 SpringBoot整合Spring MVC 1.SpringMVC概述 MVC(Model–view–controller)是软件工程中的一种软件架构模式,基于此模式把软件系统分为 ...
去年去阿里面试，面试官居然问我Java类和对象，我是这样回答的！
1.谈谈你对Java面向对象的理解? 面向对象就是把构成问题的事务分解成一个个对象,建立对象的目的不是一个步骤,而是为了描述一个事务在解决问题中的行为.类是面向对象的一个重要概念,类是很多个具有相同属 ...
在CorelDRAW2019创建对称绘图模式
对称绘图模式是CorelDRAW 2018推出的全新功能,在2019的版本中又得到了极大的完善,通过对称绘图模式可以创建平衡.和谐.独一无二的效果,对称在大自然中随处可见,因此设计元素很可能将依靠于它 ...
guitar pro系列教程（九）：Guitar Pro音谱“编辑”讲解
对广大音乐人来说,guitar pro不只是一款看谱软件,更是制谱辅助创作的好搭档打开guitar pro创作软件的主界面,你会看到"编辑"的字样,单击一下,会弹出下面的界面, ...
python中eval()和json.loads的区别
一.最近在写接口测试脚本时,发现当读取Excel用例时,有时候要用eval,有时候又要用json.loads,不知道区别,只能换一下就可以用了,不知道其中的原理,特地百度了下.于是就记录了下,以便后续 ...
python菜鸟教程学习9：函数
函数的定义函数是组织好的,可重复使用的,用来实现单一,或相关联功能的代码段.python提供了很多内建函数,但我们依然可以自己创建函数,叫做用户自定义函数. 自定义函数你可以定义一个由自己想要功能 ...
nginx负载均衡配置详解
已经了解了负载均衡的常用算法:轮询,加权轮询,热备等... 接下来就看看具体怎么配置. upstream配置是写一组被代理的服务器地址,然后配置负载均衡的算法. upstream mysvr{ ser ...

[Python] 快速爬取当前城市所有租房网站房源及配置，一目了然

[Python] 快速爬取当前城市所有租房网站房源及配置，一目了然的更多相关文章

随机推荐

热门专题