Python爬取当前城市房源信息,以徐州为例

代码效果图请看下方,其他部分请查看附件,一起学习,谢谢

  1. # -*- coding: utf-8 -*-
  2. """
  3. @Time : 2020/3/18 22:23
  4. @Auth : Suk
  5. @File : 5.小猪短租相关信息.py
  6. @IDE : PyCharm
  7. @Motto: Knowing your ignorance is the best way to succeed.
  8. @Tips : 版权所有,转载,转发请注明,如有侵权请联系,谢谢.
  9. """
  10. # 小猪短租相关信息,包含出租房屋名称、地址、价格、房东、详细链接等信息
  11. # 爬取搜索页面信息,爬取5页相关内容,通过获得的详细链接页面,爬取详细页面内容
  12. import bs4
  13. import requests
  14. from bs4 import BeautifulSoup
  15. kv = {
  16. 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36 Edg/83.0.478.45'
  17. }
  18. # format='{0:<10}\t{1:{6}<40}\t{2:{6}<10}\t{3:{6}^10}\t{4:{6}<10}\t{5:{6}<10}'
  19. format = '{0:<10}\t{1:{5}<40}\t{2:{5}<10}\t{3:{5}^30}\t{4:{5}<10}'
  20. def main():
  21. global a
  22. print('为您找到了{}条信息,您可以根据需要检索相关信息'.format(len(allInitMessage)))
  23. print('-------------------------------------------------------------------------')
  24. print(
  25. '序号 房屋名称 价格 地址 房东 ')
  26. for i in allInitMessage:
  27. # print(format.format(i[0],i[1],i[2],i[3],i[4],i[5],chr(12288)))
  28. print(format.format(i[0], i[1], i[2], i[3], i[4], chr(12288)))
  29. a = eval(input('请输入你想了解的房屋序号:'))
  30. return a
  31. def houseDetails(num):
  32. deurl = allInitMessage[num - 1][-1]
  33. detailRe = requests.get(deurl, headers=kv)
  34. sp = BeautifulSoup(detailRe.text, 'lxml')
  35. print('标题:' + sp.title.string.strip())
  36. print("价格:" + sp.find('div', class_='fl').text.strip())
  37. print("地址:" + sp.find('span', class_='pr5').text.strip())
  38. print("房东:" + sp.find('a', class_='lorder_name').text.strip())
  39. print('详细信息:')
  40. for i in sp.find('ul', class_='house_info clearfix').text.split():
  41. if ':' in i:
  42. print("\t" + i)
  43. elif "宜住" in i:
  44. print("\t" + i)
  45. print("个性描述:")
  46. for i in sp.find('div', class_='box_white clearfix detail_intro_item').text.split():
  47. if "个性描述" in i or "查看全部" in i or "收起" in i:
  48. continue
  49. else:
  50. print("\t" + i)
  51. print("内部情况:")
  52. for i in sp.find('div', class_='box_gray clearfix detail_intro_item').text.split():
  53. if "内部情况" in i or "查看全部" in i or "收起" in i:
  54. continue
  55. else:
  56. print("\t" + i)
  57. print("交通情况:")
  58. for i in sp.findAll('div', class_='info_r')[2].text.split():
  59. if "交通信息" in i or "交通情况" in i or "查看全部" in i or "收起" in i:
  60. continue
  61. else:
  62. print("\t" + i)
  63. print("周边情况:")
  64. for i in sp.findAll('div', class_='info_r')[3].text.split():
  65. if "交通信息" in i or "查看全部" in i or "收起" in i:
  66. continue
  67. else:
  68. print("\t" + i)
  69. print("配套条件:")
  70. print('\t', end="")
  71. for i in sp.findAll('div', class_='info_r')[4].children:
  72. if type(i) == bs4.element.Tag:
  73. if i.ul != None:
  74. for j in i.ul.children:
  75. if type(j) == bs4.element.Tag:
  76. if 'no' in j.get('class')[0]:
  77. continue
  78. else:
  79. print(j.text.strip() + ',', end="")
  80. print('\n' + "入住须知:")
  81. for i in sp.findAll('div', class_='info_r')[5].text.split():
  82. print('\t' + i)
  83. print("押金及其他费用")
  84. for i in sp.find('div', class_='clause_box').text.split():
  85. if "押金及其他费用" in i or "查看全部" in i or "收起" in i or ">" in i:
  86. continue
  87. elif i[-1] == ":":
  88. print("\t" + i, end="")
  89. else:
  90. print("\t" + i)
  91. try:
  92. select = input('是否返回主页面(y/n)?')
  93. if select in 'yY':
  94. main()
  95. return True
  96. if select in 'nN':
  97. print("退出成功!")
  98. return False
  99. except:
  100. print("ERROR!输入错误!")
  101. url = 'http://xuzhou.xiaozhu.com/search-duanzufang-p'
  102. allhref = []
  103. allInitMessage = []
  104. for page in range(1, eval(input('当前城市:徐州\t请输入你想检索的页数,共13页:')) + 1):
  105. lis = []
  106. hrefs = []
  107. print('\t正在检索第' + str(page) + '页')
  108. re = requests.get(url + str(page) + '-0/')
  109. soup = BeautifulSoup(re.text, 'lxml')
  110. for i in soup.find('ul', class_='pic_list clearfix list_code').children:
  111. if type(i) == bs4.element.Tag:
  112. lis.append(i.find("a"))
  113. for i in lis:
  114. if i != None:
  115. hrefs.append(i.get('href'))
  116. for i in hrefs:
  117. message = []
  118. innitMessageget = requests.get(i)
  119. innitMessage = BeautifulSoup(innitMessageget.text, 'lxml')
  120. message.append(str(len(allInitMessage) + 1) + '.')
  121. message.append(innitMessage.title.string)
  122. message.append(innitMessage.find('div', class_='fl').text.strip())
  123. message.append(innitMessage.find('span', class_='pr5').text.strip())
  124. message.append(innitMessage.find('a', class_='lorder_name').text.strip())
  125. message.append(i)
  126. allInitMessage.append(message)
  127. allhref.append(hrefs)
  128. print("\n\n\tMission Success!\n\n\n")
  129. main()
  130. while (True):
  131. bolean = houseDetails(a)
  132. if bolean == False:
  133. exit(0)
  134. else:
  135. continue

[Python] 快速爬取当前城市所有租房网站房源及配置,一目了然的更多相关文章

  1. [Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息

    [Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息 2018-07-21 23:53:02 larger5 阅读数 4123更多 分类专栏: 网络爬虫   版权声明: ...

  2. Python-定时爬取指定城市天气(一)-发送给关心的微信好友

    一.背景 上班的日子总是3点一线,家里,公司和上班的路径,对于一个特别懒得我来说,经常遇到上班路上下雨了,而我却没带伞,多么痛的领悟.最近对python有一种狂热的学习热情,写了4年多的C++代码,对 ...

  3. Python-定时爬取指定城市天气(二)-邮件提醒

    目录 一.概述 二.模块重新划分 三.优化定时任务 四.发送邮件 五.源代码 一.概述 上一篇文章python-定时爬取指定城市天气(一)-发送给关心的微信好友中我们讲述了怎么定时爬取城市天气,并发送 ...

  4. 使用Python爬虫爬取网络美女图片

    代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作 安装python3.6 略 安装requests库(用于请求静态页面) pip install ...

  5. 大神:python怎么爬取js的页面

    大神:python怎么爬取js的页面 可以试试抓包看看它请求了哪些东西, 很多时候可以绕过网页直接请求后面的API 实在不行就上 selenium (selenium大法好) selenium和pha ...

  6. python连续爬取多个网页的图片分别保存到不同的文件夹

      python连续爬取多个网页的图片分别保存到不同的文件夹 作者:vpoet mail:vpoet_sir@163.com #coding:utf-8 import urllib import ur ...

  7. python定时器爬取豆瓣音乐Top榜歌名

    python定时器爬取豆瓣音乐Top榜歌名 作者:vpoet mail:vpoet_sir@163.com 注:这些小demo都是前段时间为了学python写的,现在贴出来纯粹是为了和大家分享一下 # ...

  8. python大规模爬取京东

    python大规模爬取京东 主要工具 scrapy BeautifulSoup requests 分析步骤 打开京东首页,输入裤子将会看到页面跳转到了这里,这就是我们要分析的起点 我们可以看到这个页面 ...

  9. Python爬虫 - 爬取百度html代码前200行

    Python爬虫 - 爬取百度html代码前200行 - 改进版,  增加了对字符串的.strip()处理 源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...

随机推荐

  1. 使用electron+vue开发一个跨平台todolist(便签)桌面应用

    # 1 最近一直在使用electron开发桌面应用,对于一个web开发者来说,html+javascript+css的开发体验让我非常舒服.之前我一直简单的以为electron只是张网页加个壳,和那些 ...

  2. SixLabors.ImageSharp 实践小结

    前言 之前写过一篇 Linux/Docker 中使用 System.Drawing.Common 踩坑小计, 当时主要是有一块图像处理的需要从 .net framework 迁移到 .net core ...

  3. nginx 负载均衡设置

    upstream lucky5{ server 127.0.0.1:3000 weight=10; server 127.0.0.1:3001 weight=5; } server{ location ...

  4. OxyPlot组件的基本使用

    在制作上位机的时候,很多时候需要使用到监控绘图界面,使用来绘制曲线的组件有很多,GDI+.char.OxyPlot等等,这篇文章用来介绍OxyPlot组件的基本应用,在本文中主要是利用随心数生成函数结 ...

  5. 深度分析:java8的新特性lambda和stream流,看完你学会了吗?

    1. lambda表达式 1.1 什么是lambda 以java为例,可以对一个java变量赋一个值,比如int a = 1,而对于一个方法,一块代码也是赋予给一个变量的,对于这块代码,或者说被赋给变 ...

  6. 吉他指弹入门——贝斯(walking bass)

    在每一个乐队中都有一个神秘而低调的乐手,在现场演奏中你甚至感觉不到他的存在,但是他又异常重要.即是鼓手打拍的好伙伴,又是吉他手忘乎所以solo时的警报器.没错,这个人就是贝斯手.要是我们做了什么气跑了 ...

  7. Guitar Pro指弹入门——特殊拍号

    在吉他演奏技术不断提高的同时,我们经常会遇到一些奇怪的曲谱.他们的拍号不是正常的4/4拍或者3/4拍,而是5/4或者5/8等等我们不太了解的拍号,致使我们在演奏和练习之中陷入纷乱的节奏. 那么本期文章 ...

  8. macOS tips

    1.设置常用linux命令的快捷键 打开terminal command+space,搜索"terminal"关键字 进入"~/"目录 cd ~/ touch ...

  9. 网骗欺诈?网络裸奔?都是因为 HTTP?

    先跟大家讲个故事,我初恋是在初中时谈的,我的后桌的后桌.那个时候没有手机这类的沟通工具,上课交流有三宝,脚踢屁股.笔戳后背以及传纸条,当然我只能是那个屁股和后背,还不是能让初恋踢到的后背. 但是说实话 ...

  10. 总结一下 php连接oracle,完全可用。

    大致有两种方法 第一种 开启php_pdo_oci扩展,一般集成环境都会有这个扩展. 这个东西还是比较简单的,去官网查看吧 http://php.net/manual/zh/book.pdo.php ...