from bs4 import BeautifulSoup

import requests

import time

import re

url = 'http://search.qyer.com/hotel/89580_4.html'

urls = ['http://search.qyer.com/hotel/89580_{}.html'.format(str(i)) for i in range(1,10)] # 最多157页

infos = []

# print(urls)

# 批量爬取数据

def getAUrl(urls):

    data_number = 0

    for url in urls:

        getAttractions(url)

        print('--------------{}-----------------'.format(len(infos)),sep='\n')

# 爬取当页面数据

def getAttractions(url,data = None):

    web_data = requests.get(url)

    time.sleep(2)

    soup = BeautifulSoup(web_data.text,'lxml')

    # print(soup)

    hotel_names = soup.select('ul.shHotelList.clearfix > li > h2 > a')

    hotel_images = soup.select('span[class="pic"] > a > img')

    hotel_points = soup.select('span[class="points"]')

    hotel_introduces = soup.select('p[class="comment"]')

    hotel_prices = soup.select('p[class="seemore"] > span > em')

    if data == None:

        for name,image,point,introduce,price in \

                zip(hotel_names,hotel_images,hotel_points,hotel_introduces,hotel_prices):

            data = {

                'name':name.get_text().replace('\r\n','').strip(),

                'image':image.get('src'),

                'point':re.findall(r'-?\d+\.?\d*e?-?\d*?', point.get_text())[0],

                'introduce':introduce.get_text().replace('\r\n','').strip(),

                'price':int(price.get_text())

            }

            # print(data)

            infos.append(data)

# 根据价格从高到低进行排序

def getInfosByPrice(infos = infos):

    infos = sorted(infos, key=lambda info: info['price'], reverse=True)

    for info in infos:

        print(info['price'], info['name'])

# getAttractions(url)

爬取的网站链接

遇到的问题及解决办法

1.【转载】Python: 去掉字符串开头、结尾或者中间不想要的字符

①Strip()方法用于删除开始或结尾的字符。lstrip()|rstirp()分别从左右执行删除操作。默认情况下会删除空白或者换行符，也可以指定其他字符。

②如果想处理中间的空格，需要求助其他技术，比如replace(),或者正则表达式

③strip()和其他迭代结合，从文件中读取多行数据，使用生成器表达式

④更高阶的strip

可能需要使用translate()方法

2. 【转载】Python:object of type 'Response' has no len()，如何解决？

需要下载代码的可以到我的GitHub上下载 https://github.com/FightingBob/-Web-Crawler-training 如果觉得可以，请给我颗star鼓励一下，谢谢！

Python 爬虫练手项目—酒店信息爬取的更多相关文章

python爬虫练手项目快递单号查询
import requests def main(): try: num = input('请输入快递单号:') url = 'http://www.kuaidi100.com/autonumber/ ...
[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息
[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息 2018-07-21 23:53:02 larger5 阅读数 4123更多分类专栏: 网络爬虫版权声明: ...
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(人人网)（下）
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(下) 自动使用cookie的方法,告别手动拷贝cookie http模块包含一些关于cookie的模块,通过他们我们可以自动的使用co ...
python网络爬虫（12）去哪网酒店信息爬取
目的意义爬取某地的酒店价格信息,示例使用selenium在Firefox中的使用. 来源少部分来源于书.python爬虫开发与项目实战构造本次使用简易的方案,模拟浏览器访问,然后输入字段,查找 ...
Python新手练手项目
1.新手练手项目集中推荐 https://zhuanlan.zhihu.com/p/22164270 2.Python学习网站 https://www.shiyanlou.com 3.数据结构可视化学 ...
python爬虫学习之使用BeautifulSoup库爬取开奖网站信息-模块化
实例需求:运用python语言爬取http://kaijiang.zhcw.com/zhcw/html/ssq/list_1.html这个开奖网站所有的信息,并且保存为txt文件和excel文件. 实 ...
PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_pag ...
python爬虫（三）用request爬取拉勾网职位信息
request.Request类如果想要在请求的时候添加一个请求头(增加请求头的原因是,如果不加请求头,那么在我们爬取得时候,可能会被限制),那么就必须使用request.Request类来实现,比 ...
Python爬虫实战（2）：爬取京东商品列表
1,引言在上一篇<Python爬虫实战:爬取Drupal论坛帖子列表>,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容.相反 ...

随机推荐

浏览器缓存如何控制？ && 在url框中回车、F5 和 Ctrl + F5的区别是什么？
第一部分: 浏览器缓存如何控制? 最近在做网站,但是不知道缓存是什么东西怎么能行! 如何实现HTTP缓存呢? 下面我们来一步一步的探寻实现机制把. 方案一: 无缓存说明: 浏览器向服务器请求 ...
【Markdown】Markdown相关问题
1.显示多行代码将代码用一个tab缩进或者四个空格缩进
Hive 外部表新增字段或者修改字段类型等不生效
标题比较笼统,实际情况是: 对于Hive 的分区外部表的已有分区,在对表新增或者修改字段后,相关分区不生效. 原因是:表元数据虽然修改成功,但是分区也会对应列的元数据,这个地方不会随表的元数据修改而修 ...
linux mint 19 pyenv 安装 python 3.7.0 问题解决
Python3: ImportError: No module named '_ctypes' 解决 sudo apt-get install libffi-dev WARNING: The Pyth ...
一头扎进 Java IO中
Java IO 概述在这一小节,我会试着给出Java IO(java.io)包下所有类的概述.更具体地说,我会根据类的用途对类进行分组.这个分组将会使你在未来的工作中,进行类的用途判定时,或者是为某 ...
通配符证书导致 Outlook Anywhere 的客户端连接问题
通配符证书导致 Outlook Anywhere 的客户端连接问题本主题介绍当您使用 Outlook Anywhere 连接到 Microsoft Exchange 及在组织中跨 Exchange ...
Linux笔记-Linux下编辑器的简介
在整个linux中,我们使用最多的编译器真的vim了,全名我也不说了,没有多大意义,我们就是通过它来写我们的代码的.如果你有强迫症的话,那么选择使用gedit我也是没话说的啦! 话说其实我也在使用一些 ...
常用的几种OCR方法/组件小结(C#)
数字.英文识别比较容易.中文识别主要存在两个问题:其一,有可能误识别.其二.需要随带几十兆的识别库(甚至更大). 适合C#编程引用的中文ocr技术,查到以下两种: 1.使用开源的Tessera ...
JavaScript和微信小程序获取IP地址的方法
最近公司新加了一个需求,根据用户登录的IP地址判断是否重复登录,重复登录就进行逼退,那么怎么获取到浏览器的IP地址呢?最后发现搜狐提供了一个JS接口,可以通过它获取到客户端的IP. 接口地址如下: h ...
String.replace与String.format
字符串的替换函数replace平常使用的频率非常高,format函数通常用来填补占位符.下面简单总结一下这两个函数的用法. 一.String.replace的两种用法 replace的用法如:repl ...

Python 爬虫练手项目—酒店信息爬取

1.【转载】Python: 去掉字符串开头、结尾或者中间不想要的字符

需要下载代码的可以到我的GitHub上下载 https://github.com/FightingBob/-Web-Crawler-training 如果觉得可以，请给我颗star鼓励一下，谢谢！

Python 爬虫练手项目—酒店信息爬取的更多相关文章

随机推荐

热门专题