scrapy爬取booking酒店评论数据

# scrapy爬取酒店评论数据

代码 here：github地址：https://github.com/760730895/scrapy_Booking
--
采用scrapy爬取酒店评论数据。

总共有28W条记录。

做某NLP任务，需要一些hotel reviews, 选择从`www.booking.com`搞一点数据来。
根据主页显示总共有20个城市from diferrent countries，每个城市下有若干个酒店，每个酒店下若干条评论。

# 〇、数据源介绍

数据源：`www.booking.com`
具体：

### *所有的城市：*

![](assets/1.png)

### *某个城市的酒店列表：*

![](assets/2.3.png)

### *某个酒店的评论：*

![](assets/3.png)

# 一、爬取数据项：
设定一条记录有如下字段：

* 目标酒店名target
* 分数score
* 总体评价overall_comment
* 正评论positive_comment
* 负评论negative_comment
* 入住日期date
* 城市名city_name

用CSV文件保存with seperator "\t".

![](assets/4.png)

# 二、目录介绍：

-hotel_review_booking：hotel_data数据文件
  -hotel_review_booking：scrapy理解的项目目录
        -hotel_review_booking：scrapy的真正项目目录
        -entrypoint
        ……

# 三、流程：四步：

* 新建项目 (Project)：新建一个新的爬虫项目
* 明确目标（Items）：明确你想要抓取的目标
* 制作爬虫（Spider）：制作爬虫开始爬取网页
* 存储内容（Pipeline）：设计管道存储爬取内容

# 四、url分析：

略……

# 五、代码提示：

1. 因为酒店列表不好直接显示页数，所以采取半人工手段标记页数……
![](assets/5.png)

2. 日期date: 使用正则匹配。

`pattern = r'(\d{4})年(\d{1,2})月(\d{1,2})日'`
`pattern_compiled = re.compile(pattern)`

3. 其他也没啥的，就是scrapy的使用上，纯经验主义。

github地址：https://github.com/760730895/scrapy_Booking

scrapy爬取booking酒店评论数据的更多相关文章

Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过Selenium模拟浏览器抓取
区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...
Scrapy爬取到的中文数据乱码问题处理
Scrapy爬取到中文数据默认是 Unicode编码的,于是显示是这样的: "country": ["\u56fd\u4ea7\u6c7d\u8f66\u6807\u5f ...
scrapy爬取京东iPhone11评论（一）
咨询行业中经常接触到文本类信息,无论是分词做词云图,还是整理编码分析用,都非常具有价值. 本文将记录使用scrapy框架爬取京东IPhone11评论的过程,由于一边学习一边实践,更新稍慢请见谅. 1. ...
一篇文章教会你用Python爬取淘宝评论数据（写在记事本）
[一.项目简介] 本文主要目标是采集淘宝的评价,找出客户所需要的功能.统计客户评价上面夸哪个功能多,比如防水,容量大,好看等等. 很多人学习python,不知道从何学起.很多人学习python,掌握了 ...
使用scrapy爬取网站的商品数据
目标是爬取网站http://www.muyingzhijia.com/上全部的商品数据信息,包括商品的一级类别,二级类别,商品title,品牌,价格. 搜索了一下,python的scrapy是一个不错 ...
使用scrapy爬取dota2贴吧数据并进行分析
一直好奇贴吧里的小伙伴们在过去的时间里说的最多的词是什么,那我们就来抓取分析一下贴吧发文的标题内容,并提取分析一下,看看吧友们在说些什么. 首先我们使用scrapy对所有贴吧文章的标题进行抓取 scr ...
scrapy爬取伯乐在线文章数据
创建项目切换到ArticleSpider目录下创建爬虫文件设置settings.py爬虫协议为False 编写启动爬虫文件main.py
python爬虫实例，一小时上手爬取淘宝评论(附代码)
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 1 明确目的通过访问天猫的网站,先搜索对应的商品,然后爬取它的评论数据. ...
Scrapy实战篇（八）之Scrapy对接selenium爬取京东商城商品数据
本篇目标:我们以爬取京东商城商品数据为例,展示Scrapy框架对接selenium爬取京东商城商品数据. 背景: 京东商城页面为js动态加载页面,直接使用request请求,无法得到我们想要的商品数据 ...

随机推荐

pandas读取Excel文件
In [7]: import pandas as pd filname = 'ch02数据导入\\student.xlsx' data = pd.read_excel(filname) data Ou ...
文本数据挖掘 Matrix67: The Aha Moments
转自:http://www.matrix67.com/blog/archives/5044 互联网时代的社会语言学:基于SNS的文本数据挖掘今年上半年,我在人人网实习了一段时间,期间得到了很多宝贵的 ...
浅谈C++ allocator内存管理（对比new的局限性）(转)
STL中,对内存管理的alloc的设计,迫使我去学习了allocator类.这里对allocator内存管理做了点笔记留给自己后续查阅.allocator类声明.定义于头文件<memory> ...
linux 时区问题
1.java项目发现服务器时间不正确,修改了服务器时间之后依然没解决. 2.java虚拟机的时区也需要设置:
css使既有浮动又有左右margin的多个元素两端对其
两端对齐效果如上图中红色的9个div它们中间有间距,而最左边和最右边是没有间距的,这种布局如果使用css3的flex来实现是非常简单的,而如果要使用float布局就需要一些特殊的技巧了. 实现原理 ...
配置apache密码认证
配置apache密码认证 apache提供了一系列的认证,授权,访问控制模块,我们这里选用最方便的mod_auth_basic,mod_authn_file,mod_authz_user这三个 ...
CentOS6.5 安装gitlab以及gitolite迁移gitlab
CentOS6.5 安装gitlab以及gitolite迁移gitlab gitlab 的安装使用以及数据结构安装环境: CentOS6.5 基于 nignx + unicorn 搭建的应用环境, ...
运算符、流程控制(if、while)笔记
目录算术运算符比较运算符(返回一个bool值) 逻辑运算符(把多个条件同时叠加) 赋值运算符身份运算符位运算符成员运算符 python运算优先级流程控制:向一个方向变化 if判断单分支结 ...
Java——类的继承、访问控制
[继承] <1>Java只支持单继承,不支持多继承. <2>继承父类的私有成员变量,只有所有权,没有使用权. [继承中的构造方法]
Software-Defined Networking: A Comprehensive Survey
文章名称:Software-Defined Networking: A Comprehensive Survey 文章来源:Proceedings of the IEEE ( Volume: 103 ...

scrapy爬取booking酒店评论数据

scrapy爬取booking酒店评论数据的更多相关文章

随机推荐

热门专题