scrapy爬虫笔记(一)------环境配置

Koala's_Dream 2024-10-20 06:21:08 原文

前言：

　　本系列文章是对爬虫的简单介绍，以及教你如何用简单的方法爬取网站上的内容。

　　需要阅读者对html语言及python语言有基本的了解。

　　（本系列文章也是我在学习爬虫过程中的学习笔记，随着学习的深入会不断地更新）

爬虫简介：

　　网络爬虫是一种自动获取网页内容的程序，是搜索引擎的重要组成部分。

　　网络爬虫先获取某网站的源代码，通过源码解析（如<a><p>标签等）来获得想要的内容。

环境配置：

　　ubuntu系统（安装方法请自行百度。由于在ubuntu系统下对以下所需的软件安装及运行比windows中方便很多，故我们选用ubuntu系统）

　　爬虫可用的软件很多，我们选择在ubuntu系统下使用python进行网页爬取，并将爬取下的内容放入mysql数据库中。

所需软件：

　　python：ubuntu系统自带，无需安装

　　pip：python包管理工具(需要下载python内的库进行网页爬取，安装pip方便我们对python中库的下载)

　　scrapy：Python开发的一个快速,高层次的屏幕抓取和web抓取框架。即从web站点爬取信息，读入到本地。

　　BeautifulSoup：通过标签解析（如<a>,<p>,id,class等）从html或xml文件中提取数据的python库。

　　mysql：一种关联数据库管理系统，将数据保存在不同的表中，用来存储数据。

软件安装步骤：

　　使用Ctrl+Alt+T打开命令行

　　1.pip安装
sudo
apt-get install python-pip

　　2.scrapy安装
pip
install scrapy

　　3.beautifulsoup4安装
pip
install beautifulsoup4

　　4.安装与mysql相关的python库

　　(1)
pip
install mysql-connector-python

　　5.安装mysql

　　(1)
sudo
apt-get install mysql-server

　　(2)
sudo
apt-get install mysql-client

*注：1.用pip安装时如出现错误，可能是权限不够，最前面加上sudo命令即可。

　　 2.如安装python相关模块中出现'error:command 'gcc' failed with exit status 1'的错误信息，可通过安装如下库解决：

　　　　 sudo apt-get install python-dev

　　 3.如安装mysql-connector-python时出现error:

　　Could not find any downloads that satisfy the requirement mysql-connector-python
　　Some externally hosted files were ignored

　　   (use --allow-external mysql-connector-python to allow).

　　输入命令

　　　　 pip install --allow-external mysql-connector-python mysql-connector-python

　　环境配置是个挺麻烦的工作，要有耐心哦～不同ubuntu系统版本可能会遇到各种奇葩问题，由于个人水平所限，请自行百度(-.-)

　　如果环境已经配置好了，那么下面我们可以开始爬取网页了^v^

scrapy爬虫笔记(一)------环境配置的更多相关文章

Qt5学习笔记(1)-环境配置(win+64bit+VS2013)
Qt5学习笔记(1)-环境配置工欲善其事必先-不装-所以装软件久不露面,赶紧打下酱油. 下载地址:http://download.qt.io/ 这个小网页就可以下载到跟Qt有关的几乎所有大部分东 ...
Linux搭建Scrapy爬虫集成开发环境
安装Python 下载地址:http://www.python.org/, Python 有 Python 2 和 Python 3 两个版本, 语法有些区别,ubuntu上自带了python2.7. ...
Scrapy爬虫笔记
Scrapy是一个优秀的Python爬虫框架,可以很方便的爬取web站点的信息供我们分析和挖掘,在这记录下最近使用的一些心得. 1.安装通过pip或者easy_install安装: 1 sudo p ...
Android自学笔记：环境配置
Info: 自学Android之旅第二篇,初步学习会有疏漏,以后我会不断修改补全,直到完美. 2014-10-09:初版 2014-11-12: 重新配置了一台电脑,更新在学习robotium过程中, ...
【lua学习笔记】——环境配置
1 开发平台 windows7 64位 2 下载链接 http://www.lua.org/download.html 3 安装完成-环境配置 4 运行 WIN+R 运行 cmd 运行lua,显示配 ...
学习笔记-ionic3 环境配置搭建到打包
折腾了两周总算理清楚了,参考的链接如下: https://blog.csdn.net/zeternityyt/article/details/79655150 环境配置 https://segmen ...
windows7 64，32位下scrapy爬虫框架的环境搭建
适用于python 2.7 64位安装一.操作系统:WIN7 64位二.python版本:2.7 64位(scrapy目前不支持3.x) 不确定位数的,看图三.安装相关软件:(可以从我的百度网盘 ...
2.1 Python3.5安装以及爬虫需要的环境配置
之所以选用Python,是因为对于网络爬虫来说,Python是最好上手的一种语言.本文讲述的安装配置都是基于Windows的环境. 另外我想说的是,文中用到的下载链接尽量官方网站上的下载链接,这是我比 ...
Scrapy爬虫框架(1)--安装配置与常用命令
安装与配置 Scrapy有几个安装依赖,一般来说可以直接pip install scrapy,这个过程会自动下载安装其他几个依赖. 上述安装方法不成功,则需要手动安装依赖包步骤安装 lxmlpip ...

随机推荐

[UML]UML系列——用例图中的各种关系（include、extend）
用例图中的各种关系一.参与者与用例间的关联关系参与者与用例之间的通信,也成为关联或通信关系. 二.用例与用例之间的关系包含关系(include) 扩展关系(extend) 包含关系 (1) 概 ...
2015.4.20 Canvas Jquery 移动端 JavaScript
1.分享效果:弹窗Canvas渲染大图. 2.进度条中表现进度百分比的数值d%,根据进度的增长“字体颜色”为了表示清晰也随着变化解决方法:参考Demo. 3.输入框保持查询参数,结果列表局部 ...
微信小程序想要的是无法监测的流量dark social
“微信小程序”将带来什么样的变化?就单单的是一个超级Web app?还是只是为了给大家手机节省一些空间?腾讯想要的是高达70%以上的“无法监测的巨大流量”,称之为“dark social”(暗社交). ...
实用框架（iframe）代码
<iframe src="http://www.baidu.com" marginwidth="0" marginheight="0" ...
分布式中Redis实现Session终结篇
上一篇使用Redis实现Session共享方式虽然可行,但是实际操作起来却很麻烦,现有代码已经是这个样子了,总不可能全部换掉吧!好吧,这是个很实际的问题,那么能不能实现无侵入式的分布式Session共 ...
四种浏览器对 clientHeight、offsetHeight、scrollHeight、clientWidth、offsetWidth 和 scrollWidth 的解释差异
网页可见区域宽:document.body.clientWidth 网页可见区域高:document.body.clientHeight 网页可见区域宽:document.body.offsetWid ...
在android程序中加入widget(窗口小部件)并与之交互的关键代码
摘要: widget(窗口小部件)可以增强应用程序的交互性, 是很多应用中都会用到的功能,本文不求大而全,但是会给出程序与widget交互的关键代码正文: 其实widget是嵌入(embedded) ...
JavaScript——理解闭包及作用
js是一个函数级语言,变量的作用域是: 内部可以访问内部,内部可以访问外部,外部不能访问内部. 如果要在外部,访问函数内部的变量,就要用到闭包.闭包就是指访问到了本不该访问的变量. 闭包作用1:实现封 ...
sublime3侧边栏颜色修改，推荐主题
sublime侧边栏的颜色默认是灰白色的,下面方法可以手动定制颜色为深色: 需要修改的文件为: C:\program\Sublime\Packages\Theme - Default.sublime- ...
Windows10+Ubuntu双系统安装（转）
1.Windows10+Ubuntu双系统安装: http://www.jianshu.com/p/2eebd6ad284d 2.UEFI启动模式安装ubuntu指南 : http://col ...