之所以选用Python,是因为对于网络爬虫来说,Python是最好上手的一种语言。本文讲述的安装配置都是基于Windows的环境。

另外我想说的是,文中用到的下载链接尽量官方网站上的下载链接,这是我比较喜欢的下载方式,一方面下载可靠,一方面链接稳定。如果官网要翻墙才能进去的话,为了方便读者操作,就使用百度的下载链接了。

一、Python3安装

首先,下载Python3,这里使用Python3.5.1版本,点击下载:64位版本32位版本

双击打开,进行安装。特别注意:要勾选上"Add to Path"选项,否则后面会很麻烦。

打开cmd窗口,测试一下是否真的装好了。

如果刚才安装的时候没有勾选"Add to Path",这个时候可能会报错,这里就不讲解添加环境变量的方法了,建议直接卸载重装。

二、Python3的IDE

现在,Python3的运行环境已经装好了,我们还需要一个IDE。这里建议有两种选择,第一种是Notepad++,第二种是PyCharm。

1. Notepad++

  Notepad++下载地址

  安装完成后,下面说明怎么在Notepad++中安装运行python的插件。

  

  点击"Show Plugin Manager"。

  

  找到PyNPP,点击Install。

  

  安装成功以后,就可以运行Python代码了。

2. PyCharm

  PyCharm下载地址

  这是一个专门给Python编程用的IDE,用起来比Notepad++多的功能基本上就是工程管理和自动补全。一般来说下载Community版本就够用了。安装完成以后就可以使用了。

三、Python3爬虫包安装

这里使用requests和beautifulsoup作为主要的爬虫工具。安装方式很简单。打开cmd,输入这两行代码:

pip install beautifulsoup4
pip install requests

Python3默认会自动安装pip,直接使用即可。

可以用下面一段简单的代码来测试一下这两个包:

# coding : utf-8
import requests
from bs4 import BeautifulSoup r = requests.get("http://news.163.com/")
soup = BeautifulSoup(r.content,'html.parser',from_encoding="gb18030")
for i in soup.find_all('a'):
try:
print(i["href"])
except Exception as e:
pass

几行代码就实现了把网易新闻首页的所有链接都提取出来了。是不是很方便?

要了解更多关于这两个包的知识可以去看官方文档,写的非常清楚。

requests文档

beautifulsoup文档

  至此,我们已经配置好了需要的所有爬虫工具,后面会详细介绍怎么在项目中使用。

  拓展阅读:其实Python可以使用的爬虫包还有很多,这里使用的是requests,其实对于一些有网页动态代码抓取需求的还可以使用selenium。可以参考我的另一篇博客python3初识selenium

2.1 Python3.5安装以及爬虫需要的环境配置的更多相关文章

  1. Blackey win10 + python3.6 + VSCode + tensorflow-gpu + keras + cuda8 + cuDN6N环境配置(转载)

    win10 + python3.6 + VSCode + tensorflow-gpu + keras + cuda8 + cuDN6N环境配置   写在前面的话: 再弄这个之前,我对python也好 ...

  2. win8 64位系统,安装JDK的步骤及其环境配置

    工具/原料 jdk-8u51-windows-x64.exe 下载地址:::http://www.cr173.com/soft/55503.html#address jdk 安装步骤 1:到oracl ...

  3. 安装Nginx+Lua+OpenResty开发环境配置全过程实例

    安装Nginx+Lua+OpenResty开发环境配置全过程实例 OpenResty由Nginx核心加很多第三方模块组成,默认集成了Lua开发环境,使得Nginx可以作为一个Web Server使用. ...

  4. scrapy爬虫笔记(一)------环境配置

    前言: 本系列文章是对爬虫的简单介绍,以及教你如何用简单的方法爬取网站上的内容. 需要阅读者对html语言及python语言有基本的了解. (本系列文章也是我在学习爬虫过程中的学习笔记,随着学习的深入 ...

  5. win10 + python3.6 + VSCode + tensorflow-gpu + keras + cuda8 + cuDN6N环境配置

    写在前面的话: 再弄这个之前,我对python也好,tensorflow也好几乎是0认知的,所以配置这个环境的时候,走了不少弯路,整整耗费了一个星期的时间才搭配完整这个环境,简直了...然而最气的是, ...

  6. Python3编译安装以及创建虚拟运行环境

    一.yum安装pip# yum -y install epel-release   #Centos6.8安装epel源# yum -y install python-pip手动安装pip# wget ...

  7. anaconda python3.7 安装 tensorflow-gpu 2.0.0 beta1 配置PyCharm

    参考tensorflow 公众号<tensorflow2.0 安装指南> https://mp.weixin.qq.com/s/7rNXFEC5HYe91RJ0-9CKdQ # 1. NV ...

  8. Hive安装(一)之环境配置

    Hive Web Interface(HWI)简介:Hive自带了一个Web-GUI,功能不多,可用于效果展示,如果没有安装Hue的话,是个不错的选择. 由于hive-bin包中没有包含HWI的页面, ...

  9. 用composer安装 Laravel | Laravel需要的环境配置

    一:安装 参考网站 http://v4.golaravel.com/docs/4.2/installation 1.先确保安装好了PHP,和服务器环境 2.然后下载composer可执行文件到当前目录 ...

随机推荐

  1. MySQL运行一段时间后自动停止问题的排查

    在进入主题前,一定要先吐槽下自己,前段时间购买了一台阿里云服务器,最开始打算只是自己个人用的,就买了一台配置很寒碜的服务器: CPU: 1核 内存: 1 GB 操作系统: CentOS 7.2 64位 ...

  2. 浅谈PHP中的数组和JS中的数组

    最近在做前后端对接的时候,遇到一个问题,前端要求返回的数据格式是左边的,但是我通过json_encode返回到的数据格式是右边的   注意:数据格式从"[]"(数组)变成了&quo ...

  3. C#基础-委托与事件

    委托 delegate是申明委托的关键字 返回类型都是相同的,并且参数类型个数都相同 委托声明 delegate double DelOperater(double num1, double num2 ...

  4. [转] vim配置python自动补全

    vim python自动补全插件:pydiction 可以实现下面python代码的自动补全: 1.简单python关键词补全 2.python 函数补全带括号 3.python 模块补全 4.pyt ...

  5. laravel 安装excel扩展

    1,使用Composer安装依赖 在Laravel项目根目录下使用Composer安装依赖: composer require maatwebsite/excel ~2.1 ps:一定要加上~2.1! ...

  6. PLC状态机编程-如何在STL中使用状态机

    搞PLC编程多年,一直不知道状态机,学习matlab后,发现状态机编程异常方便,过去很多编程时的疑惑豁然开朗起来.今天跟大家分享一下如何在STL中使用状态机. 下面是用状态机描述的控制任务. 这个状态 ...

  7. PHP.18-图片等比例缩放

    图片等比例缩放 自定义函数ImageUpdateSize($pricname, $maxx, $maxy, $pre) 1.$pricname:被缩放的图片源(路径):2.$maxx,$maxy:缩放 ...

  8. 通过Aspose.Word和ZXING生成复杂的WORD表格

    1.前言 这是我之前做的一个项目中要求的功能模块,它的需求是生成一个WORD文档,需要每页一个表格并且表格中需要插入文字.条形码和二维码等信息,页数可控制.具体的效果如下图所示: 可以看到有以下几点是 ...

  9. 我教你怎么玩转git

    我教你怎么玩转git 1.想要练习解决冲突? 很好办.创建本地分支,a,b, a上面,这样改.b上面那样改. 然后你就解决冲突就可以了. 可以merge 或者cheerypick 2.想要玩一个不要历 ...

  10. 哪些工具能有效管理Azure Active Directory?

    [TechTarget中国原创] 管理Azure Active Directory有四种常见的工具:Azure Web门户.Azure PowerShell.Azure命令行接口和Azure Mana ...