学习目的: 掌握MySQL数据库的安装 正式步骤 Step1:安装数据库 百度MySQL,下载软件 端口设置 设置密码,我的密码123456 下一步 下一步 查看MySQL服务器是否启动 PS:未申明的步骤为默认,选择自定义安装是因为不想默认安装在C盘系统盘,时间久了以后,系统越来越慢,主要原因还是因为我C盘太小了 Step2:安装MySQL可视化客户端 百度下载MySQL-Front 指定路径后安装 连接MYSQL数据库 学习总结: MySQL的卸载需要删除干净本地所有的目录,以及隐藏目录C:…
之前在学习爬虫时,偶尔会遇到一些问题是有些网站需要登录后才能爬取内容,有的网站会识别是否是由浏览器发出的请求. 一.headers的获取 就以博客园的首页为例:http://www.cnblogs.com/ 打开网页,按下F12键,如下图所示: 点击下方标签中的Network,如下: 之后再点击下图所示位置: 找到红色下划线位置所示的标签并点击,在右边的显示内容中可以查看到所需要的headers信息. 一般只需要添加User-Agent这一信息就足够了,headers同样也是字典类型: user…
学习目的: 学习非关系型数据库环境安装,为后续的分布式爬虫做基建 正式步骤 Step1:安装Redis 打开http://www.runoob.com/,搜索redis安装 打开搜索的内容,得到redis下载网址: https://github.com/MSOpenTech/redis/releases 点击Redis-x64-3.2.100.msi链接下载,选择自定义路径安装 安装过程中,记得勾选添加防火墙例外,或者你关闭防火墙,不然图形化安装无法连接上数据库 Step2:安装redis可视化…
Ubuntu18.04安装python3-pip 1.apt-get update更新源 2,ubuntu18.04默认安装了python3,但是pip没有安装,安装命令:apt install python3-pip(apt install python-pip安装的是python2b版本的pip) 安装mongodb: apt-get install mongodb. 执行mongod命令之后创建了一个/data/db. mongo进入mongodb的命令行操作. 这篇关于mongodb的安…
学习目的: 爬虫有请求库(request.selenium).解析库.存储库(MongoDB.Redis).工具库,此节学习安装常用库的安装 正式步骤 Step1:urllib和re库 这两个库在安装Python中,会默认安装,下面代码示例调用: >>> import urllib >>> import urllib.request >>> urllib.request.urlopen("http://www.baidu.com")…
学习目的: 解决AJAX请求的爬虫,网页解析库的学习,MongoDB的简单应用 正式步骤 Step1:流程分析 抓取单页内容:利用requests请求目标站点,得到单个页面的html代码,返回结果: 抓取页面详情内容:解析返回结果,得到详情页的链接,并进一步抓取详情页的信息: 下载图片并保存数据库:将图片下载到本地,把页面信息及图片url保存至MongoDB: 开启循环及多线程:对多页面内容遍历,开启多线程并提高抓取效率. Step2:实例分析 1. 打开今日头条搜索页,搜索“中超”,查看页面的…
学习目的: 掌握爬虫相关的基本概念 正式步骤 Step1:什么是爬虫 请求网站并提取数据的自动化程序 Step2:爬虫的基本流程 Step3:Request和Response 1.request 2.response Step4:能抓怎样的数据 Step5:怎么样来解析 Step6:怎样保存数据 学习总结: 结构化的爬虫还需要学很多,还有Python的基础技能要进一步学习,多应用才能巩固…
学习目的: urllib提供了url解析函数,所以需要学习正式步骤 Step1:什么是urllib urllib库是Python自带模块,是Python内置的HTTP请求库 包含4个模块: >>> import urllib >>> # urllib.request 请求模块 >>> # urllib.error 异常处理模块 >>> # urllib.parse url解析模块 >>> # urllib.robot…
Request: Test1(基本属性:POST): 代码1: import requests # 发送POST请求 data = { } response = requests.post(url, data=data) POST请求 Test2(auth认证): 代码2: import requests # 发送POST请求 data = { } response = requests.post(url, data=data) #内网 => 需要认证 auth = (user, pwd) re…
http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把一些学习的笔记总结下来,还记录了一些自己实际写的一些小爬虫,在这里跟大家一同分享,希望对Python爬虫感兴趣的童鞋有帮助,如果有机会期待与大家的交流. 一.Python入门 1. Python爬虫入门一之综述 2. Python爬虫入门二之爬虫基础了解 3. Python爬虫入门三之Urllib库的基本使用 4. Python爬虫入门四…