Python 小爬虫流程总结

接触Python3一个月了，在此分享一下知识点，也算是温故而知新了。

接触python之前是做前端的。一直希望接触面能深一点。因工作需求开始学python，几乎做的都是爬虫。。第一个demo就是爬取X博数据，X博的API我在这就不吐槽了。用过的估计都晓得。

好了。下面进入正题，，一个小demo的开始与结束。

1.首先对于像我一样0基础的，推荐几个网址：

廖雪峰的教程从安装到基本语法、模块安装等等基础都不简单易懂。这里就不赘述了

(1).http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000

(2)http://cn.python-requests.org/zh_CN/latest/ requests模块的语法。请求是爬数据的起始点，这个可以多了解（然而我也是初学）

(3)https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html BeautifulSoup模块（核心就是节点操作，和js的节点操作挺像）

爬取简单数据我个人总结就是大致的 3点：

1、请求数据

2、进行数据处理

3、写数据

第一点请求的数据会有几种可能：

1、很简单的html页面。。就直接requests就可以请求成功

2、js渲染的页面（这种页面超多）requests请求一堆js数据（以前我用的一个模块 selenium （代码基于浏览器运行）推荐大家千万别用，性能很差。）

3、需要登录才能获取（(￣▽￣)"）至今登录我都是用的cookie 请求登录—— 其他更好的方法目前还在研究途中有验证码更麻烦 balabala...(chookie有效期长的话直接就用就好了 )

4、json数据

第二点数据处理会有几种可能：

1、请求的数据是简单的html结构页面--直接BS4解析就好了

2、请求的数据是json--导入json模块进行解析

3、请求的数据是简单的js渲染的html页面

遇到这种页面（通过抓包或者简单的在网站上审查请求）然后找的你想要的那部分数据（数据有可能是json数据有可能嵌到js中）

如果是js渲染的html 例如这样：

这其实就是js拼写的html,,只要把其他无用的数据匹配掉用正则找到剩下想要的html文本就好了。

然后BS4解析。。

第三点写数据（当初一个编码格式弄了半天在这我会多啰嗦几句）

open方法进行文件打开里面的参数进行文件格式设置，读写文件、编码格式操作

with open("XXX.xxx","a",encoding="utf-8") as f :
　　f.write('''写入的数据''')

文件格式我用过的就是txt、csv 、xml 大部分文本格式都支持的。

a--是创建文件每次写都是重新创建

w--是追加

a--是读数据

encoding="utf-8"这句话不加encoding= 在windows系统下会报编码错误 linux不会。

然后就是数据量太大写入到数据库

数据库就用sqlite 记得引入模块 import sqlite3（就是创建数据表等等。。教程里面都有。。）

目前先就这样，以后会不定期总结也会直接更代码案例等...

Python 小爬虫流程总结的更多相关文章

【现学现卖】python小爬虫
1.给小表弟汇总一个院校列表,想来想去可以写一个小爬虫爬下来方便些,所以就看了看怎么用python写,到了基本能用的程度,没有什么特别的技巧,大多都是百度搜的,遇事不决问百度啦 2.基本流程就是: 用 ...
python小爬虫练手
一个人无聊,写了个小爬虫爬取不可描述图片.... 代码太短,就暂时先往这里贴一下做备份吧. 注:这是很严肃的技术研究,当然爬下来的图片我会带着批判性的眼光审查一遍的.... :) #! /usr/ ...
Python小爬虫-自动下载三亿文库文档
新手学python,写了一个抓取网页后自动下载文档的脚本,和大家分享. 首先我们打开三亿文库下载栏目的网址,比如专业资料(IT/计算机/互联网)http://3y.uu456.com/bl-197?o ...
Python小爬虫——抓取豆瓣电影Top250数据
python抓取豆瓣电影Top250数据 1.豆瓣地址:https://movie.douban.com/top250?start=25&filter= 2.主要流程是抓取该网址下的Top25 ...
第一个Python小爬虫
这个爬虫是参考http://python.jobbole.com/81353/这篇文章写的这篇文章可能年代过于久远,所以有些代码会报错,然后我自己稍微修改了一下,增加了一个getContentAll ...
python 小爬虫爬取博客文章初体验
最近学习 python 走火入魔,趁着热情继续初级体验一下下爬虫,以前用 java也写过,这里还是最初级的爬取html,都没有用html解析器,正则等...而且一直在循环效率肯定### 很低下 imp ...
python小爬虫【1】
爬取百度贴吧的图片分析贴吧源代码,图片所在位置是:<img class="BDE_Image" src=“........jpg” pic_ext..... 所以正则匹配是 ...
整理python小爬虫
编码使我快乐!!! 我也不知道为什么,遇到自己喜欢的事情,就越想做下去,可以一个月不出门,但是不能一天没有电脑掌握程度:对python有了一个更清晰的认识,自动化运维,也许可以用python实现呢, ...
Python小爬虫练习
# coding: utf-8 __author__ = 'zhangcx' from urllib3 import PoolManager import codecs import json cla ...

随机推荐

标题栏显示icon
<link rel="shortcut icon" href="/favicon2.ico"/><link rel="bookmar ...
【BZOJ-2653】middle 可持久化线段树 + 二分
2653: middle Time Limit: 20 Sec Memory Limit: 512 MBSubmit: 1298 Solved: 734[Submit][Status][Discu ...
CentOS 6/7安装ffmpeg
环境 CentOS 6/7 安装导入GPG key rpm --import http://packages.atrpms.net/RPM-GPG-KEY.atrpms 安装ATRPMS Repo ...
windows使用git时出现：warning: LF will be replaced by CRLF
windows中的换行符为 CRLF, 而在linux下的换行符为LF,所以在执行add . 时出现提示: 执行以下代码 $ rm -rf .git // 删除.git $ git config -- ...
C#------数字转中文
转载: http://www.jb51.net/article/8061.htm 方法二: static string ConvertToChinese(double x) { string s = ...
矢量图绘制工具Svg-edit调整画布的大小
矢量图绘制工具Svg-edit调整画布的大小 ------------------------------ ------------------------
Nodejs事件引擎libuv源码剖析之：高效线程池(threadpool)的实现
声明:本文为原创博文,转载请注明出处. Nodejs编程是全异步的,这就意味着我们不必每次都阻塞等待该次操作的结果,而事件完成(就绪)时会主动回调通知我们.在网络编程中,一般都是基于Reactor线程 ...
EasyPusher应用
转自https://github.com/EasyDarwin/EasyPusher 本文仅实际体验一下demo,分析一下如何应用. 1)EasyPusher框图预览 2) EasyPusher应用实 ...
JAVA WEB项目中各种路径的获取
JAVA WEB项目中各种路径的获取标签: java webpath文件路径 2014-02-14 15:04 1746人阅读评论(0) 收藏举报分类: JAVA开发(41) 1.可以在s ...
cross_domain
要传参数的页面引用cross_domain.js 这个是另外一个工程(m)的地址 <script type="text/javascript" src="htt ...

Python 小爬虫流程总结

Python 小爬虫流程总结的更多相关文章

随机推荐

热门专题