Python中的网络爬虫怎么用?
爬虫概述
(约2016年)网络爬虫个人使用和科研范畴基本不存在问题,但商业盈利范畴就要看对方了。
通过网站的Robots协议(爬虫协议)可以知道可以和不可以抓取的内容,其中User-Agent: 为允许的url,Allow:为允许的内容,Disallow: 为不允许。Disallow: /为禁止抓取允许以外的内容。 Disallow: /abc 表示禁止访问收录abc.php、abc.html和abc文件夹下的所有文件。 Disallow: /abc/ 表示仅禁止访问abc文件夹下的所有文件,但是不限制abc.php、abc.html文件。
爬取的时候要遵循Robots协议,约束网络爬虫程序速度;使用数据时必须遵守网站的知识产权。
爬虫流程
1、获取网站
2、解析网页(提取数据)
3、存储数据。
4、(1)获取网站——基础技术:request、urllib、selenium(模拟浏览器);进阶技术:多进程多线程抓取、登陆抓取、突破IP封禁、服务器抓取。
(2)解析网页——基础技术:re正则表达式、BeautiSoup、lxml,进阶技术:解决中文乱码。
(3)存储数据——基础技术:txt文件、csv文件;进阶技术:MySQl、MongoDB。
安装
安装Anaconda来一键安装python编码环境。利用pip(window进cmd,Mac进terminal)安装bs4、request、lxml等第三方库。
pip install bs4
pip install request
pip install lxml
编译器Jupyter(其他还有Notepad++、SublimeTexture、Spyder),cmd下输入jupyter notebook浏览器启动Jupyter界面
*(自己弄的部分)Spyder安装pip install --pre -U spyder……好像有Anaconda最好不要用这个
Python基础
(1)严格的代码缩进,以Tab键或者4个空格进行缩进。
“#”后面是注释
*python没有限制关键字,方法和变量名也没有加以区分,编写的时候自己得注意取不同的名字。变量会根据赋值的内容自动决定类型。
输出语句
print(“内容”)
4种 数据类型 :1)String字符串、2)Number数字、3)list列表、4)Dictionaries字典。
String字符串——‘和“都可以用来放字符串,可以使用+来连接。
string1 ='abc'
str = "fe"
print(string1+str)
Number数字——常用的有int(整数)和float(浮点数)两种。如果要转换,在变量前加int或float。注意Number不能直接和string相加
thisSeven = 7
float1 = 1.1
chase = int(float1)
print(thisSeven+chase)
另外,Number还有长整数和复数。
5. list列表——列表可以包括任意种类数据类型!此外可以通过[起始下标:结束下标]其他的倒和一般的数组没什么区别。
*用[]赋值,查询也是[]
list1 = ['a', 2, "new", 1.9]
print(list1[1:3])
list1[3] = float(list1[1])
print(list1)
6.Dictionaries字典——可变容器模型,含有key和value(就是键值对啦)。key必须唯一,value可用任意种类数据类型。
*用{}赋值,但用[]查询
notebook = {"name": '1234', "age":7, "class":"first"}
print(notebook["name"])
print(notebook)
#循环遍历notebook的键和值
for key1, value1 in notebook.items():
print(key1, value1)
Python基础(1)++
python的列表还有一种只读格式——元组Tuple,它用()进行赋值,且只能在初始化时赋值。
列表有追加元素的内置方法append()
字典有内置方法keys()(获得所有键的值),values()
元组用 “( )” 标识, 列表用 “[ ]” 标识,字典用 “{ }” 标识
type(变量) 查看该变量的数据类型,还可以用 isinstance(变量,类型) 来判断是不是那种类型。type()不会认为子类是一种父类类型,isinstance()会认为子类是一种父类类型。
Python基础(2)
条件语句——格式上是if 条件 :,取代Java中()的是一个在最后的:同样有else存在(但是else后面要加:),另外还有else if简写而成的elif。
a = 'book'
b = 'java'
c = "book"
if a == b :
print(a)
else :
print('a!=b')
if a == c :
print(a)
elif b == c :
print('b==c')
else :
print('c!=a/b')
循环语句——常用的有for循环和while循环两种,同样是()变成末尾的:。不过python的for循环形式上更接近foreach循环,python中的循环还可以使用else。
myBook = ['java', 'python', 'c']
for book in myBook:
print(book)
print('\n')
for i,j in enumerate(('a','b','c')):
print (i,j)
for i,j in enumerate(myBook):
print (i,j)
count = 0
while count < 3:
print(myBook[count])
count = count + 1
for循环中利用内置函数 len() 和 range(),函数 len() 返回列表的长度,即元素的个数, range返回一个序列的数。(例子来自菜鸟)(菜鸟你的括号呢?)
fruits = ['banana', 'apple', 'mango']
for index in range(len(fruits)):
print ('当前水果 :', fruits[index])
else使用例子(例子来自菜鸟)
for num in range(10,20): # 迭代 10 到 20 之间的数字
for i in range(2,num): # 根据因子迭代
if num%i == 0: # 确定第一个因子
j=num/i # 计算第二个因子
print ('%d 等于 %d * %d' % (num,i,j))
break # 跳出当前循环
else: # 循环的 else 部分,不break跳出循环的话就会执行
print (num, '是一个质数')
此外循环中可以用continue、break、pass(什么也不做)。
3. 函数——参数(()里的内容)必须要正确地写入函数中
def add(x):
y = x + 1
return y
w = 1
print(w)
print(add(w))
运算符,外汇返佣http://www.fx61.com/,这里只提一下python中有**——幂 - 返回x的y次幂,//——取整除 - 返回商的整数部分(向下取整)并且没有++、–(- -,间隙被间隙掉了!)。另外与或非分别写成and、or、not。python还有成员运算符in、not in;身份运算符is,not is(用于比较两个对象的存储单元)
类
class Person:
#这是一个类变量,它的值将在这个类的所有实例之间共享
n = 0
#__init__构造方法,注意前后均有两个_
#self 代表类的实例,self 在定义类的方法时是必须有的
#,虽然在调用时不必传入相应的参数。
def __init__(self, name, age):
self.name = name
self.age = age
def detail(self): #通过这个函数来调用被封装的内容
print(self.name)
print(self.age)
obj1 = Person('sss', 16)#对象声明
obj1.detail()
obj1.name
obj1.n
继承格式
class 子类名(父类名):
构造方法重写时用super关键字来使用父类构造方法
class Father(object):
def __init__(self, name):
class Son(Father):
def __init__(self, name):
super(Son, self).__init__(name)
基础重载方法
下表列出了一些通用的功能,可以在自己的类重写:
__init__ ( self [,args...] )
构造函数
简单的调用方法: obj = className(args)
__del__( self )
析构方法, 删除一个对象
简单的调用方法 : del obj
__repr__( self )
转化为供解释器读取的形式
简单的调用方法 : repr(obj)
__str__( self )
用于将值转化为适于人阅读的形式
简单的调用方法 : str(obj)
__cmp__ ( self, x )
对象比较
简单的调用方法 : cmp(obj, x)
模块Module——是一个 Python 文件,以 .py 结尾,包含了 Python 对象定义和Python语句。使用 import 语句来引入模块。
# 导入模块
import support
# 现在可以调用模块里包含的函数了
support.print_func("Runoob")
Python中的网络爬虫怎么用?的更多相关文章
- Python初学者之网络爬虫(二)
声明:本文内容和涉及到的代码仅限于个人学习,任何人不得作为商业用途.转载请附上此文章地址 本篇文章Python初学者之网络爬虫的继续,最新代码已提交到https://github.com/octans ...
- [Python学习] 简单网络爬虫抓取博客文章及思想介绍
前面一直强调Python运用到网络爬虫方面很有效,这篇文章也是结合学习的Python视频知识及我研究生数据挖掘方向的知识.从而简介下Python是怎样爬去网络数据的,文章知识很easy ...
- Python 利用Python编写简单网络爬虫实例3
利用Python编写简单网络爬虫实例3 by:授客 QQ:1033553122 实验环境 python版本:3.3.5(2.7下报错 实验目的 获取目标网站“http://bbs.51testing. ...
- Python 利用Python编写简单网络爬虫实例2
利用Python编写简单网络爬虫实例2 by:授客 QQ:1033553122 实验环境 python版本:3.3.5(2.7下报错 实验目的 获取目标网站“http://www.51testing. ...
- Python中的网络扫描大杀器Scapy初探
Python中的网络扫描大杀器Scapy初探 最近经历了Twisted的打击,这个网络编程实在看不懂,都摸不透它的内在逻辑,看来网络编程不是那么好弄的.还好,看到了scapy,这种网络的大杀器 ...
- 从零开始学Python 三(网络爬虫)
本章由网络爬虫的编写来学习python.首先写几行代码抓取百度首页,提提精神,代码如下: import urllib.request file=urllib.request.urlopen(" ...
- Python 基础教程 —— 网络爬虫入门篇
前言 Python 是一种解释型.面向对象.动态数据类型的高级程序设计语言,它由 Guido van Rossum 于 1989 年底发明,第一个公开发行版发行于 1991 年.自面世以后,Pytho ...
- Python初学者之网络爬虫
声明:本文内容和涉及到的代码仅限于个人学习,任何人不得作为商业用途. 本文将介绍我最近在学习Python过程中写的一个爬虫程序,将力争做到不需要有任何Python基础的程序员都能读懂.读者也可以先跳到 ...
- 智普教育Python培训之Python开发视频教程网络爬虫实战项目
网络爬虫项目实训:看我如何下载韩寒博客文章Python视频 01.mp4 网络爬虫项目实训:看我如何下载韩寒博客文章Python视频 02.mp4 网络爬虫项目实训:看我如何下载韩寒博客文章Pytho ...
随机推荐
- Linux主机名的修改以及配置
查询主机名: [root@localhost ~]# hostnamelocalhost.localdomain [root@localhost ~]# vim /etc/sysconfig/netw ...
- vue插件安装
百度云下载插件 https://pan.baidu.com/s/13QhPilzJa8yu3HvKCt47Pw 学习Vue.js时,Chrome浏览器安装Vue.js devtool能很方便的查看 ...
- concurrent=false/true的定时任务job策略介绍
前言: 四种测试情况,cronExpression = 0/30 * * * * ? : 1,一个trigger,job设置的是每30s执行一次,实际需要75s:concurrent=false: 2 ...
- 一键对centos7.6安装python3环境已经pip3
1 yum -y install "Development tools" 2 yum -y install zlib-devel bzip2-devel openssl-devel ...
- php操作redis--字符串篇
前提:已经安装好了redis和相关拓展 常用函数:set/get/decr/incr等 应用场景:普遍的key/value存储类型 连接: $redis = new Redis(); $redis-& ...
- layer.msg的使用
源码: layer.msg('只想弱弱提示'); layer.msg('表情提示', {icon: 6}); layer.msg('关闭后想做些什么呢', function(){ //自动执行这里面的 ...
- JavaWeb开发中遇到的错误:org.apache.catalina.core.StandardWrapperValve invoke
org.apache.catalina.core.StandardWrapperValve invoke 今天写代码,竟然接连遇到这个异常好几次.debug几个小时才弄明白,晕. 上网找了些拼凑下做个 ...
- NX二次开发-基于MFC界面的NX对Excel读写操作(OLE方式(COM组件))
NX二次开发API里没有对EXCAL读写操作的相关函数,市面上有很多种方法去实现,比如UFUN调KF,ODBC,OLE(COM组件)等等.这里我是用的OLE(COM组件)方式去做的,这种在VC上创建的 ...
- LInux多线程编程----线程特定数据的处理函数
1.pthread_key_t和pthread_key_create() 线程中特有的线程存储, Thread Specific Data .线程存储有什么用了?他是什么意思了?大家都知道,在多线程程 ...
- OS: 生产者消费者问题(二) ---- 系统V IPC通信-信号量和共享内存
在上一篇“OS: 生产者消费者问题(多进程+共享内存+信号量)”中提到的方法二: 如果进程之间并没有父子关系,但是协商好了共享存储的 KEY , 那么在每个进程中,就可以通过 KEY 以及 shmge ...