Python中的网络爬虫怎么用？

爬虫概述

（约2016年）网络爬虫个人使用和科研范畴基本不存在问题，但商业盈利范畴就要看对方了。

通过网站的Robots协议（爬虫协议）可以知道可以和不可以抓取的内容，其中User-Agent: 为允许的url，Allow:为允许的内容，Disallow: 为不允许。Disallow: /为禁止抓取允许以外的内容。 Disallow: /abc 表示禁止访问收录abc.php、abc.html和abc文件夹下的所有文件。 Disallow: /abc/ 表示仅禁止访问abc文件夹下的所有文件，但是不限制abc.php、abc.html文件。

爬取的时候要遵循Robots协议，约束网络爬虫程序速度；使用数据时必须遵守网站的知识产权。

爬虫流程

1、获取网站

2、解析网页（提取数据）

3、存储数据。

4、（1）获取网站——基础技术：request、urllib、selenium（模拟浏览器）；进阶技术：多进程多线程抓取、登陆抓取、突破IP封禁、服务器抓取。

（2）解析网页——基础技术：re正则表达式、BeautiSoup、lxml，进阶技术：解决中文乱码。

（3）存储数据——基础技术：txt文件、csv文件；进阶技术：MySQl、MongoDB。

安装

安装Anaconda来一键安装python编码环境。利用pip(window进cmd，Mac进terminal）安装bs4、request、lxml等第三方库。

pip install bs4

pip install request

pip install lxml

编译器Jupyter（其他还有Notepad++、SublimeTexture、Spyder），cmd下输入jupyter notebook浏览器启动Jupyter界面

*（自己弄的部分）Spyder安装pip install --pre -U spyder……好像有Anaconda最好不要用这个

Python基础

（1）严格的代码缩进，以Tab键或者4个空格进行缩进。

“#”后面是注释

*python没有限制关键字，方法和变量名也没有加以区分，编写的时候自己得注意取不同的名字。变量会根据赋值的内容自动决定类型。

输出语句

print(“内容”)

4种数据类型：1）String字符串、2）Number数字、3）list列表、4）Dictionaries字典。

String字符串——‘和“都可以用来放字符串，可以使用+来连接。

string1 ='abc'

str = "fe"

print(string1+str)

Number数字——常用的有int（整数）和float（浮点数）两种。如果要转换，在变量前加int或float。注意Number不能直接和string相加

thisSeven = 7

float1 = 1.1

chase = int(float1)

print(thisSeven+chase)

另外，Number还有长整数和复数。

5. list列表——列表可以包括任意种类数据类型！此外可以通过[起始下标：结束下标]其他的倒和一般的数组没什么区别。

*用[]赋值，查询也是[]

list1 = ['a', 2, "new", 1.9]

print(list1[1:3])

list1[3] = float(list1[1])

print(list1)

6.Dictionaries字典——可变容器模型，含有key和value（就是键值对啦）。key必须唯一，value可用任意种类数据类型。

*用{}赋值，但用[]查询

notebook = {"name": '1234', "age":7, "class":"first"}

print(notebook["name"])

print(notebook)

#循环遍历notebook的键和值

for key1, value1 in notebook.items():

print(key1, value1)

Python基础（1）++

python的列表还有一种只读格式——元组Tuple，它用（）进行赋值，且只能在初始化时赋值。

列表有追加元素的内置方法append（）

字典有内置方法keys()（获得所有键的值），values()

元组用 “( )” 标识，列表用 “[ ]” 标识，字典用 “{ }” 标识

type(变量) 查看该变量的数据类型，还可以用 isinstance（变量，类型）来判断是不是那种类型。type()不会认为子类是一种父类类型，isinstance()会认为子类是一种父类类型。

Python基础（2）

条件语句——格式上是if 条件 :，取代Java中（）的是一个在最后的：同样有else存在（但是else后面要加：），另外还有else if简写而成的elif。

a = 'book'

b = 'java'

c = "book"

if a == b :

print(a)

else :

print('a!=b')

if a == c :

print(a)

elif b == c :

print('b==c')

else :

print('c!=a/b')

循环语句——常用的有for循环和while循环两种，同样是（）变成末尾的：。不过python的for循环形式上更接近foreach循环，python中的循环还可以使用else。

myBook = ['java', 'python', 'c']

for book in myBook:

print(book)

print('\n')

for i,j in enumerate(('a','b','c')):

print (i,j)

for i,j in enumerate(myBook):

print (i,j)

count = 0

while count < 3:

print(myBook[count])

count = count + 1

for循环中利用内置函数 len() 和 range(),函数 len() 返回列表的长度，即元素的个数， range返回一个序列的数。(例子来自菜鸟）（菜鸟你的括号呢？）

fruits = ['banana', 'apple', 'mango']

for index in range(len(fruits)):

print ('当前水果 :', fruits[index])

else使用例子(例子来自菜鸟）

for num in range(10,20): # 迭代 10 到 20 之间的数字

for i in range(2,num): # 根据因子迭代

if num%i == 0: # 确定第一个因子

j=num/i # 计算第二个因子

print ('%d 等于 %d * %d' % (num,i,j))

break # 跳出当前循环

else: # 循环的 else 部分,不break跳出循环的话就会执行

print (num, '是一个质数')

此外循环中可以用continue、break、pass（什么也不做）。

3. 函数——参数（()里的内容）必须要正确地写入函数中

def add(x):

y = x + 1

return y

w = 1

print(w)

print(add(w))

运算符，外汇返佣http://www.fx61.com/，这里只提一下python中有**——幂 - 返回x的y次幂，//——取整除 - 返回商的整数部分（向下取整）并且没有++、–（- -，间隙被间隙掉了！）。另外与或非分别写成and、or、not。python还有成员运算符in、not in；身份运算符is，not is（用于比较两个对象的存储单元）

类

class Person:

#这是一个类变量，它的值将在这个类的所有实例之间共享

n = 0

#__init__构造方法,注意前后均有两个_

#self 代表类的实例，self 在定义类的方法时是必须有的

#，虽然在调用时不必传入相应的参数。

def __init__(self, name, age):

self.name = name

self.age = age

def detail(self): #通过这个函数来调用被封装的内容

print(self.name)

print(self.age)

obj1 = Person('sss', 16)#对象声明

obj1.detail()

obj1.name

obj1.n

继承格式

class 子类名(父类名):

构造方法重写时用super关键字来使用父类构造方法

class Father(object):

def __init__(self, name):

class Son(Father):

def __init__(self, name):

super(Son, self).__init__(name)

基础重载方法

下表列出了一些通用的功能，可以在自己的类重写：

__init__ ( self [,args...] )

构造函数

简单的调用方法: obj = className(args)

__del__( self )

析构方法, 删除一个对象

简单的调用方法 : del obj

__repr__( self )

转化为供解释器读取的形式

简单的调用方法 : repr(obj)

__str__( self )

用于将值转化为适于人阅读的形式

简单的调用方法 : str(obj)

__cmp__ ( self, x )

对象比较

简单的调用方法 : cmp(obj, x)

模块Module——是一个 Python 文件，以 .py 结尾，包含了 Python 对象定义和Python语句。使用 import 语句来引入模块。

# 导入模块

import support

# 现在可以调用模块里包含的函数了

support.print_func("Runoob")

Python中的网络爬虫怎么用？的更多相关文章

Python初学者之网络爬虫(二)
声明:本文内容和涉及到的代码仅限于个人学习,任何人不得作为商业用途.转载请附上此文章地址本篇文章Python初学者之网络爬虫的继续,最新代码已提交到https://github.com/octans ...
[Python学习] 简单网络爬虫抓取博客文章及思想介绍
前面一直强调Python运用到网络爬虫方面很有效,这篇文章也是结合学习的Python视频知识及我研究生数据挖掘方向的知识.从而简介下Python是怎样爬去网络数据的,文章知识很easy ...
Python 利用Python编写简单网络爬虫实例3
利用Python编写简单网络爬虫实例3 by:授客 QQ:1033553122 实验环境 python版本:3.3.5(2.7下报错实验目的获取目标网站“http://bbs.51testing. ...
Python 利用Python编写简单网络爬虫实例2
利用Python编写简单网络爬虫实例2 by:授客 QQ:1033553122 实验环境 python版本:3.3.5(2.7下报错实验目的获取目标网站“http://www.51testing. ...
Python中的网络扫描大杀器Scapy初探
Python中的网络扫描大杀器Scapy初探最近经历了Twisted的打击,这个网络编程实在看不懂,都摸不透它的内在逻辑,看来网络编程不是那么好弄的.还好,看到了scapy,这种网络的大杀器 ...
从零开始学Python 三（网络爬虫）
本章由网络爬虫的编写来学习python.首先写几行代码抓取百度首页,提提精神,代码如下: import urllib.request file=urllib.request.urlopen(" ...
Python 基础教程 —— 网络爬虫入门篇
前言 Python 是一种解释型.面向对象.动态数据类型的高级程序设计语言,它由 Guido van Rossum 于 1989 年底发明,第一个公开发行版发行于 1991 年.自面世以后,Pytho ...
Python初学者之网络爬虫
声明:本文内容和涉及到的代码仅限于个人学习,任何人不得作为商业用途. 本文将介绍我最近在学习Python过程中写的一个爬虫程序,将力争做到不需要有任何Python基础的程序员都能读懂.读者也可以先跳到 ...
智普教育Python培训之Python开发视频教程网络爬虫实战项目
网络爬虫项目实训:看我如何下载韩寒博客文章Python视频 01.mp4 网络爬虫项目实训:看我如何下载韩寒博客文章Python视频 02.mp4 网络爬虫项目实训:看我如何下载韩寒博客文章Pytho ...

随机推荐

idea设置忽略svn的文件或目录
1. 这个地方可以设置忽略的文件和目录,但是这里设置之后,我们在工程里面就看不到了 2. 这里设置提交是后要忽略的文件,比如我忽略的target目录,*.iml 我再1中设置了target目录发现我的 ...
tee - 从标准输入写往文件和标准输出
总览 (SYNOPSIS) tee [OPTION]... [FILE]... 描述 (DESCRIPTION) 把标准输入的数据复制到每一个文件 FILE, 同时送往标准输出. -a ...
struct解决socket黏包问题 (指令传输)
服务端代码如下 import struct import subprocess import socket server = socket.socket() server.bind(()) serve ...
ios执行失去焦点，不执行点击事件
原因:由于JavaScript为单线程,同一时间只能执行处理一个事件.“blur优先于click执行”.而在本示例中,由于blur处理程序,会将对下拉框展示区隐藏,所以导致其后续click事件并不会执 ...
css负边距之详解(子绝父相)
来源 | http://segmentfault.com 原文 | The Definitive Guide to Using Negative Margins 自从1998年CSS2作为推荐以 ...
2017 ACM/ICPC Asia Regional Shenyang Online 12 card card card
题目大意: 给出两个长度为n的序列A,B,从1开始依次加Ai,减Bi,分数为第一次为当前和为负数的位置以前的Ai之和(左闭右开区间).同时有一种操作可以把当前的A1,B1移动到序列最后,注意序列A的各 ...
org.springframework.web.servlet.DispatcherServlet异常
org.springframework.web.servlet.DispatcherServlet: No mapping found for HTTP request with URI [/] in ...
Dart编程实例 - Enabling Checked Mode
Dart编程实例 - Enabling Checked Mode void main() { int n="hello"; print(n); } 本文转自:http://codi ...
PHP ftp_pwd() 函数
定义和用法 ftp_pwd() 函数返回指定 FTP 连接的当前目录名称. 语法 ftp_pwd(ftp_connection) 参数描述 ftp_connection 必需.规定要使用的 FTP ...
前缀和+排序——cf1043E
先不考虑第二个条件要求i和所有其他人的分数和最小,选择x还是y,可以推出一个公式,即差xi-yi小的j都选y,反之都选x 那么按照xi-yi排序即可然后再考虑第二个条件,做减法就行 /* xi+y ...

Python中的网络爬虫怎么用？

Python中的网络爬虫怎么用？的更多相关文章

随机推荐

热门专题