网络爬虫笔记之http协议

http协议和https协议: HTTP协议:HyperText Transfer Protocol,超文本传输协议,是一种发布和接收HTML页面的方法.服务器端口号是80. HTTPS协议:是HTTP协议的加密版本,在HTTP下加入了SSL层.服务器端口号是443. url详解: URL是Uniform Resource Locator的简写,统一资源定位符. 一个URL由以下几部分组成: scheme://host:port/path/?query-string=xxx#anchor s…

Python网络爬虫笔记（五）：下载、分析京东P20销售数据

(一) 分析网页下载下面这个链接的销售数据 https://item.jd.com/6733026.html#comment 1. 翻页的时候,谷歌F12的Network页签可以看到下面的请求. 从Preview页签可以看出,这个请求是获取评论信息的 2. 对比第一页.第二页.第三页-请求URL的区别可以发现 page=0.page=1,0和1指的应该是页数. 第一页的 request url:没有这个rid=0& . 第二.三页-的request url:多了这个ri…

Java网络爬虫笔记

Java网络爬虫笔记 HttpClient来代替浏览器发起请求. select找到的是元素,也就是elements,你想要获取具体某一个属性的值,还是要用attr("")方法.标签里面的内容用text来获取 Selector选择器概述 tagname: 通过标签查找元素,比如:a ns|tag: 通过标签在命名空间查找元素,比如:可以用 fb|name 语法来查找 <fb:name> 元素 #id: 通过ID查找元素,比如:#logo .class: 通过class名称查找…

python3网络爬虫笔记

参考资料 Python官方文档知乎相关资料(1) 这篇非常好, 通俗易懂的总览整个Python学习框架. 知乎相关资料(2) 代码实现(一): 用Python抓取指定页面 #!/usr/bin/env python #encoding:UTF-8 import urllib.request url = "http://www.baidu.com" data = urllib.request.urlopen(url).read() data = data.decode('UTF-8')…

Windows网络编程笔记4 -- Winsock 协议相关知识

Win32平台上的Winsock编程,Winsock是一个与协议无关的接口.以下协议是我们需要了解的: 网络协议的特征包括: 1. 面向消息 2. 面向连接和无线接 3. 可靠性和次序性 4. 从容关闭(这是指协议中断,连接不会立即中断) 5. 广播数据 6. 多播数据 7. 服务质量(QOS) 8. 部分消息(大数据进行分段发送,分段接受) 9. 路由选择(考虑协议是否可路由) 10. 字节序 11. 最大传输单元 Windows支持的协议如下图 Winsocket协议…

用 Python 编写网络爬虫笔记

Chapter I 简介为什么要写爬虫? 每个网站都应该提供 API,然而这是不可能的即使提供了 API,往往也会限速,不如自己找接口注意已知条件(robots.txt 和 sitemap.xml) robots.txt 中可能会有陷阱 sitemap 中可能提供了重要的链接估算网站的大小一个简便方法是使用 site:example.com 查询,然而这种方法对于大战不适用识别网站所使用的技术 builtwith 模块 pip install builtwith builtwith.…

Python网络爬虫笔记（二）：链接爬虫和下载限速

(一)代码1(link_crawler()和get_links()实现链接爬虫) import urllib.request as ure import re import urllib.parse from delayed import WaitFor #下载网页并返回HTML(动态加载的部分下载不了) def download(url,user_agent='Socrates',num=2): print('下载:'+url) #设置用户代理 headers = {'user_agent':…

python网络爬虫笔记（九）

4.1.1 urllib2 和urllib是两个不一样的模块 urllib2最简单的就是使用urllie2.urlopen函数使用如下 urllib2.urlopen(url[,data[,timeout[,cafile[,capath[,cadefault[,context]]]]]]) 按照文档urllib2.urlopen可以打开HTTP HTTPS FTP协议的URL链接地址,主演使用HTTP协议,他的参数以ca开头的都是跟身份验证有关,不常使用,data参数是post方法提交URL时…

Python网络爬虫http和https协议

一.HTTP协议 1.官方概念: HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议.(虽然童鞋们将这条概念都看烂了,但是也没办法,毕竟这就是HTTP的权威官方的概念解释,要想彻底理解,请客观目移下侧......) 2.白话概念: HTTP协议就是服务器(Server)和客户端(Client)之间进行数据交互(相互传输数据)的一种形式.我们可以将Server…

python网络爬虫笔记（八）

一.pthon 序列化json格式 1.将python内置对象转换成json 模块,dumps()方法返回的是一个str,内容是标准的JSON,dump()方法可以直接吧JSON写入一个file-like-object,要把JSON反序列化为python对象,使用loads()或者对立的方法, 2.多线程和多进程 (multiprocessing) 3.常见的模块 datetime模块包含一个datetime的类.通过 from datetime import datetime 导入的才是d…

python网络爬虫笔记（六）

1.获取属性如果不存在就返回404,通过内置一系列函数,我们可以对任意python对象进行剖析,拿到其内部数据,但是要注意的是,只是在不知道对象信息的时候,我们可以获得对象的信息. 2.实例属性和类属性的绑定,由于python是动态语言,根据类创建的实例可以任意绑定属性,给实例绑定属性的方法通过实例变量或者self变量.实例属性属于各个实例所有,互不干扰,类的属性属于类所有,所有实例共享一个属性,不要对实例属性和类属性使用相同的名字,否则将产生难以发现的错误. 3.使用__slots__变量限…

python网络爬虫笔记（五）

一.python的类对象的继承 1.所有的父类都是object类,由于类可以起到模块的作用,因此,可以在创建实例的时候,巴西一些认为必须要绑定的属性填写上去,通过定义一个特殊的方法 __init__,绑定属性值.,注意 __init__ 方法的第一个参数永远是self,表示创建的是实例本身,在__init__方法内部,就可以将各种属性绑定到self,因为self就是指向创建实例本身.有了__init__方法就不能在创建实例的时候传入空的参数.而且必须传入与__intit__方法匹配的参数.但是s…

python网络爬虫笔记（四）

一.python中的高阶函数算法 1.sorted()函数的排序 sorted()函数是一个高阶函数,还可以接受一个key函数来实现自定义的函数排序,key指定的函数作用于每个序列元素上,并根据key函数返回的结果进行排序.在默认的情况下对字符的排序是按照ASCII的大小比较的由于'Z'<'a',所以大写字母会在小写字母的前面. 2.高阶函数可接受函数作为参数外,还可以把函数作为结果值返回,使用lazy_sum函数中定义了函数sum,内部函数sum可以引用外部函数lazy_sum的参数和局部…

python网络爬虫笔记（三）

一.切片和迭代 1.列表生成式 2.生成器的generate,但是generate保存的是算法,所以可以迭代计算,没有必要,每次调用generate 二.iteration 循环 1.凡是作用于for循环的对象都是Iterable的类型: 凡是作用于next()函数的对象都是Iteratior类型,表示一个惰性计算的序列; 集合数据类型list dict str 是iterable 但不是Iteratior对象.python d的for循环就是不断地调用next() 函数实现. 这里要说明的一…

python网络爬虫笔记（二）

一.函数调用的默认设置 1.def enroll(name,grnder,age=4,city='Shanghai'): print (''name:',name) print (''gender', gender) print('city',city) print (''age', age) 这样调用参数的时候只需要传入变化的参数 enroll('TianYaming','classONe'') 默认参数不符合的可以传入不同的参数. enroll('TianYaming', '…

python网络爬虫笔记（一）

一.查询数据字典型数据 1.先说说dictionary查找和插入的速度极快,不会随着key的增加减慢速度,但是占用的内存大 2.list查找和插入的时间随着元素的增加而增加,但还是占用的空间小,内存浪费少 index modules | next | previous | Python » English French Japanese dev (3.8) pre (3.7) 3.6.4 3.5 2.7 Documentation» The Python Standard Library …

Python网络爬虫笔记（四）：使用selenium获取动态加载的内容

(一) 说明上一篇只能下载一页的数据,第2.3.4....100页的数据没法获取,在上一篇的基础上修改了下,使用selenium去获取所有页的href属性值. 使用selenium去模拟浏览器有点麻烦,例如有300页就要点300次(按博客园这种一页20条,也就是6000条数据.要是几百万条,这个就得点好长时间了) 研究下有没有办法调用JS修改页面默认显示的数据条数(例如:博客园默认1页显示20条,改成默认显示1万条数据). (二) 完整代码 delayed.py的代码还是和之前一样.最好限…

Python网络爬虫笔记（一）：网页抓取方式和LXML示例

(一) 三种网页抓取方法 1. 正则表达式: 模块使用C语言编写,速度快,但是很脆弱,可能网页更新后就不能用了. 2. Beautiful Soup 模块使用Python编写,速度慢. 安装: pip install beautifulsoup4 3. Lxml 模块使用C语言编写,即快速又健壮,通常应该是最好的选择. (二) Lxml安装 pip install lxml 如果使用lxml的css选择器,还要安装下面的模块 pip install cssselect…

【Python爬虫】01：网络爬虫--规则

Python网络爬虫与信息提取目标:掌握定向网络数据爬取和网页解析的基本能力. the website is the API 课程分为以下部分: 1.requsets库(自动爬取HTML页面.自动网络请求提交) 2.robots.txt规则(网络爬虫排除标准)(合理合法的使用爬虫) 3.beautiful soup库(解析HTML页面)(提取相关项目) 4.projects项目(实战项目A/B) 5.re正则表达式库(正则表达式详解.提取页面关键信息) 6.专业网络爬虫框架scrapy*(网络…

python网络爬虫学习笔记

python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章文件夹 1. 介绍: 2. 从简单语句中開始: 3. 传送数据给server 4. HTTP头-描写叙述数据的数据 5. 异常 5.0.1. URLError 5.0.2. HTTPError 5.0.3. 处理异常 5.0.4. info和geturl 6. Opener和Handler 7. Basic Authentication 8. 代理 9. Timeout 设置 10. Cookie 1…

第3次作业-MOOC学习笔记：Python网络爬虫与信息提取

1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业 4.提供图片或网站显示的学习进度,证明学习的过程. 5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获. 很高兴能有机会在网上学习 Python 网络爬虫与信息提取这门课,通过这门课的学习,我一步步加深了对Python的理解,教学主要分为网络爬虫之前奏,规则,提取,实战,框架,这五个五部分. 在前奏中,个给我们介绍了常用的Pyt…

第三次作业-MOOC学习笔记：Python网络爬虫与信息提取

1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业第一周 Requests库的爬取性能分析 import requests import time def getHTMLText(url): try: r = requests.get(url,timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding return…

Python网络爬虫与信息提取笔记

直接复制粘贴笔记发现有问题文档下载地址//download.csdn.net/download/hide_on_rush/12266493 掌握定向网络数据爬取和网页解析的基本能力常用的 Python IDE 工具文本工具类 IDE 集成工具类 IDE IDLE PyCharm Notepad++ Wing Sublime Text * …

python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容

python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容 Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree). 它提供简单又常用的导航(navigating),搜索以及修改剖析树的操作.它可以大大节省你的编程时间. Beautiful Soup Documentation — Beautiful Soup 4.4.0 documentationhttp://www.crummy…

python3.4学习笔记(十三) 网络爬虫实例代码，使用pyspider抓取多牛投资吧里面的文章信息，抓取政府网新闻内容

python3.4学习笔记(十三) 网络爬虫实例代码,使用pyspider抓取多牛投资吧里面的文章信息PySpider:一个国人编写的强大的网络爬虫系统并带有强大的WebUI,采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器. 用pyspider的demo页面创建了一个爬虫,写一个正则表达式抓取多牛网站上特定的URL,很容易就得到想要的结果了,可以非常方便分析抓取页面里面的内容binux/pyspider · GitH…