今天在使用python爬虫时遇到一个奇怪的问题,使用的是自带的urllib库,在解析网页时获取到的为b'\x1f\x8b\x08\x00\x00\x00\x00...等十六进制数字,尝试使用chardet来检查编码格式时发现encoding为None,因为以前一直用的是requests库,所以没有仔细注意过这个问题,经过详细搜索后分析如下(下面代码是修改后加入gzip的): 转载注明http://www.cnblogs.com/RainLa/p/8057367.html 一.HTTP 内容协商…
笔记:服务器压缩方案 来源于 Accept-Encoding: gzip, deflate 问题 事情起因:odoo demo 没有启动web 压缩 目前流行的 web 压缩技术 gzip br 支持方式 参考信息: 从python爬虫引发出的gzip,deflate,sdch,br压缩算法分析 http://www.cnblogs.com/RainLa/p/8057367.html 启用 Brotli 压缩算法,对比 Gzip 压缩 CDN 流量再减少 20% https://tech.upy…
HTTP和HTTPS HTTP(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收HTML页面的方法 HTTPS(HyperText Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HTTP下加入SSL层. SSL(Secure Socket Layer安全套接层)主要用于web的安全传输协议,在传输层对网络连接进行加密,保障在Internet上数据传输的安全. HTTP的端口号为80 HT…
一:HTTP和HTTPS HTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法,以明文的形式传输,效率高,但是不安全 HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)HTTP的安全版,在HTTP下加入SSL层,传输之前数据进行加密,之后解密获取内容,效率低,安全 SSL(Secure Sockets Layer 安全套接层)主要用于Web的安全传输协议,在…
本文绍如何利用python爬虫下载bilibili番剧弹幕. 准备: python3环境 需要安装BeautifulSoup,selenium包 phantomjs 原理: 通过aid下载bilibili番剧弹幕 通过aid获取cid,如: http://www.bilibili.com/widget/getPageList?aid=9654289 下载弹幕地址:http://comment.bilibili.com/cid.xml 代码: # -*- coding: utf-8 -*- imp…
一.HTTP.HTTPS介绍 HTTP协议(超文本传输协议):一种发布.接收HTML页面的方法 HTTPS协议:简单讲是HTTP安全版,在HTTP下加入SSL层 SSL(安全套接层),用于WEB的安全传输协议,在传输层对网络连接进行加密,保障在Internet上数据传输的安全 端口: HTTP端口号为80 HTTPS端口号为443 HTTP工作原理 网络爬虫抓取过程可以理解为模拟浏览器操作的过程. 浏览器的主要功能是向服务器发出请求,在浏览器窗口中展示您选择的网络资源,HTTP是一套计算机通过网…
2017-08-06 19:52:21 目标:获取上交所和深交所所有股票的名称和交易信息输出:保存到文件中 技术路线:scrapy 获取股票列表:东方财富网:http://quote.eastmoney.com/stocklist.html获取个股信息:百度股票:https://gupiao.baidu.com/stock/单个股票:https://gupiao.baidu.com/stock/sz002439.html 程序框架 编写spider处理链接爬取和页面解析,编写pipelines处…
requests+正则表达式抓取猫眼电影top100 一.首先我们先分析下网页结构 可以看到第一页的URL和第二页的URL的区别在于offset的值,第一页为0,第二页为10,以此类推. 二.<dd>标签的结构(含有电影相关信息) 三.源代码 import requests import re import json from requests.exceptions import RequestException #获取页面源代码 def get_one_page(url,headers):…
python爬虫如何POST request payload形式的请求1. 背景最近在爬取某个站点时,发现在POST数据时,使用的数据格式是request payload,有别于之前常见的 POST数据格式(Form data).而使用Form data数据的提交方式时,无法提交成功. 于是上网查了下二者的区别:http://xiaobaoqiu.github.io/blog/2014/09/04/form-data-vs-request-payload/,下面做了搬运工(侵权立删…)1.1.…
闲着无聊,逛知乎.发现想找点有意思的回答也不容易,就想说要不写个爬虫帮我把点赞数最多的给我搞下来方便阅读,也许还能做做数据分析(意淫中--) 鉴于之前用python写爬虫,帮运营人员抓取过京东的商品品牌以及分类,这次也是用python来搞简单的抓取单页面版,后期再补充哈. #-*- coding: UTF-8 -*- import requests import sys from bs4 import BeautifulSoup #------知乎答案收集---------- #获取网页body…