由于前几天看电脑时间过长,在昨天的时候,两个眼睛就有点疼痛感觉,所以昨天晚上就没有学习,博客也没有跟着写,今早去校医院买了点药,上午把老师要求的电路板画完了,已经发出去做了,现在闲来无事,看了一会关于爬虫的书,现在做一下总结,可能比较枯燥. 1.会话 我们平时打电话的时候,从拨号到挂断电话,就可以称之为一个会话. 在web中,会话的作用就是用来存储用户会话所需要的属性以及一系列配置信息,这样的话,我们在网页之间跳转的时候,那么关于会话的一些信息就不会丢失了. 2.Cookies 在一些网页,我们…
一.爬虫基础 1.1 requests类 1.1.1 request的7个方法 requests.request() 实例化一个对象,拥有以下方法 requests.get(url, *args) requests.head() 头信息 requests.post() requests.put() requests.patch() 修改一部分内容 requests.delete() url = "http://quanben5.com/n/doupocangqiong/6.html"…
0x1.基础框架原理 1.1.爬虫基础 爬虫程序主要原理就是模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库或文件中 1.1.基础原理 1.发起HTTP请求 2.获取响应内容 3.解析内容 解析html数据 解析json数据 解析二进制数据 4.保存数据(数据库.文件) 1.2.发起HTTP请求-Request 1.HTTP请求方法: 常用的请求方法:GET,POST 其他请求方法:HEAD,PUT,DELETE,OPTHONS 2.请求URL Web上每种可用的资…
针对 崔庆才老师 的 https://ssr1.scrape.center 的爬虫基础练习.Threading多线程库.Time库.json库.BeautifulSoup4 爬虫库.py基本语法…
首先,推荐两个关于python爬虫不错的博客:Python爬虫入门教程专栏   和 Python爬虫学习系列教程 .写的都非常不错,我学习到了很多东西!在此,我就我看到的学到的进行总结一下! 爬虫就是一个不断的去抓去网页的程序,根据我们的需要得到我们想要的结果!但我们又要让服务器感觉是我们人在通过浏览器浏览不是程序所为!归根到底就是我们通过程序访问网站得到html代码,然后分析html代码获取有效内容的过程.下面让我们从最简单的爬虫开始: 爬取一个页面源代码 在python中,抓取网页的库是ur…
要想做爬虫,不可避免的要用到正则表达式,如果是简单的字符串处理,类似于split,substring等等就足够了,可是涉及到比较复杂的匹配,当然是正则的天下,不过正则好像好烦人的样子,那么如何做呢,熟记正则元字符和语法,找个在线匹配测试网站随时测试(其实在正则上我也是个菜逼...一直在慢(询)慢(问)测(大)试(牛)中得到正解),不过要相信,用熟了自然就巧了! 首先,推荐两篇博客,分别介绍了python自带的正则标准库re以及regex模块:Python正则表达式指南(re)     Pytho…
地址:https://github.com/yidao620c/core-scrapy 例子:https://github.com/geekan/scrapy-examples 中文翻译文档: https://github.com/marchtea/scrapy_doc_chs 基于redis的分布式爬虫策略 http://m.blog.csdn.net/article/details?id=50989104 代理地址: https://github.com/aivarsk/scrapy-pro…
1. urllib模块库 Urllib是python内置的HTTP请求库,urllib标准库一共包含以下子包: urllib.error 由urllib.request引发的异常类 urllib.parse URL解析组件 urllib.request 用于打开网址的可扩展库. urllib.response urllib使用的响应类. urllib.robotparser 加载robots.txt文件并回答有关其他网址可抓取性的问题. 使用urllib库进行post操作,如何建立post数据格…
BAT站在中国互联网的顶端,引导着中国互联网的发展走向...既受到了多数程序员的关注,也在被我们所惦记着... 关于SmartQQ的协议来自HexBlog,根据他的博客我自己也一步一步的去分析,去尝试,自己不了解不知道的总是神秘的,如果你有这种好奇心,那么真相就只有一个.接下来我先把协议放出来,至于分析方法,以后有机会再谈谈...其实我也是个半吊子水平...谁知道下次改了协议还灵不灵呢! 登录之前,获取二维码:https://ssl.ptlogin2.qq.com/ptqrshow?appid=…
首先要连接自己的数据库 import pymysql import requests #需要导入模块 db = pymysql.connect('localhost', 'root', '*********', 'mysql')#第三个是数据库密码,第四个是数据库名称 print("数据库连接成功!") print("---------------------------------------------------") r = requests.get(&quo…