本想给随机加个序号,才发现还得去返回看看文章的序号。好在cnblog能断点自动保存。 作为一个小程序员,点赞的同时还在想,谁知道咋实现这种实时保存呢?有知道的给个参考文档呗。太感激了!

重点在这里

有几个种技术我现在必须用最快的时间属性并掌握! 最急的是vue,其次是爬虫

待掌握

  1. node+mongodb+ vue

  2. 爬虫系列
    - 自带模块
    - 第三方模块

  3. Django和flask

看到一个不错的爬虫博客,简单整理下思路

python 学习思路是什么?

爬虫基本流程

  1. 发起请求
  2. 获得相应内容
  3. 解析内容
  4. 保存数据

什么是Reques,Response

应该详细了解一下HTTP请求!这几点比较重要

  1. 从输入url到得到结果的流程
  2. HTTP请求
  3. 请求方式
  4. URL
  5. 请求头
  6. 请求体
  7. 响应状态
  8. 响应头
  9. 响应体

能爬取什么样的数据

其实只要是网页中能看到的内容都可以爬取.简单分下类

  1. 网页文本: html文档,json/xml格式文本等
  2. 图片: 获取到的是二进制,保存为图片格式
  3. 视频: 也是二进制,

爬虫和反爬虫战争一直在继续, 爬虫必胜,只是难度增加而已!

如何解析数据

  1. 直接处理
  2. json 解析
  3. xml解
  4. 正则. 式解析
  5. BeautifulSoup 解析处理
  6. PyQuery 解析
  7. XPath 解析

如果抓取的页面数据和浏览器里看到的不一样咋办?

出现这种情况.表示战争已经开始了! 很多网站中的数据都是通过js,ajax 动态加载的! 核心是动态哦!! 所以直接通过get 请求获取的页面和浏览器显示不同! 也叫"动态解析". 现在我们就需要模拟浏览器了!

  1. 分析 ajax
  2. Seleninm/webdriver (操作浏览器)动态爬虫、自动化测试工具
  3. Splash
  4. PyV8 , Ghost.py

强调一下核心模拟浏览器的操作行为

如何保持数据?

  1. 文本: 存文本,json,xml
  2. 关系型数据库: SQLite, mysql, oracle, sql Server 等结构化数据
  3. 非关系型数据库: MongoDB, Redis 等 key:vaue 键值对形式存储
  1. print('无数次猛然发现,要弄点和实际略微挂钩的功能,咋都得熟悉这么多技术! ')
  2. print('程序员类还是有原因的, 哪个行和技术更新这么快')
  3. print('IT更新到底多快呢? 百度下: 摩尔定律!')

(Python爬虫01)-本想给随笔加个序号才发现这么不方便的更多相关文章

  1. Python爬虫-01:爬虫的概念及分类

    目录 # 1. 为什么要爬虫? 2. 什么是爬虫? 3. 爬虫如何抓取网页数据? # 4. Python爬虫的优势? 5. 学习路线 6. 爬虫的分类 6.1 通用爬虫: 6.2 聚焦爬虫: # 1. ...

  2. Python爬虫01——第一个小爬虫

    Python小爬虫——贴吧图片的爬取 在对Python有了一定的基础学习后,进行贴吧图片抓取小程序的编写. 目标: 首先肯定要实现图片抓取这个基本功能 然后实现对用户所给的链接进行抓取 最后要有一定的 ...

  3. python爬虫01在Chrome浏览器抓包

    尽量不要用国产浏览器,很多是有后门的 chrome是首选 百度 按下F12 element标签下对应的HTML代码 点击Network,可以看到很多请求 HTTP请求的方式有好几种,GET,POST, ...

  4. python爬虫之requests库

    在python爬虫中,要想获取url的原网页,就要用到众所周知的强大好用的requests库,在2018年python文档年度总结中,requests库使用率排行第一,接下来就开始简单的使用reque ...

  5. python爬虫实战(六)--------新浪微博(爬取微博帐号所发内容,不爬取历史内容)

    相关代码已经修改调试成功----2017-4-13 详情代码请移步我的github:https://github.com/pujinxiao/sina_spider 一.说明 1.目标网址:新浪微博 ...

  6. python爬虫基础要学什么,有哪些适合新手的书籍与教程?

    一,爬虫基础: 首先我们应该了解爬虫是个什么东西,而不是直接去学习带有代码的内容,新手小白应该花一个小时去了解爬虫是什么,再去学习带有代码的知识,这样所带来的收获是一定比你直接去学习代码内容要多很多很 ...

  7. 如何快速赚钱:Python爬虫

    Python爬虫和毛爷爷的关系:Python是最简单最流行的开发语言,毛爷爷是最招人喜欢的人民币.如果你学会了Python爬虫,就可以挣更多的毛爷爷. 大家发现没有,实际上Python早已经火起来了, ...

  8. Python爬虫实例:爬取B站《工作细胞》短评——异步加载信息的爬取

    很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面 右边 li 标签中的就是短 ...

  9. python爬虫入门01:教你在 Chrome 浏览器轻松抓包

    通过 python爬虫入门:什么是爬虫,怎么玩爬虫? 我们知道了什么是爬虫 也知道了爬虫的具体流程 那么在我们要对某个网站进行爬取的时候 要对其数据进行分析 就要知道应该怎么请求 就要知道获取的数据是 ...

随机推荐

  1. 【题解】洛谷P1731 [NOI1999] 生日蛋糕(搜索+剪枝)

    洛谷P1731:https://www.luogu.org/problemnew/show/P1731 思路 三重剪枝 当前表面积+下一层表面积如果超过最优值就退出 当前体积+下一层体积如果超过总体积 ...

  2. java循环作业0912

    题目一:一张纸的厚度大约是0.08mm,对折多少次之后能达到珠穆朗玛峰的高度(8848.13米)? double a = 0.08; double h =0; int i=0; for(i=1;h&l ...

  3. tomcate8配置多个二级域名问题解决根目录空白2017年12月9日

    <Host name="localhost" appBase="webapps" unpackWARs="true" autoDepl ...

  4. Angularjs实例2

    <!DOCTYPE html><html><head><meta http-equiv="Content-Type" content=&q ...

  5. mui的事件实现(持续更新)

    长按事件: mui('.mui-scroll').on('longtap', '.index-tab-item', function(e) { alert("长按生效") }); ...

  6. DBCacheServer升级

    前段时间完成了该服务的设计的功能,花了很多时间和经历,最终完成了一个版本,已经测试了:现在后期再次在以前的基础上,完成了一些扩展. 1.扩展了内存存储 最初版本只是采用了gauva cache进行存储 ...

  7. 通过xshell在linux上安装solr4.10.3

    通过xshell在linux上安装solr4.10.3 0)下载linux下的安装包 1)通过xftp6上传到linux上 3)在xshell下依次执行 解压命令:tar xvfz solr.tgz( ...

  8. linux命令系列-ln(软硬链接)

    linux命令 ln命令可以生成软链接和硬链接,也可叫做符号链接和实体链接. 有兴趣深入理解的可以查阅相关文档,一般的读者只需记住以下几点即可: .不管是软链接还是硬链接都不会额外增加磁盘空间(虽然实 ...

  9. 汇编:将指定的内存中连续N个字节填写成指定的内容

    1.loop指令实现 ;=============================== ;循环程序设计 ;将制定内存中连续count个字节填写成指定内容(te) ;loop指令实现 DATAS SEG ...

  10. Java : java基础(2) 集合&正则&异常&File类

    Obj 方法: hashCode() 返回内存地址值, getClass() 返回的时运行时类, getName() 返回类名, toString() 把名字和hashCode() 合在一起返回,如果 ...