本想给随机加个序号,才发现还得去返回看看文章的序号。好在cnblog能断点自动保存。 作为一个小程序员,点赞的同时还在想,谁知道咋实现这种实时保存呢?有知道的给个参考文档呗。太感激了!

重点在这里

有几个种技术我现在必须用最快的时间属性并掌握! 最急的是vue,其次是爬虫

待掌握

  1. node+mongodb+ vue

  2. 爬虫系列
    - 自带模块
    - 第三方模块

  3. Django和flask

看到一个不错的爬虫博客,简单整理下思路

python 学习思路是什么?

爬虫基本流程

  1. 发起请求
  2. 获得相应内容
  3. 解析内容
  4. 保存数据

什么是Reques,Response

应该详细了解一下HTTP请求!这几点比较重要

  1. 从输入url到得到结果的流程
  2. HTTP请求
  3. 请求方式
  4. URL
  5. 请求头
  6. 请求体
  7. 响应状态
  8. 响应头
  9. 响应体

能爬取什么样的数据

其实只要是网页中能看到的内容都可以爬取.简单分下类

  1. 网页文本: html文档,json/xml格式文本等
  2. 图片: 获取到的是二进制,保存为图片格式
  3. 视频: 也是二进制,

爬虫和反爬虫战争一直在继续, 爬虫必胜,只是难度增加而已!

如何解析数据

  1. 直接处理
  2. json 解析
  3. xml解
  4. 正则. 式解析
  5. BeautifulSoup 解析处理
  6. PyQuery 解析
  7. XPath 解析

如果抓取的页面数据和浏览器里看到的不一样咋办?

出现这种情况.表示战争已经开始了! 很多网站中的数据都是通过js,ajax 动态加载的! 核心是动态哦!! 所以直接通过get 请求获取的页面和浏览器显示不同! 也叫"动态解析". 现在我们就需要模拟浏览器了!

  1. 分析 ajax
  2. Seleninm/webdriver (操作浏览器)动态爬虫、自动化测试工具
  3. Splash
  4. PyV8 , Ghost.py

强调一下核心模拟浏览器的操作行为

如何保持数据?

  1. 文本: 存文本,json,xml
  2. 关系型数据库: SQLite, mysql, oracle, sql Server 等结构化数据
  3. 非关系型数据库: MongoDB, Redis 等 key:vaue 键值对形式存储

print('无数次猛然发现,要弄点和实际略微挂钩的功能,咋都得熟悉这么多技术! ')
print('程序员类还是有原因的, 哪个行和技术更新这么快')
print('IT更新到底多快呢? 百度下: 摩尔定律!')

(Python爬虫01)-本想给随笔加个序号才发现这么不方便的更多相关文章

  1. Python爬虫-01:爬虫的概念及分类

    目录 # 1. 为什么要爬虫? 2. 什么是爬虫? 3. 爬虫如何抓取网页数据? # 4. Python爬虫的优势? 5. 学习路线 6. 爬虫的分类 6.1 通用爬虫: 6.2 聚焦爬虫: # 1. ...

  2. Python爬虫01——第一个小爬虫

    Python小爬虫——贴吧图片的爬取 在对Python有了一定的基础学习后,进行贴吧图片抓取小程序的编写. 目标: 首先肯定要实现图片抓取这个基本功能 然后实现对用户所给的链接进行抓取 最后要有一定的 ...

  3. python爬虫01在Chrome浏览器抓包

    尽量不要用国产浏览器,很多是有后门的 chrome是首选 百度 按下F12 element标签下对应的HTML代码 点击Network,可以看到很多请求 HTTP请求的方式有好几种,GET,POST, ...

  4. python爬虫之requests库

    在python爬虫中,要想获取url的原网页,就要用到众所周知的强大好用的requests库,在2018年python文档年度总结中,requests库使用率排行第一,接下来就开始简单的使用reque ...

  5. python爬虫实战(六)--------新浪微博(爬取微博帐号所发内容,不爬取历史内容)

    相关代码已经修改调试成功----2017-4-13 详情代码请移步我的github:https://github.com/pujinxiao/sina_spider 一.说明 1.目标网址:新浪微博 ...

  6. python爬虫基础要学什么,有哪些适合新手的书籍与教程?

    一,爬虫基础: 首先我们应该了解爬虫是个什么东西,而不是直接去学习带有代码的内容,新手小白应该花一个小时去了解爬虫是什么,再去学习带有代码的知识,这样所带来的收获是一定比你直接去学习代码内容要多很多很 ...

  7. 如何快速赚钱:Python爬虫

    Python爬虫和毛爷爷的关系:Python是最简单最流行的开发语言,毛爷爷是最招人喜欢的人民币.如果你学会了Python爬虫,就可以挣更多的毛爷爷. 大家发现没有,实际上Python早已经火起来了, ...

  8. Python爬虫实例:爬取B站《工作细胞》短评——异步加载信息的爬取

    很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面 右边 li 标签中的就是短 ...

  9. python爬虫入门01:教你在 Chrome 浏览器轻松抓包

    通过 python爬虫入门:什么是爬虫,怎么玩爬虫? 我们知道了什么是爬虫 也知道了爬虫的具体流程 那么在我们要对某个网站进行爬取的时候 要对其数据进行分析 就要知道应该怎么请求 就要知道获取的数据是 ...

随机推荐

  1. html下载文件和上传文件(图片)(java后台(HttpServlet))打开保存路径和选择文件录取+(乱码UTF-8)+包

    下载文件: //通过路径得到一个输入流 String path = "获取需要下载的文件路径"; //path.lastIndexOf(".")+1可以获取文件 ...

  2. SpingMVC前置控制器过滤问题

    /<servlet-mapping> <servlet-name>Springmvc</servlet-name> <url-pattern>/< ...

  3. udt的java版本judt项目持续升级1.2版本

    修改了一些问题,努力兼容udt4版本.具体内容查看项目更新说明: 当前项目版本1.2 地址:https://github.com/jinyuttt/judt

  4. vue 父子组件相互传值

    子传父 逻辑: 单击子组件的按钮 ,触发它的单击事件   通过 $emit 触发父级自定义事件 并传一个值给父级 <div id="id"> <h3>儿子 ...

  5. nodejs+express开发blog(2)

    npm install -g nodemon 1,把ejs文件修改为html文件 app.engine('.html', require('ejs').__express);app.set('view ...

  6. ABAP术语-Object Type

    Object Type 原文:http://www.cnblogs.com/qiangsheng/archive/2008/03/06/1093159.html Description created ...

  7. Python的核心数据类型

    ​ Python的核心数据类型有:数字,字符串,列表,字典,元组,文件等. 数字 ​ 数字类型有:整形int,浮点型float,复数complex,布尔型bool. 整形 ​ 整型数是不带有小数部分的 ...

  8. kubeadm常见报错和解决方法

    k8s随着社区不断壮大国内使用率现在也是比较高的,常用的部署方式主要还是以二进制和kubeadm为主,当然1.13之前大部分人还是以二进制,但是随着版本更新kubeadm已经逐步适用于生成环境,由于k ...

  9. 【bind服务简单发布及优化部署】

    主DNS 1:安装bind服务包 2:vim  /etc/named.conf区域解析控制文件 3:vim /etc/named.rfc1912.zones解析方向文件 4:vim var/named ...

  10. 【ospf-stub区域配置】

    根据项目需求搭建好如下拓扑图 配置rt1的环回口地址及g0/0/0和g0/0/1的ip地址 配rt1的ospf 配置rt2的环回口地址和g0/0/0和g0/0/1 配置rt2的ospf 配置rt3的环 ...