网络爬虫

  • HTML超文本标记语言
  • HTTP协议
  • 简单的网络请求
  • python模块模拟浏览器发送请求
  • 爬虫小案例

爬虫简介

  1. 我们一般情况
  2. 都是通过浏览器正常访问服务端获取资源浏览器展示给用户看
  3. 爬虫
  4. 模拟浏览器发送请求 获取网页源数据 内部自动解析处理(目标数据) 存放于数据库中
  5. 好不夸张的概括一下
  6. 互联网就像是蜘蛛网,而爬虫就像是网上的蜘蛛
  7. 理论情况下只要给我们一个落脚点,我们就可以顺着互联网将互联网上面的所有的数据全部爬取下来
  8. 爬虫的价值
  9. 可以用最小的代价换取最丰厚的资源

请求方式

  1. """
  2. URL:统一资源定位符(网址)
  3. """
  4. 1.get请求
  5. get请求就类似于朝别人要数据
  6. eg:浏览器地址栏输入网址回车朝该地址要数据
  7. get请求携带数据的方式非常的具有特点,只能跟在网址的后面
  8. url?username=jason&password=123
  9. get请求携带的参数只能是不敏感的数据,并且get请求携带的数据大小有限制
  10. 最多好像不超过4KB左右
  11. 2.post请求
  12. post请求就类似于你朝别人提交数据
  13. eg:用户登录要将你的用户名和密码发送给后端去数据库校验
  14. post请求携带数据的方式是比较隐蔽的,是放在请求体里面的
  15. 数据相对来说比较安全,并且数据量较大

HTTP协议

  1. 超文本传输协议
  2. 规定了浏览器与服务端之间数据交互的格式
  3. 1.请求数据的格式
  4. 请求首行(请求方式 协议版本(HTTP/1.1) URL)
  5. 请求头(一堆key:value键值对)
  6. 请求体(post请求携带的数据)
  7. 2.响应数据的格式
  8. 响应首行(协议版本 状态码 描述)
  9. 响应头(一堆key:value键值对)
  10. 响应体(展示给用户看的页面)
  11. 3.响应状态码
  12. 用简单的数字来描述一串中文意思
  13. 1XX:服务端已经接收到了你的数据正在处理,你可以继续提交数据
  14. 2XX:请求已经响应成功 已经返回了想要的数据(200 OK)
  15. 3XX:重定向(原本想访问A页面但是莫名的跳转到了B页面)
  16. 4XX:请求错误(404请求资源不存在,403请求不符合条件)
  17. 5XX:服务器内部错误(代码出现bug了,机房着火了,服务器断电了...500)

HTML超文本标记语言

  1. 是构造网页的骨架
  2. HTML的注释
  3. <!--注释-->
  4. 学习HTML的时候所见即所得
  5. 包含HTML标签代码的文件后缀名都是.html结尾
  6. 如果一个文件的后缀名是.html结尾,那么说明该文件需要用浏览器打开

前端三剑客

  1. 1.HTML
  2. 构造网页的骨架
  3. 2.CSS
  4. 给骨架添加样式
  5. 3.JS
  6. 给骨架添加动态效果

文档结构

  1. <html>
  2. <head></head>
  3. <body></body>
  4. </html>
  5. head内填入的内容基本都不是给人看的而是给浏览器看的
  6. body内填入的内容就是展示给用户看的内容
  7. HTML标签分类
  8. 1.双标签
  9. <head></head>
  10. 2.自闭和标签
  11. <img/>

head内常用标签(了解)

  1. title 控制网页的标题
  2. style 标签内部可以书写控制HTML样式的css代码
  3. link 通过href属性可以引入外部css文件
  4. script
  5. 1、标签内部可以直接书写js代码
  6. 2、通过src属性可以引入外部js文件
  7. <meta name="keywords" content="meta总结,html meta,meta属性,meta跳转">
  8. <meta name="description" content="老男孩教育Python学院">

body内常用标签

  1. h1系列(h1~h6) 标题标签
  2. p 段落标签
  3. <s>删除</s>
  4. <b>加粗</b>
  5. <u>下划线</u>
  6. <i>斜体</i>
  7. <br> 换行
  8. <hr> 分割线

标签分类

  1. 1.块儿级标签 h p br hr
  2. 独占一行
  3. 2.行内标签 s b u i
  4. 自身文本多大就占多大

常用符号

  1. &nbsp; 空格
  2. <p> a &gt; b </p>
  3. <p> a &lt; b </p>
  4. <p> a &amp; b</p>
  5. <p> &yen;99999999 </p>
  6. <p> 版权&copy; </p>
  7. <p> 商标&reg; </p>

布局标签

  1. div
  2. 块儿级标签
  3. span
  4. 行内标签
  5. # div和span多用于页面的前期布局 用div先划定区域之后往区域内填充相应的内容即可

标签的嵌套

  1. 1.块儿级标签可以嵌套块儿级标签和行内标签 div
  2. 2.行内标签只能嵌套行内标签 span
  3. 3.p标签虽然是块儿级标签但是它只能嵌套行内标签
  4. """
  5. 因为前段页面是需要直接展示给用户看的,所以前段页面不会轻易的报错
  6. 哪怕你写的语法不规范也会最大努力的帮你去调整
  7. """

常见标签

  1. <img src="111.jpg" alt="这是个妹纸" title="这是前女友">
  2. src既可以放本地图片地址也可以放远程图片地址
  3. alt当图片加载不出来的时候自动的提示
  4. title鼠标悬浮在图片上之后自动的提示
  5. height
  6. width
  7. 如果你只指定一个另外一个会等比例缩放
  8. 同时指定的时候可能会导致图片失真
  9. <a href="https://www.sogo.com" target="_self">点我有你好看~</a>
  10. <a href="https://www.sogo.com" target="_blank">点我有你好看~</a>
  11. target参数
  12. 默认在当前页面跳转
  13. _blank新建页面跳转

列表标签

  1. <ul>无序列表
  2. <li>111</li>
  3. <li>222</li>
  4. <li>333</li>
  5. </ul>
  6. # 虽然本身很丑 但是调节完样式之后会非常的好看(只要是有规则的横向或者竖向排列基本上使用的都是无序列表)
  7. <ol type="I"> # type用来控制顺序到底是按照什么来
  8. <li>111</li>
  9. <li>222</li>
  10. <li>333</li>
  11. </ol>
  12. <dl> # 标题列表
  13. <dt>标题1</dt>
  14. <dd>内容1</dd>
  15. <dt>标题2</dt>
  16. <dd>内容1</dd>
  17. <dd>内容2</dd>
  18. </dl>

表格标签

  1. # 应用场景就是用来展示多个数据的
  2. 先写结构
  3. <table>
  4. <thead></thead>
  5. <tbody></tbody>
  6. </table>
  7. <table border="1"> # 如果想加一个表格先就用border
  8. <thead>
  9. <tr> #一个tr就表示一行
  10. <th>ID</th> # th加粗
  11. <th>用户名</th>
  12. <th>年龄</th>
  13. <th>操作</th>
  14. </tr>
  15. </thead>
  16. <tbody>
  17. <tr>
  18. <td>1</td> # td普通文本
  19. <td>jason</td>
  20. <td>18</td>
  21. <td>
  22. <a href="">编辑</a>
  23. <a href="">删除</a>
  24. </td>
  25. </tr>
  26. </tbody>
  27. </table>

初识html及网络爬虫概念的更多相关文章

  1. python 网络爬虫概念与HTTP(s)协议

    1. 爬虫相关概念 1.1 定义 爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程 1.2 主流语言实现爬虫优劣 php:可以实现爬虫.但是php在实现爬虫中支持多线程和多进程方面 ...

  2. python网络爬虫之初识网络爬虫

    第一次接触到python是一个很偶然的因素,由于经常在网上看连载小说,很多小说都是上几百的连载.因此想到能不能自己做一个工具自动下载这些小说,然后copy到电脑或者手机上,这样在没有网络或者网络信号不 ...

  3. Python 网络爬虫基本概念篇

    爬虫的概念 网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.这是百度百科对爬虫的定义,其实,说简单点,爬虫 ...

  4. 网络爬虫深究-初识HTTP和https常识

    网络爬虫专题--HTTP基本原理 URI和URL.URN的关系 超文本 HTTP和HTTPS URI和URL 首先,我们来了解一下URI和URL,URI,即统一资源标志符,URL,即统一资源定位符. ...

  5. 03.Python网络爬虫第一弹《Python网络爬虫相关基础概念》

    爬虫介绍 引入 之前在授课过程中,好多同学都问过我这样的一个问题:为什么要学习爬虫,学习爬虫能够为我们以后的发展带来那些好处?其实学习爬虫的原因和为我们以后发展带来的好处都是显而易见的,无论是从实际的 ...

  6. Python网络爬虫第一弹《Python网络爬虫相关基础概念》

    爬虫介绍 引入 之前在授课过程中,好多同学都问过我这样的一个问题:为什么要学习爬虫,学习爬虫能够为我们以后的发展带来那些好处?其实学习爬虫的原因和为我们以后发展带来的好处都是显而易见的,无论是从实际的 ...

  7. Python爬虫《Python网络爬虫相关基础概念》

    引入 之前在授课过程中,好多同学都问过我这样的一个问题:为什么要学习爬虫,学习爬虫能够为我们以后的发展带来那些好处?其实学习爬虫的原因和为我们以后发展带来的好处都是显而易见的,无论是从实际的应用还是从 ...

  8. 03,Python网络爬虫第一弹《Python网络爬虫相关基础概念》

    爬虫介绍 引入 为什么要学习爬虫,学习爬虫能够为我们以后的发展带来那些好处?其实学习爬虫的原因和为我们以后发展带来的好处都是显而易见的,无论是从实际的应用还是从就业上. 我们都知道,当前我们所处的时代 ...

  9. 《Python网络爬虫相关基础概念》

    爬虫介绍 引入 之前在授课过程中,好多同学都问过我这样的一个问题:为什么要学习爬虫,学习爬虫能够为我们以后的发展带来那些好处?其实学习爬虫的原因和为我们以后发展带来的好处都是显而易见的,无论是从实际的 ...

随机推荐

  1. 学习Java第5天

    今天所做的工作: 1.包装类 2.数字处理类 3.ArrayList数组 4.学生信息管理系统样卷(部分) 明天工作安排: 1.完成学生信息管理系统样卷 2.核心技术接口继承,多态 所遇到的问题及解决 ...

  2. kdj

    随机指标KDJ一般是用于股票分析的统计体系,根据统计学原理,通过一个特定的周期(常为9日.9周等)内出现过的最高价.最低价及最后一个计算周期的收盘价及这三者之间的比例关系,来计算最后一个计算周期的未成 ...

  3. HTML 基础1

    HTML 超文本标记语言 文件后缀html,htm 标签成对出现:开始标签--结束标签 元素内容位于开始标签--结束标签之间(可以有空内容) 空元素<a/> 大小写不敏感 元素,属性 &l ...

  4. plsql 视图中 为什么使用替代触发器

    /* 什么是视图? 视图:数据库对象,存的是一个查询命令:当作一个虚拟的数据表来使用: 应用场景: 简化查询操作:不能直接在视图上进行create,insert,update操作: 创建视图? 需要管 ...

  5. js 二分查找法之每日一更

    <!DOCTYPE html> <html> <head> <meta http-equiv="content-type" content ...

  6. 基于java 合并.doc和docx格式的Word文件

    注:摘录自 https://www.cnblogs.com/shenzhouyh/articles/7243805.html 之前用过jacob 合并.doc,但是是有jacob有弊端: 服务器必须是 ...

  7. java中构造函数和一般函数的区别

    构造方法 特点: 1.方法名称和类名相同 2.不用定义返回值类型 3.不可以写return语句 作用: 给对象初始化 构造方法的细节: 当一个类中没有定义构造函数时,系统会默认添加一个无参的构造方法. ...

  8. JVM学习二:JVM之GC算法和种类

    我们前面说到了JVM的常用的配置参数,其中就涉及了GC相关的知识,趁热打铁,我们今天就学习下GC的算法有哪些,种类又有哪些,让我们进一步的认识GC这个神奇的东西,帮助我们解决了C 一直挺头疼的内存回收 ...

  9. 微信h5下拉隐藏网页,还有取消页面滑动

    需求: 网页下拉太丑了,如下 度娘了一下, 发现一篇相关文档 基本解决了问题 https://juejin.cn/post/6844903940190896135#heading-2 加入如下代码即可 ...

  10. start方式开启服务的特点&bindService 方式开启服务的特点

      服务是在后台运行 可以理解成是没有界面的activity   定义四大组件的方式都是一样的     定义一个类继承Service     start方式开启服务的特点   特点:   (1)服务通 ...