python 爬取网页简单数据---以及详细解释用法

一、准备工作（找到所需网站，获取请求头，并用到请求头）

找到所需爬取的网站（这里举拉勾网的一些静态数据的获取）----------- https://www.lagou.com/zhaopin/Python/

请求头的作用：模拟真实用户进入网站浏览数据-----------headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.90 Safari/537.36',}
r=requests.get("https://www.lagou.com/zhaopin/Python/",headers=headers)-------------------这两行就是模拟用户进入网站
找到数据所在网页的标签（html网页右键源代码查看即可）

　　假设这里的15k-25k是我们要的数据，右键查看按箭头查看即可-----例如这里是span标签class=''money''(可以点击下面的控制台查看money是什么属性，有的是id=“money”这样的)------具体得看html代码

准备工作完毕

二、代码演示：（开始爬取）

　　2.1如果爬取的数据乱码，可以加入这三句话，定义输出格式

import io

import sys

sys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030')

　　2.2爬取职位等相关信息（完整代码)

import requests

import re

import itertools

from bs4 import BeautifulSoup

import io

import sys

sys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030')

headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.90 Safari/537.36',}-------------请求头

r=requests.get("https://www.lagou.com/zhaopin/Python/",headers=headers)---------------请求该网页

r.encoding=r.apparent_encoding

result=r.text------------------------------------------获取网页文档

bs=BeautifulSoup(result,'html.parser')

# soup.find_all(string=re.compile('python'))

li1=bs.find_all('h3')-------------------------------------------查找该页面所有h3标签

# len1=len(li1)

# for i in li1:-----------------------------------------------用来测试输出的内容

#     print(i.string)

li2=bs.find_all('em')

# len2=len(li2)

# for i in li2:--------------------------------------------用来测试输出的内容

#     print(i.string)

li3=bs.find_all('span',class_="money")

# len3=len(li3)

# for i in li3:

#     print(i.string)

li4=bs.find_all('div',class_="industry")

# len4=len(li4)

# for i in li4:

#     print(i.string)

print("职位:".ljust(15),"地点:".center(15),"薪水:".center(15),"需求:".rjust(15))

print("------------------------------------------------------------------------------------------------")

for li_1,li_2,li_3,li_4 in zip(li1,li2,li3,li4):--------------------------------------------------------------------------四个列表整合（每一行一个元素对应）

    print(li_1.string.ljust(15),li_2.string.center(15),li_3.string.center(15),li_4.string.rjust(15).strip())-------------strip()是用来去除字符串左右两边的空格（不然太长不好排版)

　　2.3运行结果

三、技术不是很难，但也很有用，不过这里得提醒一下（最好是将网页的html文档存放在本地，一直请求服务器是很不友好的行为哟！)

拓展：可以试着将数据存到txt文档或者excl表格中，更直观哟！

python 爬取网页简单数据---以及详细解释用法的更多相关文章

如何使用python爬取网页动态数据
我们在使用python爬取网页数据的时候,会遇到页面的数据是通过js脚本动态加载的情况,这时候我们就得模拟接口请求信息,根据接口返回结果来获取我们想要的数据. 以某电影网站为例:我们要获取到电影名称以 ...
python爬取网页的通用代码框架
python爬取网页的通用代码框架: def getHTMLText(url):#参数code缺省值为‘utf-8’(编码方式) try: r=requests.get(url,timeout=30) ...
Python爬取网页信息
Python爬取网页信息的步骤以爬取英文名字网站(https://nameberry.com/)中每个名字的评论内容,包括英文名,用户名,评论的时间和评论的内容为例. 1.确认网址在浏览器中输入初 ...
利用Python爬取朋友圈数据，爬到你开始怀疑人生
人生最难的事是自我认知,用Python爬取朋友圈数据,让我们重新审视自己,审视我们周围的圈子. 文:朱元禄(@数据分析-jacky) 哲学的两大问题:1.我是谁?2.我们从哪里来? 本文 jacky试 ...
python爬取股票最新数据并用excel绘制树状图
大家好,最近大A的白马股们简直跌妈不认,作为重仓了抱团白马股基金的养鸡少年,每日那是一个以泪洗面啊. 不过从金融界最近一个交易日的大盘云图来看,其实很多中小股还是红色滴,绿的都是白马股们. 以下截图 ...
Python爬取招聘网站数据，给学习、求职一点参考
1.项目背景随着科技的飞速发展,数据呈现爆发式的增长,任何人都摆脱不了与数据打交道,社会对于“数据”方面的人才需求也在不断增大.因此了解当下企业究竟需要招聘什么样的人才?需要什么样的技能?不管是对于 ...
Python 爬取热词并进行分类数据分析-[解释修复+热词引用]
日期:2020.02.02 博客期:141 星期日 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入] c.[拓扑 ...
使用 Python 爬取网页数据
1. 使用 urllib.request 获取网页 urllib 是 Python 內建的 HTTP 库, 使用 urllib 可以只需要很简单的步骤就能高效采集数据; 配合 Beautiful 等 ...
python爬取拉勾网职位数据
今天写的这篇文章是关于python爬虫简单的一个使用,选取的爬取对象是著名的招聘网站--拉钩网,由于和大家的职业息息相关,所以爬取拉钩的数据进行分析,对于职业规划和求职时的信息提供有很大的帮助. 完成 ...

随机推荐

[ngclass]、[ngstyle]、管道
[ngclass] 动态改变一个元素的class ts: public classcolor:boolean=false; public list:any = [{title:"新闻1&qu ...
从零开始入门 K8s | 应用存储和持久化数据卷：核心知识
作者 | 至天阿里巴巴高级研发工程师一.Volumes 介绍 Pod Volumes 首先来看一下 Pod Volumes 的使用场景: 场景一:如果 pod 中的某一个容器在运行时异常退出,被 ...
TreeMap剖析
TreeMap实现有序要么就是外界传递进来Comparator对象,要么就使用默认key的Comparable接口(实现自然排序) 最后我就来总结一下TreeMap要点吧: 由于底层是红黑树,那么时间 ...
总结下var、let 和 const 的区别
一.var变量 <!DOCTYPE html> <html lang="en"> <head> <meta charset="U ...
python编程基础之十一
循环语句:周而复始,在满足某个条件下,重复做相同或类型的事情, 循环语句三要素:循环条件 + 循环体 + 循环条件改变while 条件 : 循环体循环条件改变... while 条件 : 循环体循 ...
.net mvc web api Autofac依赖注入框架-戈多编程
今天自己搭了一套基于三层的依赖注入mvc web api 的依赖注入框架,在此总结下相关配置 1.设置应用程序的.net Framework版本为 4.5 2.通过Nuget 安装autofac包 I ...
【NOIP2011】选择客栈
题文: 丽江河边有n 家很有特色的客栈,客栈按照其位置顺序从1 到n 编号.每家客栈都按照某一种色调进行装饰(总共k 种,用整数0 ~ k-1 表示),且每家客栈都设有一家咖啡店,每家咖啡店均有各自的 ...
Kafka 介绍
Apache Kafka是一个分布式流式平台. 流平台有三个关键的能力: 发布和订阅记录流,类似于消息队列或企业消息传递系统. 使用容错耐用的方式存储记录流. 记录产生时处理数据. Kafka主要是用 ...
通过机器学习的线性回归算法预测股票走势（用Python实现）
在本人的新书里,将通过股票案例讲述Python知识点,让大家在学习Python的同时还能掌握相关的股票知识,所谓一举两得.这里给出以线性回归算法预测股票的案例,以此讲述通过Python的sklearn ...
Electron开发跨平台桌面程序入门教程
最近一直在学习 Electron 开发桌面应用程序,在尝试了 java swing 和 FXjava 后,感叹还是 Electron 开发桌面应用上手最快.我会在这一篇文章中实现一个HelloWord ...

python 爬取网页简单数据---以及详细解释用法

一、准备工作（找到所需网站，获取请求头，并用到请求头）

二、代码演示：（开始爬取）

2.1如果爬取的数据乱码，可以加入这三句话，定义输出格式

2.2爬取职位等相关信息（完整代码)

2.3运行结果

三、技术不是很难，但也很有用，不过这里得提醒一下（最好是将网页的html文档存放在本地，一直请求服务器是很不友好的行为哟！)

python 爬取网页简单数据---以及详细解释用法的更多相关文章

随机推荐

热门专题

　　2.1如果爬取的数据乱码，可以加入这三句话，定义输出格式

　　2.2爬取职位等相关信息（完整代码)

　　2.3运行结果