python 爬虫（一） requests+BeautifulSoup 爬取简单网页代码示例

以前搞偷偷摸摸的事，不对，是搞爬虫都是用urllib，不过真的是很麻烦，下面就使用requests + BeautifulSoup 爬爬简单的网页。

详细介绍都在代码中注释了，大家可以参阅。

# -*- coding: utf-8 -*-

"""

Created on Thu Jul  5 20:48:25 2018

@author: brave-man

blog: http://www.cnblogs.com/zrmw/

python3 + anaconda（Spyder） + resquests + BeautifulSoup

这里环境用的就是昨天讲的 anaconda 下的 Spyder，非常方便，谁用谁知道

"""

import requests

from bs4 import BeautifulSoup

# from termcolor import colored

# 控制台输出文本颜色控制，网络不太好，没有安装termcolor，不过在公司测试过，函数传参应该没有问题

# print(colored("abc", "red"))

# 通过requests库中的get方法获取整个响应页面，存放在res中

res = requests.get("https://www.cnblogs.com/zdong0103/p/8492779.html")

# (1) res.encoding = "utf-8"

soup = BeautifulSoup(res.text, "html.parser")

# 这时候如果打印的soup的话，会在控制台中输出整个响应页面的源代码

# print(soup)

# 如果打印的是乱码，则可以在 (1) 处添加 (1) 所示代码，设置编码格式，不过有时候是不需要的。

# 接下来对网页的源码进行剖析

""" 

在网页中按 F12 查看网页源代码，文章标题在 class = "block_title" 里面,

soup.select(".block_title") 获取的是一个列表，获取此列表的第一个元素，

所以 index = 0 ， 从标签中获取文本一般使用 text 方法即可

同上，正文在 class = "blogpost-body"

...

"""

title = soup.select(".block_title")[0].text

texts = soup.select(".blogpost-body")[0].text

time = soup.select(".itemdesc span")[0].text

author = soup.select("#header")[0].text

print(title, author, time, texts)

发现自己表述能力真的是渣啊，慢慢提高吧。

python 爬虫（一） requests+BeautifulSoup 爬取简单网页代码示例的更多相关文章

Python爬虫学习三------requests+BeautifulSoup爬取简单网页
第一次第一次用MarkDown来写博客,先试试效果吧! 昨天2018俄罗斯世界杯拉开了大幕,作为一个伪球迷,当然也得为世界杯做出一点贡献啦. 于是今天就编写了一个爬虫程序将腾讯新闻下世界杯专题的相关新 ...
Python爬虫之利用BeautifulSoup爬取豆瓣小说（一）——设置代理IP
自己写了一个爬虫爬取豆瓣小说,后来为了应对请求不到数据,增加了请求的头部信息headers,为了应对豆瓣服务器的反爬虫机制:防止请求频率过快而造成“403 forbidden”,乃至封禁本机ip的情况 ...
python爬虫：利用BeautifulSoup爬取链家深圳二手房首页的详细信息
1.问题描述: 爬取链家深圳二手房的详细信息,并将爬取的数据存储到Excel表 2.思路分析: 发送请求--获取数据--解析数据--存储数据 1.目标网址:https://sz.lianjia.com ...
Python爬虫之利用BeautifulSoup爬取豆瓣小说（二）——回车分段打印小说信息
在上一篇文章中,我主要是设置了代理IP,虽然得到了相关的信息,但是打印出来的信息量有点多,要知道每打印一页,15个小说的信息全部会显示而过,有时因为屏幕太小,无法显示全所有的小说信息,那么,在这篇文章 ...
Python爬虫之利用BeautifulSoup爬取豆瓣小说（三）——将小说信息写入文件
#-*-coding:utf-8-*- import urllib2 from bs4 import BeautifulSoup class dbxs: def __init__(self): sel ...
python爬虫学习01--电子书爬取
python爬虫学习01--电子书爬取 1.获取网页信息 import requests #导入requests库 ''' 获取网页信息 ''' if __name__ == '__main__': ...
Python爬虫：为什么你爬取不到网页数据
前言: 之前小编写了一篇关于爬虫为什么爬取不到数据文章(文章链接为:Python爬虫经常爬不到数据,或许你可以看一下小编的这篇文章), 但是当时小编也是胡乱编写的,其实里面有很多问题的,现在小编重新发 ...
Python爬虫实战二之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不 ...
python爬虫:了解JS加密爬取网易云音乐
python爬虫:了解JS加密爬取网易云音乐前言大家好,我是"持之以恒_liu",之所以起这个名字,就是希望我自己无论做什么事,只要一开始选择了,那么就要坚持到底,不管结果如何 ...

随机推荐

Pytorch1.0入门实战一：LeNet神经网络实现 MNIST手写数字识别
记得第一次接触手写数字识别数据集还在学习TensorFlow,各种sess.run(),头都绕晕了.自从接触pytorch以来,一直想写点什么.曾经在2017年5月,Andrej Karpathy发表 ...
Go基础系列：空接口
空接口空接口是指没有定义任何接口方法的接口.没有定义任何接口方法,意味着Go中的任意对象都可以实现空接口(因为没方法需要实现),任意对象都可以保存到空接口实例变量中. 空接口的定义方式: type ...
Spring Cloud Stream如何处理消息重复消费？
最近收到好几个类似的问题:使用Spring Cloud Stream操作RabbitMQ或Kafka的时候,出现消息重复消费的问题.通过沟通与排查下来主要还是用户对消费组的认识不够.其实,在之前的博文 ...
shell编程基础(四): shell脚本语法之函数及调试
一.Shell脚本中的函数和C语言类似,Shell中也有函数的概念,但是函数定义中没有返回值也没有参数列表.例如: #! /bin/sh fun(){ echo "Function fun ...
Zookeeper（一） —— 环境搭建
一.概述集中式向分布式演变,高并发.海量存储应用场景: * 数据发布.订阅的两种方式:推模式.拉模式 * 命名服务 * 分布式协调/通知(心跳检测) * 负载均衡自增长id和uuid的缺点, ...
【转载】PhpStudy修改网站根目录
phpStudy是一个PHP调试环境的程序集成包.该程序包集成最新的Apache+PHP+MySQL+phpMyAdmin+ZendOptimizer,一次性安装,无须配置即可使用,是非常方便.好用的 ...
4.2 explain 之 select_type
一.查询类型,主要用于区别普通查询.联合查询.子查询等的复杂查询二.常用常见的类型 1. simple : 简单的select查询,查询中不包含子查询或union 2. primary : 查询中 ...
MyBatis:GeneratorConfig生成mapper以及pojo
首先我们需要导入相应的依赖之后需要针对的配置一些数据接着我们需要针对性的写配置文件,在根目录下写mybatis的主要配置文件如上图我们配置了数据库连接.对应的一些pojo.mapper.java ...
Java学习笔记之——this关键字、非静态成员属性和静态成员属性的区别、类的加载顺序
一.this关键字 1.代表当前类的对象 2.通过” . ”调用成员属性和成员方法 3.通过this可以区分成员属性和参数参数名和属性名相同的情况,默认是参数名二.非静态成员属性和静态成员属性的区 ...
MyBatis学习笔记(二) Executor
一.概述当我们打开一个SqlSession的时候,我们就完成了操作数据库的第一步,那MyBatis是如何执行Sql的呢?其实MyBatis的增删改查都是通过Executor执行的,Executor和 ...

python 爬虫（一） requests+BeautifulSoup 爬取简单网页代码示例

python 爬虫（一） requests+BeautifulSoup 爬取简单网页代码示例的更多相关文章

随机推荐

热门专题