python的requests模块爬取网页内容

注意：处理需要用户名密码认证的网站，需要auth字段。

# -*- coding:utf-8 -*-

import requests

headers = {

    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36",

}

newUrl ="https://www.freebuf.com/articles/system/187792.html"

#最简单的爬虫请求.也可以加上headers字段，防止部分网址的反爬虫机制

response = requests.get(newUrl)

#当爬取的界面需要用户名密码登录时候，构建的请求需要包含auth字段

#response = requests.get(newUrl,headers=headers,auth=('username','passsword'))

print(response.content.decode("utf-8"))#打印网页内容

#print(response.status_code)#浏览器返回的错误码，200表示成功

python的requests模块爬取网页内容的更多相关文章

Python爬虫之使用Fiddler+Postman+Python的requests模块爬取各国国旗
介绍本篇博客将会介绍一个Python爬虫,用来爬取各个国家的国旗,主要的目标是为了展示如何在Python的requests模块中使用POST方法来爬取网页内容. 为了知道POST方法所需要传 ...
[爬虫]用python的requests模块爬取糗事百科段子
虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更 ...
[实战演练]python3使用requests模块爬取页面内容
本文摘要: 1.安装pip 2.安装requests模块 3.安装beautifulsoup4 4.requests模块浅析 + 发送请求 + 传递URL参数 + 响应内容 + 获取网页编码 + 获取 ...
【Python成长之路】Python爬虫 --requests库爬取网站乱码（\xe4\xb8\xb0\xe5\xa）的解决方法【华为云分享】
[写在前面] 在用requests库对自己的CSDN个人博客(https://blog.csdn.net/yuzipeng)进行爬取时,发现乱码报错(\xe4\xb8\xb0\xe5\xaf\x8c\ ...
python使用requests库爬取网页的小实例：爬取京东网页
爬取京东网页的全代码: #爬取京东页面的全代码 import requests url="https://item.jd.com/2967929.html" try: r=requ ...
python 爬虫 requests+BeautifulSoup 爬取巨潮资讯公司概况代码实例
第一次写一个算是比较完整的爬虫,自我感觉极差啊,代码low,效率差,也没有保存到本地文件或者数据库,强行使用了一波多线程导致数据顺序发生了变化... 贴在这里,引以为戒吧. # -*- coding: ...
python 使用selenium模块爬取同一个url下不同页的内容（浏览器模拟人工翻页）
页面翻页,下一页可能是一个新的url 也有可能是用js进行页面跳转,url不变,解决方法是实现浏览器模拟人工翻页目标:爬取同一个url下不同页的数据(上述第二种情况) url:http://www. ...
PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_pag ...
一个简单python爬虫的实现——爬取电影信息
最近在学习网络爬虫,完成了一个比较简单的python网络爬虫.首先为什么要用爬虫爬取信息呢,当然是因为要比人去收集更高效. 网络爬虫,可以理解为自动帮你在网络上收集数据的机器人. 网络爬虫简单可以大致 ...

随机推荐

[转]开源日志库<log4cplus+VS2008使用>整理
转开源日志库<log4cplus+VS2008使用>整理转http://pyhcx.blog.51cto.com/713166/143549 一.简介 log4cplus是C+ ...
图片裁剪(基于RxPaparazzo)
图片裁剪(基于RxPaparazzo) 前言:基于RxPaparazzo的图片裁剪,图片旋转.比例放大|缩小. 效果: 开发环境:AndroidStudio2.2.1+gradle-2.14.1 涉及 ...
Forword与sendRedirect的区别
二.本质区别解释一一句话,转发是服务器行为,重定向是客户端行为.为什么这样说呢,这就要看两个动作的工作流程: 转发过程:客户浏览器发送http请求——>web服务器接受此请求——>调用 ...
同步（Synchronous）和异步（Asynchronous）的概念
web项目中的同步与异步在我们平时的web项目开发中会经常听到ajax请求这样一个称呼,在web项目中可以通过js或者jquery发送同步请求又或者异步请求,同步请求呢往往代表着你必须等待这次请求结 ...
软工读书笔记 week2
<程序员修炼之道>这本书后面一部分则是更深入.更具体.更细致地就程序员应该注意的事项做一些讨论,书中说的很多在过去的经历中都有较深的体会,同时也给了我很多启发.以下是一些我感悟较深的点: ...
Google论文(1) GFS：Google文件系统 - 思维导图
Google文件系统是一个面向大规模分布式数据密集型应用的可扩展分布式文件系统. 这里的思维导图作为个人的读书笔记. 参考资料: <google系列论文>- GFS
安装PHPphp-5.4.4
一.下载PHPphp-5.4.4 [root@aliyun software]# pwd /software[root@aliyun software]# wget http://mirrors.so ...
vs 编译error1083
1)右键查看该项目的属性 2)点击配置属性——〉 C/C++ ——〉常规 ——〉附加包含目录——〉将报错文件所在目录添加进去 3) 将项目的本地路径替换为工程相对路径一般来说,打不开文件 ...
延期年金（deferred annuity）
含义:推迟m个时期后才开始付款的年金. 延期年金现值为二.永续年金(Perpetuity) 永续年金:无限期支付下去的年金. 为期末付永续年金(perpetuity-immediate)的现值表示 ...
php给$_POST赋值会导致值为空
在调试一个程序的时候发现很奇怪的现象,post传过来的值再某些地方为空,先看下面的代码 <?php if($_POST['submit'] == 'Add'){ if($_POST['type' ...

python的requests模块爬取网页内容

python的requests模块爬取网页内容的更多相关文章

随机推荐

热门专题