Python爬取网页上想要的数据

1、源代码如下

from urllib.request import urlopen,Request

import urllib.request

import re

from bs4 import BeautifulSoup

from distutils.filelist import findall

url ='http://movie.douban.com/top250?format=text'

headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.60 Safari/537.36'}

ret = Request(url,headers=headers)

page = urllib.request.urlopen(ret)

contents = page.read()

# print(contents)

soup = BeautifulSoup(contents, "html.parser")

print("豆瓣电影TOP250" + "\n" + " 影片名              评分       评价人数     链接 ")

for tag in soup.find_all('div', class_='info'):

    # print tag

    m_name = tag.find('span', class_='title').get_text()

    m_rating_score = float(tag.find('span', class_='rating_num').get_text())

    m_people = tag.find('div', class_="star")

    m_span = m_people.findAll('span')

    m_peoplecount = m_span[3].contents[0]

    m_url = tag.find('a').get('href')

    print(m_name + "        " + str(m_rating_score) + "           " + m_peoplecount + "    " + m_url)

2、安装bs4

在文件-设置-python Project-搜索ps4并点击安装，安装完成以后会提示安装成功

3、URLLIB.ERROR.HTTPERROR: HTTP ERROR 418错误

需要模拟浏览器访问，直接爬取会被拦截。打开浏览器按F12，随便访问一个网站，选中连接，找Headers，往下拉找到其中user-agent代表用的哪个请求的浏览器。

Python爬取网页上想要的数据的更多相关文章

使用python爬取MedSci上的期刊信息
使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn ...
如何使用python爬取网页动态数据
我们在使用python爬取网页数据的时候,会遇到页面的数据是通过js脚本动态加载的情况,这时候我们就得模拟接口请求信息,根据接口返回结果来获取我们想要的数据. 以某电影网站为例:我们要获取到电影名称以 ...
python爬取网页的通用代码框架
python爬取网页的通用代码框架: def getHTMLText(url):#参数code缺省值为‘utf-8’(编码方式) try: r=requests.get(url,timeout=30) ...
Python爬取网页信息
Python爬取网页信息的步骤以爬取英文名字网站(https://nameberry.com/)中每个名字的评论内容,包括英文名,用户名,评论的时间和评论的内容为例. 1.确认网址在浏览器中输入初 ...
steam夏日促销悄然开始，用Python爬取排行榜上的游戏打折信息
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 不知不觉,一年一度如火如荼的steam夏日促销悄然开始了.每年通过大大小小 ...
【Python爬虫案例】用Python爬取李子柒B站视频数据
一.视频数据结果今天是2021.12.7号,前几天用python爬取了李子柒的油管评论并做了数据分析,可移步至: https://www.cnblogs.com/mashukui/p/1622025 ...
Python爬取网站上面的数据很简单，但是如何爬取APP上面的数据呢
利用Python爬取网页图片
最近几天,研究了一下一直很好奇的爬虫算法.这里写一下最近几天的点点心得.下面进入正文: 你可能需要的工作环境: Python 3.6官网下载我们这里以sogou作为爬取的对象. 首先我们进入搜狗图片 ...
使用 Python 爬取网页数据
1. 使用 urllib.request 获取网页 urllib 是 Python 內建的 HTTP 库, 使用 urllib 可以只需要很简单的步骤就能高效采集数据; 配合 Beautiful 等 ...
python爬取网页图片（二）
从一个网页爬取图片已经解决,现在想要把这个用户发的图片全部爬取. 首先:先找到这个用户的发帖页面: http://www.acfun.cn/u/1094623.aspx#page=1 然后从这个页面中 ...

随机推荐

Stream流中的常用方法_skip-Stream流中的常用方法_concat
Stream流中的常用方法_skip 如果希望跳过前几个元素,可以使用skip方法获取一个截取之后的新流∶ 如果流的当前长度大于n,则跳过前n个;否则将会得到一个长度为0的空流.基本使用: Strea ...
StringBuilder类-toString方法
StringBuilder类构造方法 StringBuilder();创建一个空的字符串缓冲区对象StringBuilder(String s);根据传入的内容创建一个字符串缓冲区对象成员方法 S ...
利用ICSharpCode.SharpZipLib.dll解析出错：“Wrong Local header signature: 0xFF8”
分析原因利用ICSharpCode.SharpZipLib.dll解析APK时,进入APK的AndroidXml获取时出现报错出错代码 using (ICSharpCode.SharpZipLib ...
jquery（三：jquery的动画）
动画一:1.显示 show() 参数:1.代表动画执行的时长,毫秒数,也可以是代表时长的字符串 fast normal slow 2.代表方法执行完毕的回调函数默认的是:normal $(func ...
JavaScript的闭包和作用域
作用域相关作用域的概念: 作用域是在运行时代码中的某些特定部分中变量,函数和对象的可访问性.换句话说,作用域决定了代码区块中变量和其他资源的可见性: 作用域的类型: 全局作用域: 最外层函数和在最外 ...
LG P4717 【模板】快速莫比乌斯/沃尔什变换 (FMT/FWT)
\[C_k = \sum_{i|j=k}A_i B_j \] 这样的或卷积可以做一次 $\text{FWT}$,把数组变为 \(\widehat{A}_i = \sum_{j\subseteq i ...
如何基于IM即时通讯SDK从零开发仿微信聊天交友功能
IM即时通讯技术的发展 IM即时通讯(Instant Messaging)是一种基于互联网的即时交流消息的业务. 实时聊天交互功能是市面上主流APP的重要功能之一,人们所熟悉的就是微信,QQ的聊天消息 ...
python批量修改一个文件夹下含多个文件夹中的所有图片名称
网上能找到的,大多是只对一个文件夹下所有图片进行重命名的代码. 这边实现的是,一个文件夹下有多个文件夹内图片的重命名. rename.py #!/usr/bin/python # -*- coding ...
基于C++的OpenGL 06 之摄像机
1. 引言本文基于C++语言,描述OpenGL的摄像机前置知识可参考: 基于C++的OpenGL 05 之坐标系统 - 当时明月在曾照彩云归 - 博客园 (cnblogs.com) 笔者这里不过多 ...
Spring Boot 整合 Logback 日志
Spring Boot 支持 Java Util Logging,Log4J,Log4J2 和 Logback 等日志框架,默认采用 Logback 日志. 在实际 Spring Boot 项目中使用 ...

Python爬取网页上想要的数据

1、源代码如下

2、安装bs4

3、URLLIB.ERROR.HTTPERROR: HTTP ERROR 418错误

Python爬取网页上想要的数据的更多相关文章

随机推荐

热门专题