python豆瓣250爬取

import requests

from bs4 import BeautifulSoup

from lxml import etree

# qianxiao996精心制作

#博客地址：https://blog.csdn.net/qq_36374896

url = "https://movie.douban.com/top250"

headers = {

    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100101 Firefox/34.0"

}

def Getbyxml(url):

    data = requests.get(url,headers = headers).text

    name = []

    star_con = []

    score =[]

    info = []

    comment_list = []

    response = etree.HTML(data)

    result = response.xpath('/html/body/div[3]/div[1]/div/div[1]/ol/li')

    for item in result:

         name_item = item.xpath("./div/div[2]/div[1]/a/span[1]/text()")[0].strip()

         info_name = item.xpath("./div/div[2]/div[2]/p[1]/text()")[0].strip()

         score_item = item.xpath("./div/div[2]/div[2]/div/span[2]/text()")[0].strip()

         star_item = item.xpath("./div/div[2]/div[2]/div/span[4]/text()")[0].strip()

         try:

             comment = item.xpath("./div/div[2]/div[2]/p[2]/span/text()")[0].strip()

             comment_list.append(comment)

         except:

             comment_list.append('无')

         score.append(score_item)

         name.append(name_item)

         star_con.append(star_item)

         info.append(info_name)

    return name,info,score,star_con,comment_list

t=Getbyxml(url)

print(t)

python豆瓣250爬取的更多相关文章

Python 豆瓣mv爬取
爬取网址:https://www.dbmeinv.com/ 豆瓣mv(现已更名) 注:自制力不好的同学,先去准备营养快线! import requests from bs4 import ...
Python 豆瓣日记爬取
无聊写了个豆瓣日记的小爬虫,requests+bs4. cookies_src可填可不填,主要是为了爬取仅自己可见的日记. url填写的是日记页面,即https://www.douban.com/pe ...
Python登录豆瓣并爬取影评
上一篇我们讲过Cookie相关的知识,了解到Cookie是为了交互式web而诞生的,它主要用于以下三个方面: 会话状态管理(如用户登录状态.购物车.游戏分数或其它需要记录的信息) 个性化设置(如用户自 ...
Python爬虫之爬取慕课网课程评分
BS是什么? BeautifulSoup是一个基于标签的文本解析工具.可以根据标签提取想要的内容,很适合处理html和xml这类语言文本.如果你希望了解更多关于BS的介绍和用法,请看Beautiful ...
Python爬虫之爬取淘女郎照片示例详解
这篇文章主要介绍了Python爬虫之爬取淘女郎照片示例详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧本篇目标抓取淘宝MM ...
[python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】
[python] 常用正则表达式爬取网页信息及分析HTML标签总结转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pytho ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...
如何利用Python网络爬虫爬取微信朋友圈动态--附代码（下）
前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...
from appium import webdriver 使用python爬虫,批量爬取抖音app视频（requests+Fiddler+appium）
使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...

随机推荐

通过C#在控制台输出各种图形文字
这不是要准备公司年会了嘛每个部门抓壮丁,必须安排至少一个节目想着上去唱首歌算了,被毙,没有部门特色妈蛋,唱歌没特色,那隔壁在前线工作的部门要表演个啥,抄表? 冥思苦想之下,给节目加了点部门特色, ...
自创Web框架之过度Django框架
目录自创Web框架之过度Django框架软件开发架构 HTTP协议 Web框架之"撸起袖子加油干" Web框架之通过wsgiref加油干封装优化处理动静网页 jinjia2 ...
[LeetCode]剑指 Offer 17. 打印从1到最大的n位数
输入数字 n,按顺序打印出从 1 到最大的 n 位十进制数.比如输入 3,则打印出 1.2.3 一直到最大的 3 位数 999. 示例 1: 输入: n = 1 输出: [1,2,3,4,5,6,7, ...
Renix导入报文--如何将PCAP报文里的内容转换为流量
要从PCAP文件生成流,请执行以下步骤: 1.导入PCAP到流在导航树,右键点击流模板,然后从右键菜单选择"导入PACP到流",系统将弹出"导入PCAP到流" ...
从数据源支持、支持方式等角度深入了解Smartbi与Tableau
对数据分析来讲,数据源支持是基本功.让数据分析工具与数据保持一个通道,建立会话.用数据分析应用服务器与我们需要分析的业务数据进行连接,拿到需要的数据进行分析.Smartbi.Tableau系统给我们提 ...
C#实现接口的两种方式：显示实现和隐式实现接口
本示例声明一个接口IDimensions 和一个类 Box,显式实现了接口成员 GetLength 和 GetWidth. 通过接口实例 dimensions 访问这些成员. interface ID ...
VUE3 之使用标签实现动画与过渡效果（下） - 这个系列的教程通俗易懂，适合新手
1. 概述毛毛虫效应: 有这样一个实验,将许多毛毛虫放在一个花盆边缘,使它们首尾相接,围成一个圈.然后在离花盆很近的地方撒了一些毛毛虫的食物. 此时,毛毛虫并不会向食物的方向爬去,而是在花盆边缘,一 ...
Yarn 命令使用
windows下安装方法: 1.下载安装包:直接下载.msi安装文件安装,下载地址 2.使用Chocolatey进行安装:Chocolatey是一个windows下的包管理器,可以通过在命令行下输入以 ...
c/c++（c++和网络编程）日常积累（三）
asio::transfer_all() 有空研究一下这个字段 malloc和new的区别 https://blog.csdn.net/weixin_39411321/article/details/ ...
LeetCode-063-不同路径 II
不同路径 II 题目描述:一个机器人位于一个 m x n 网格的左上角 (起始点在下图中标记为"Start" ). 机器人每次只能向下或者向右移动一步.机器人试图达到网格的右下角( ...

python豆瓣250爬取

python豆瓣250爬取的更多相关文章

随机推荐

热门专题