爬取迷你mp4各个电影信息

网站：www.minimp4.com

# coding=utf-8

import requests

from lxml import etree

class Minimpe_moves(object):

    def Getmovies(self,page):

        url = 'http://www.minimp4.com/movie/?page={}'.format(page)

        html = requests.get(url)

        htmml = etree.HTML(html.text)#解析网页

        href = htmml.xpath('//div[@class="meta"]/h1/a/@href')

        for url_moves in href:

            html1 = requests.get(url_moves)

            htmml1 = etree.HTML(html1.text)

            movie_name = htmml1.xpath('//div[@class="movie-meta"]/h1/text()')#提取电影名字

            #movie_actor =htmml1.xpath('//div[@class="movie-meta"]/p[@id="casts"]/a/text()')#爬取主演名字

            print (movie_name)

            Minimpe_moves.saveMovies(movie_name)

#语法糖　装饰器　静态方法

    @staticmethod

    def saveMovies(data):

        with open('movies.txt','a',encoding = 'utf-8') as f:

            f.write(data[0]+'\n')

#内置属性，别的文件引入这个文件时，无法执行下面代码

if __name__ == "__main__":

    minimp4 = Minimpe_moves ()

    for n in range(11):#爬取1到10页

        minimp4.Getmovies(n)

上图是各个电影主演，基本上每部电影的各个信息都能爬取下来，只需修改对应的xpath即可．

爬取迷你mp4各个电影信息的更多相关文章

使用selenium 多线程爬取爱奇艺电影信息
使用selenium 多线程爬取爱奇艺电影信息转载请注明出处. 爬取目标:每个电影的评分.名称.时长.主演.和类型爬取思路: 源文件:(有注释) from selenium import webd ...
使用Beautiful Soup爬取猫眼TOP100的电影信息
使用Beautiful Soup爬取猫眼TOP100的电影信息,将排名.图片.电影名称.演员.时间.评分等信息,提取的结果以文件形式保存下来. import time import json impo ...
Python爬虫教程-17-ajax爬取实例（豆瓣电影）
Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互对于ajax: ...
爬虫学习（二）--爬取360应用市场app信息
欢迎加入python学习交流群 667279387 爬虫学习爬虫学习(一)-爬取电影天堂下载链接爬虫学习(二)–爬取360应用市场app信息代码环境:windows10, python 3.5 ...
使用python爬取MedSci上的期刊信息
使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn ...
scrapy爬取全部知乎用户信息
# -*- coding: utf-8 -*- # scrapy爬取全部知乎用户信息 # 1:是否遵守robbots_txt协议改为False # 2: 加入爬取所需的headers: user-ag ...
利用xpath爬取招聘网的招聘信息
爬取招聘网的招聘信息: import json import random import time import pymongo import re import pandas as pd impor ...
第三百三十四节，web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息
第三百三十四节,web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址有多 ...
Python爬虫——使用 lxml 解析器爬取汽车之家二手车信息
本次爬虫的目标是汽车之家的二手车销售信息,范围是全国,不过很可惜,汽车之家只显示100页信息,每页48条,也就是说最多只能够爬取4800条信息. 由于这次爬虫的主要目的是使用lxml解析器,所以在信息 ...

随机推荐

springboot (2.0以上)连接mysql配置
pom <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java&l ...
二十九、CI框架之session用法
一.我们在控制器中添加session写入和读取的2个函数,如图: 二.我们用浏览器访问login页面,可以看到有一串被加密的cookies,在CI中session也是以cookies的方式存放的三. ...
【机器学习实战学习笔记(1-1)】k-近邻算法原理及python实现
笔者本人是个初入机器学习的小白,主要是想把学习过程中的大概知识和自己的一些经验写下来跟大家分享,也可以加强自己的记忆,有不足的地方还望小伙伴们批评指正,点赞评论走起来~ 文章目录 1.k-近邻算法概述 ...
查看两个集合中有没有相同的元素的方法。Collections disjoint
在做项目的时候遇到一个种情况,就是要比较两个集合中是否有相同的元素,经过查找资料,找到了Collections类下的disjoint方法下面做的一个小例子: import java.util.Coll ...
Python爬虫之解析网页
常用的类库为lxml, BeautifulSoup, re(正则) 以获取豆瓣电影正在热映的电影名为例,url='https://movie.douban.com/cinema/nowplaying/ ...
求1+2+3+…..+n
[问题]求1+2+3+…+n,要求不能使用乘除法.for.while.if.else.switch.case等关键字及条件判断语句(A?B:C). [思路]由于题目好多运算符不能用,我们只有想到使用递 ...
GitHub练习——如何将本地已有项目添加到github
刚开始开始接触,搞点简单的,看看是怎么把项目传上去,总结一下,大概是这些步骤: 创建本地仓库将本地仓库变成git可管理的仓库:git init 把项目文件添加到缓存区:项目文件添加到已有的仓库,然后 ...
使用maven打包问题
项目打包:选择项目右键->run as-> maven install . 项目中使用的是maven项目,将项目打包成war的时候有时候会出现出现这种情况的时候解决步骤如下: 选择要打 ...
hdu 2072(字典树模板，set，map均可做)
地址:http://acm.hdu.edu.cn/showproblem.php?pid=2072 lily的好朋友xiaoou333最近很空,他想了一件没有什么意义的事情,就是统计一篇文章里不同单词 ...
proto3 不支持内建类型的非空判断即 hasXXX
proto3 移除了内建类型的非空判断方法即代码生成工具不会为 bool int 等类型生成has方法有使用过proto2 或者其它rpc 框架的人都知道使用has 方法去判断消息里的值是否设置, ...

爬取迷你mp4各个电影信息

爬取迷你mp4各个电影信息的更多相关文章

随机推荐

热门专题