requests+BeautifulSoup | 爬取电影天堂全站电影资源

import requests

import urllib.request as ur

from bs4 import BeautifulSoup

import csv

import threading

class MovieHeven():

    def __init__(self):

        self.url="https://www.dytt8.net/html/gndy/dyzz/index.html"

        self.page=1

        self.No=1

        self.fobj=open("movies.csv", "wt", encoding="gbk", newline='')

    def spider(self):

        try:

            print("正在爬取第{}页...".format(self.page))

            # time.sleep(1)

            #获取网页链接并读取

            html = requests.get(self.url)#.Session()

            html.encoding="gbk"

            html=html.text

            #beautfulSoup装载文档

            root=BeautifulSoup(html,"lxml")

            #查找所需元素，获取tables列表

            tables=root.find("div",attrs={"class":"co_content8"}).find("ul").find_all("table")

            for table in tables:

                name = table.find("a").text

                href = "http://www.dytt8.net"+table.find("a")["href"]

                # 文件写入操作

                writer = csv.writer(self.fobj)

                writer.writerow([name, href])

                print("No:", self.No, name, href)

                self.No += 1

            # time.sleep(1)

            urls=root.find("div",attrs={"class":"co_content8"}).find("div",attrs={"class":"x"}).find_all("a")

            #寻找下一页的链接

            for u in urls:

                if u.text == "下一页":#如有下一页

                    self.url="https://www.dytt8.net/html/gndy/dyzz/"+u["href"]

                    print(self.url)

                    self.page += 1

                    self.spider()#爬取下一页

        # except:#没有下一页

        #     print("finished")

            # spider(url)

        except Exception as err:

            print(err)

    def main(self):

    ##    threading.Thread(target=spiderA(url)).start()

        import time

        begin_time = time.time()

        self.spider()  # 执行主程序

        self.fobj.close()

        end_time = time.time()

        time = end_time - begin_time

        m, s = divmod(round(time), 60)

        print("用时：{}min{}s".format(m, s))

if __name__ == '__main__':

    billie=MovieHeven()

    billie.main()

requests+BeautifulSoup | 爬取电影天堂全站电影资源的更多相关文章

使用requests+BeautifulSoup爬取龙族V小说
这几天想看龙族最新版本,但是搜索半天发现没有网站提供下载, 我又只想下载后离线阅读(写代码已经很费眼睛了).无奈只有自己爬取了. 这里记录一下,以后想看时,直接运行脚本下载小说. 这里是从 ...
python3 requests + BeautifulSoup 爬取阳光网投诉贴详情实例代码
用到了requests.BeautifulSoup.urllib等,具体代码如下. # -*- coding: utf-8 -*- """ Created on Sat ...
python 爬虫 requests+BeautifulSoup 爬取巨潮资讯公司概况代码实例
第一次写一个算是比较完整的爬虫,自我感觉极差啊,代码low,效率差,也没有保存到本地文件或者数据库,强行使用了一波多线程导致数据顺序发生了变化... 贴在这里,引以为戒吧. # -*- coding: ...
Python爬虫学习三------requests+BeautifulSoup爬取简单网页
第一次第一次用MarkDown来写博客,先试试效果吧! 昨天2018俄罗斯世界杯拉开了大幕,作为一个伪球迷,当然也得为世界杯做出一点贡献啦. 于是今天就编写了一个爬虫程序将腾讯新闻下世界杯专题的相关新 ...
python 爬虫（一） requests+BeautifulSoup 爬取简单网页代码示例
以前搞偷偷摸摸的事,不对,是搞爬虫都是用urllib,不过真的是很麻烦,下面就使用requests + BeautifulSoup 爬爬简单的网页. 详细介绍都在代码中注释了,大家可以参阅. # -* ...
requests+beautifulsoup爬取豆瓣图书
使用Xpath和BeautifulSoup来解析网页可以说真的很简便. import requests from bs4 import BeautifulSoup from random import ...
爬虫系列1：Requests+Xpath 爬取豆瓣电影TOP
爬虫1:Requests+Xpath 爬取豆瓣电影TOP [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]: ...
PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_pag ...
使用Beautiful Soup爬取猫眼TOP100的电影信息
使用Beautiful Soup爬取猫眼TOP100的电影信息,将排名.图片.电影名称.演员.时间.评分等信息,提取的结果以文件形式保存下来. import time import json impo ...

随机推荐

解决Linux所有命令不能使用的问题
解决Linux所有命令不能使用的问题出现这个问题说明你的 /etc/profile 配置出现了问题,一般是因为path配置出现了问题.排除添加内容中的错误,然后重启一个新窗口执行执行 source ...
Redis安装教程及安装报错解决方案（大佬勿喷）
安装环境:CentOS7 Redis版本:redis-6.0.9.tar.gz 依次按照以下顺序执行: 1. [root@localhost ~]# wget https://download.red ...
vue第三单元(webpack的应用-能根据具体的需求构建对应的开发环境)
第三单元(webpack的应用-能根据具体的需求构建对应的开发环境) #课程目标理解什么是单页面应用. 掌握单页面和多页面的差异. 了解单页面的实现原理. 掌握模块化的方式实现webpack配置,区 ...
302跳转导致的url劫持
介绍一个网站监测工具:iis7网站监测IIS7网站监控工具可以做到提前预防各类网站劫持,并且是免费在线查询,适用于各大站长,政府网站,学校,公司,医院等网站.它可以做到24小时定时监控,同时它可 ...
sqli-labs Less-1~~~Less-23
Less-1 payload:'+and+1=2+union+select+1,username,password+from+security.users+limit 0,1--+ 第一关正规的字符型 ...
B. Navigation System【CF 1320】
传送门题目:简单理解就是,我们需要开车从s点到t点.车上有一个导航,如果当前点为x,则导航会自动为你提供一条从x到t的最短的路线(如果有多条,则随机选一条),每走到下一个点则会实时更新最短路线,当然 ...
inotifywait命令如何监控文件变化？
转载自:https://segmentfault.com/a/1190000038351925 文件监控可以配合rsync实现文件自动同步,例如监听某个目录,当文件变化时,使用rsync命令将变化的文 ...
将两个ListMap中同下标的map去重合并
public static void main(String[] args) { Map<String,Object> oneMap = new HashMap<>(); on ...
运行springboot项目报错 Error running 'ResourceApplication': Command line is too long. Shorten comma
方法1 IDEA 运行报错:Error running '***': Command line is too long 技术标签: IDEA Error running 'Test': Com ...
Javaweb前台界面代码复用总结
servlet声明定义message信息传给前天界面判断输出message: if(booknamelist.size()==0) { message="根据书名查询没有结果!"; ...

requests+BeautifulSoup | 爬取电影天堂全站电影资源

requests+BeautifulSoup | 爬取电影天堂全站电影资源的更多相关文章

随机推荐

热门专题