Python 2.7_Second_try_爬取阳光电影网_获取电影下载地址并写入文件 20161207

1、昨天文章http://www.cnblogs.com/Mr-Cxy/p/6139705.html 是获取电影网站主菜单然后获取每个菜单下的电影url

2、今天是对电影url 进行再次解析获取下载地址并写入文件

4、python 代码

#coding:utf-8

import requests

from bs4 import BeautifulSoup as bs

#爬取入口

rooturl="http://www.ygdy8.com/index.html"

#获取网页源码

res=requests.get(rooturl)

#网站编码gb2312

res.encoding='gb2312'

#网页源码

html=res.text

soup=bs(html,'html.parser')

cate_urls = []

for cateurl in soup.select('.contain ul li a'):

    #网站分类标题

    cate_name=cateurl.text.encode('utf-8')

    #分类url 进行再次爬取

    cate_url="http://www.ygdy8.com/"+ cateurl['href']

    cate_urls.append(cate_url)

    print "网站一级菜单:",cate_name,"菜单网址：",cate_url

    # newdir = "E:/moive24/"+ cate_name

    # os.makedirs(newdir.decode("utf-8"))

    # print "创建分类目录成功------" + newdir

#每个菜单url 解析

for i in range(len(cate_urls)):

    cate_listurl=cate_urls[i]

    res = requests.get(cate_listurl)

    res.encoding = 'gb2312'

    html = res.text

    soup = bs(html, 'html.parser')

    print "正在解析第"+str(i+1)+"个链接",cate_urls[i]

    contenturls=[]

    contents=soup.select('.co_content8 ul')[0].select('a')

    #print contents

    for title in contents:

        moivetitle=title.text.encode('utf-8')

        moiveurl="http://www.ygdy8.com/"+ title['href']

        contenturls.append(moiveurl)

        print moivetitle,moiveurl

        # file_name=newdir +'/'+ moivetitle +'.txt'

        # print file_name

        # f = open(file_name.decode("utf-8"), "wb")

        # f.close()

        res = requests.get(moiveurl)

        res.encoding = 'gb2312'

        html = res.text

        soup = bs(html, 'html.parser')

        moive_sources=soup.select('#Zoom span tbody tr td a')

        for source in moive_sources:

            moive_source=source['href']

            #print moive_source

            f=open('E:/moive24/moive.txt','a')

            f.write(moive_source.encode("utf-8") + "\n")

            f.close

Python 2.7_Second_try_爬取阳光电影网_获取电影下载地址并写入文件 20161207的更多相关文章

利用Python网络爬虫爬取学校官网十条标题
利用Python网络爬虫爬取学校官网十条标题案例代码: # __author : "J" # date : 2018-03-06 # 导入需要用到的库文件 import urll ...
Python 2.7_First_try_爬取阳光电影网_20161206
之前看过用Scrapy 框架建立项目爬取网页解析时候用的Xpath进行解析的网页元素这次尝试用select方法匹配元素 1.入口爬取页面 http://www.ygdy8.com/index.ht ...
python实战项目 — 爬取中国票房网年度电影信息并保存在csv
import pandas as pd import requests from bs4 import BeautifulSoup import time def spider(url, header ...
python爬虫：爬取易迅网价格信息，并写入Mysql数据库
本程序涉及以下方面知识: 1.python链接mysql数据库:http://www.cnblogs.com/miranda-tang/p/5523431.html 2.爬取中文网站以及各种乱码处 ...
用python爬虫简单爬取笔趣网：类“起点网”的小说
首先:文章用到的解析库介绍 BeautifulSoup: Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索.修改分析树等功能. 它是一个工具箱,通过解析文档为用户提供 ...
python实战项目 — 爬取校花网图片
重点: 1. 指定路径创建文件夹,判断是否存在 2. 保存图片文件 # 获得校花网的地址,图片的链接 import re import requests import time import os ...
Python爬取猪肉价格网并获取Json数据
场景猪肉价格网站: http://zhujia.zhuwang.cc/ 注: 博客: https://blog.csdn.net/badao_liumang_qizhi 关注公众号霸道的程序猿获 ...
python实战项目 — 爬取妹子图网，保存图片到本地
重点: 1. 用def函数 2. 使用 os.path.dirname("路径保存") , 实现每组图片保存在独立的文件夹中方法1: import requests from l ...
Python的scrapy之爬取顶点小说网的所有小说
闲来无事用Python的scrapy框架练练手,爬取顶点小说网的所有小说的详细信息. 看一下网页的构造: tr标签里面的 td 使我们所要爬取的信息下面是我们要爬取的二级页面小说的简介信息: 下面 ...

随机推荐

(实用篇)PHP定时任务获取微信access_token
最近开发微信公众平台,公众号调用各接口时都需使用access_token,access_token是公众号的全局唯一接口调用凭据,开发时需要进行妥善保存. access_token有效期为7200秒 ...
iOS 常用设计模式和机制之 KVC
KVC 1 key Value Coding,键值编码,是一种间接访问实例变量的方法 2 KVC 提供了一种使用字符串(key)而不是访问器方法,去访问一个对象实例变量的机制 3 KVC 常用方 ...
✡ leetcode 165. Compare Version Numbers 比较两个字符串数字的大小 --------- java
Compare two version numbers version1 and version2.If version1 > version2 return 1, if version1 &l ...
配置vim环境
<1> 一般不建议更改/etc/vimrc这个文件,因为此文件更改对所有用户生效, 故一般只更改当前用户即更改文件 vim ~/.vimrc (.表示隐藏文件) <2> 该文 ...
关于nginx配置的不完全总结
请参考官方: http://wiki.nginx.org/HttpRewriteModule#Synopsis 关于缓存大小权限 error log 有如下日志:an upstream respons ...
DuoCode测试
http://duoco.de/ DuoCode 只能引用自己编译的DLL,不能引用外部DLL.这么做可以保证”代码编得过,就一定能跑“. SharpKit 遇到过这样的问题.在代码中使用了 list ...
Android模拟器部署历程
由于想玩一款手机的游戏,本人手机Android系统版本太低,不能安装.所以就想在WindowS上安装一个模拟器,然后安装游戏.想法挺好.实现起来确实经历了一个坎坷的过程.为了让其他人少走弯路,本人把此 ...
【1】第一次电话面试---上海EMC
时间是2016//11月,投的是上海的EMC2公司的JavaWeb开发岗,第一次接到的电话面试,问的题目很基础基础,很遗憾,本人在掌握的太不好,回答的很乱,目测定挂.下面记下HR问的问题及回答. 首先 ...
python学习-day03：整形、字符串常用方法：
一.数字,int 1.1: a.int(object)转化数字类型: a=' b=int(a) b=b+1000 print(b) 223 <class 'int'> 答案 b.转化二进制 ...
ThinkPad E440 加内存后导致开不了机
上周五新买的ThinkPad E440,原装内存是4G DDR3 1600Hz,明显不够用,于是在京东上买了一根南亚易胜的4G DDR3 1600Hz.安装之后正常开机,明显感觉速度快了很多.可是用了 ...

Python 2.7_Second_try_爬取阳光电影网_获取电影下载地址并写入文件 20161207

Python 2.7_Second_try_爬取阳光电影网_获取电影下载地址并写入文件 20161207的更多相关文章

随机推荐

热门专题