scrapy爬取极客学院全部课程

 # -*- coding: utf-8 -*-

 # scrapy爬取极客学院全部课程

 import scrapy

 from pyquery import PyQuery as pq

 from jike.items import JikeItem

 class JikespiderSpider(scrapy.Spider):

     name = "jikespider"

     allowed_domains = ["www.jikexueyuan.com"]

     base_url = 'http://www.jikexueyuan.com/course/?pageNum='

     def start_requests(self):

         for page_num in range(1,96):

             url = self.base_url + str(page_num)

             yield scrapy.Request(url, callback=self.parse_index)

     def parse_index(self, response):

         doc = pq(response.text)

         lis = doc('.lesson-list .cf li').items()

         # pyquery心得, 以为pyquery有点问题而导致无法遍历数据结构,

         # 研究发现是'http:' + item('.lessonimg-box a').attr('href')

         # 的问题, href是相对路径没有得到一个有效的请求链接

         for item in lis:

             detail_url = 'http:' + item('.lessonimg-box a').attr('href')

             yield scrapy.Request(url=detail_url,callback=self.parse_detail)

     def parse_detail(self, response):

         item = JikeItem()

         doc = pq(response.text)

         item['title'] = doc('.lesson-teacher .bc-box h2').text()

         item['time'] = doc('.lesson-teacher .bc-box .timebox').text()

         item['content'] = doc('.lesson-teacher .infor-content').text()

         yield item

scrapy爬取极客学院全部课程的更多相关文章

PyCharm+Scrapy爬取安居客楼盘信息
一.说明 1.1 开发环境说明开发环境--PyCharm 爬虫框架--Scrapy 开发语言--Python 3.6 安装第三方库--Scrapy.pymysql.matplotlib 数据库--M ...
基于requests实现极客学院课程爬虫
背景本文主要是为了完成极客学院课程<Python 单线程爬虫>中讲师布置的实战作业. 开发环境操作系统:windows 10 Python :Python 2.7 IDE:PyChar ...
python极客学院爬虫V1
定向爬取极客学院视频,原本只有年费VIP只能下载,经过分析,只要找个免费体验VIP即可爬取所有视频涉及的基本技术:python xpath 正则 com+ 通过python调用迅雷从组件,实现自动创 ...
python scrapy版极客学院爬虫V2
python scrapy版极客学院爬虫V2 1 基本技术使用scrapy 2 这个爬虫的难点是 Request中的headers和cookies 尝试过好多次才成功(模拟登录),否则只能抓免费课 ...
Scrapy爬取自己的博客内容
python中常用的写爬虫的库有urllib2.requests,对于大多数比较简单的场景或者以学习为目的,可以用这两个库实现.这里有一篇我之前写过的用urllib2+BeautifulSoup做的一 ...
【极客学院出品】Cocos2d-X系列课程之九-BOX2D物理引擎
Cocos2d-x 是时下最热门的手游引擎,在国内和国外手机游戏开发使用的份额各自是70%和25%,在App Store的top10中,有7个是用它开发的. 本节课程为Cocos2d-x系列课程之九, ...
Scrapy爬取美女图片第四集突破反爬虫(上)
本周又和大家见面了,首先说一下我最近正在做和将要做的一些事情.(我的新书<Python爬虫开发与项目实战>出版了,大家可以看一下样章) 技术方面的事情:本次端午假期没有休息,正在使用fl ...
Scrapy爬取美女图片续集 (原创)
上一篇咱们讲解了Scrapy的工作机制和如何使用Scrapy爬取美女图片,而今天接着讲解Scrapy爬取美女图片,不过采取了不同的方式和代码实现,对Scrapy的功能进行更深入的运用.(我的新书< ...
maven介绍极客学院
来自极客学院 Apache Maven 是一套软件工程管理和整合工具.基于工程对象模型(POM)的概念,通过一个中央信息管理模块,Maven 能够管理项目的构建.报告和文档. Maven - 概述 M ...

随机推荐

【Linux】升级CentOS6的内核到3.10
升级内核最近有一些虚拟机,想装Dokcer,但是实验之后发现Docker基本上只在3.0以上的linux内核版本中才能稳定运行.所以就面临着把CentOS6的2.6内核升级到3.0以上.下面提供两种 ...
痛吻过YY寻找到真爱的三非渣本春招之路
写下这篇文章可能就不是大家乐于见闻的面经了,更多是深入一些面试细节. 前言我猜拿到了BAT等一线互联网公司Offer的小伙伴或者那些老鸟看到这条标题的时候会不屑一顾,认为YY这种级别的公司是属于二线 ...
爬虫（scrapy第一篇）
---------------------------------------------------------------------------------------------------- ...
hihocoder [Offer收割]编程练习赛52 D 部门聚会
看了题目的讨论才会做的首先一点,算每条边(u, v)对于n*(n+1)/2种[l, r]组合的贡献正着算不如反着算哪些[l, r]的组合没有包含这条边(u, v)呢这个很好算只需要统计u这半 ...
关于JQuery的绑定方法
从jQuery1.7开始,jQuery引入了全新的事件绑定机制,on()和off()两个函数统一处理事件绑定.因为在此之前有bind(), live(), delegate()等方法来处理事件绑定,j ...
drbd(四)：drbd多节点(drbd9)
1.drbd多节点简介在drbd9以前,drbd一直只能配置两个节点,要么是primary/secondary,要么是primary/primary.虽然在这些版本上也能配置第三个节点实现三路节点的 ...
C语言第一次作业——输入输出格式
题目1温度转换本题要求编写程序,计算华氏温度150°F对应的摄氏温度.计算公式:C=5×(F−32)/9,式中:C表示摄氏温度,F表示华氏温度,输出数据要求为整型. 1.实验代码 #include& ...
C++ STL常用容器基本用法汇总
1.vector 包含头文件#include<vector> 使用命名域using namespace std 定义元素类型为T的vector vector<T> vec 增: ...
201621123050 《Java程序设计》第14周学习总结
1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结与数据库相关内容. 2. 使用数据库技术改造你的系统 2.1 简述如何使用数据库技术改造你的系统.要建立什么表?截图你的表设计. 答 ...
学号：201621123032 《Java程序设计》第10周学习总结
1:本周学习总结 1.1.:以你喜欢的方式(思维导图或其他)归纳总结异常相关内容. 2:书面作业 2.1.:常用异常--结合题集题目7-1回答 2.1.1:自己以前编写的代码中经常出现什么异常.需要捕 ...

scrapy爬取极客学院全部课程

scrapy爬取极客学院全部课程的更多相关文章

随机推荐

热门专题