scrapy实战--登陆人人网爬取个人信息

今天把scrapy的文档研究了一下，感觉有点手痒，就写点东西留点念想吧，也做为备忘录。随意写写，看到的朋友觉得不好，不要喷我哈。

创建scrapy工程

cd C:\Spider_dev\app\scrapyprojects

scrapy startproject renren

创建定向爬虫

cd renren

scrapy genspider Person renren.com

查看目录结构

定义items

class RenrenItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    sex = scrapy.Field()  # 性别

    birthday = scrapy.Field()  # 生日

    addr = scrapy.Field()  # 家乡

编写爬虫

# -*- coding: gbk -*-

import scrapy

# 导入items中的数据项定义模块

from renren.items import RenrenItem

class PersonSpider(scrapy.Spider):

    name = "Person"

    allowed_domains = ['renren.com']

    start_urls = ['http://www.renren.com/913043576/profile?v=info_timeline']

    def start_requests(self):

        return [scrapy.FormRequest('http://www.renren.com/PLogin.do',

                                   formdata={'email':'15201417639','password':'kongzhagen.com'},

                                   callback=self.login)]

    def login(self,response):

        for url in self.start_urls:

            yield self.make_requests_from_url(url)

    def parse(self, response):

        item = RenrenItem()

        basicInfo = response.xpath('//div[@id="basicInfo"]')

        sex = basicInfo.xpath('div[2]/dl[1]/dd/text()').extract()[0]

        birthday = basicInfo.xpath('div[2]/dl[2]/dd/a/text()').extract()

        birthday = ''.join(birthday)

        addr = basicInfo.xpath('div[2]/dl[3]/dd/text()').extract()[0]

        item['sex'] = sex

        item['addr'] = addr

        item['birthday'] =birthday

        return  item

解释：

　　allowed_domains：定义允许访问的域名

　　start_urls：登陆人人网后访问的URL

　　start_requests：程序的开始函数，FormRequest定义了scrapy如何post提交数据，返回函数或迭代器，回调函数login。

　　parse：处理make_requests_from_url函数返回的结果

执行爬虫

scrapy crawl Person -o person.csv

查看结果：

scrapy实战--登陆人人网爬取个人信息的更多相关文章

运用cookie登陆人人网爬取数据
浏览器访问WEB服务器的过程在用户访问网页时,不论是通过URL输入域名或IP,还是点击链接,浏览器向WEB服务器发出了一个HTTP请求(Http Request),WEB服务器接收到客户端浏览器的请 ...
scrapy实战1分布式爬取有缘网（6.22接口已挂）：
直接上代码: items.py # -*- coding: utf-8 -*- # Define here the models for your scraped items # # See docu ...
scrapy实战2分布式爬取lagou招聘（加入了免费的User-Agent随机动态获取库 fake-useragent 使用方法查看：https://github.com/hellysmile/fake-useragent）
items.py # -*- coding: utf-8 -*- # Define here the models for your scraped items # # See documentati ...
Python爬虫实战三之爬取嗅事百科段子
一.前言俗话说,上班时间是公司的,下班了时间才是自己的.搞点事情,写个爬虫程序,每天定期爬取点段子,看着自己爬的段子,也是一种乐趣. 二.Python爬取嗅事百科段子 1.确定爬取的目标网页首先我 ...
爬虫系列---scrapy全栈数据爬取框架(Crawlspider)
一简介 crawlspider 是Spider的一个子类,除了继承spider的功能特性外,还派生了自己更加强大的功能. LinkExtractors链接提取器,Rule规则解析器. 二强大的链接 ...
Scrapy爬虫框架之爬取校花网图片
Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 )所设 ...
Python爬虫实战二之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不 ...
Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
转 Python爬虫实战二之爬取百度贴吧帖子
静觅 » Python爬虫实战二之爬取百度贴吧帖子大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 ...

随机推荐

Spring Boot + Spring Cloud 实现权限管理系统后端篇（一）：Kitty 系统介绍
在线演示演示地址:http://139.196.87.48:9002/kitty 用户名:admin 密码:admin 温馨提示: 有在演示环境删除数据的童鞋们,如果可以的话,麻烦动动小指,右键头像 ...
dos命令行运行.class源文件错误解决办法
dos命令行运行java源文件 public static void main(String[] args) throws IOException { // TODO Auto-generated m ...
lintcode-->翻转字符串
给定一个字符串,逐个翻转字符串中的每个单词. 您在真实的面试中是否遇到过这个题? Yes 说明单词的构成:无空格字母构成一个单词输入字符串是否包括前导或者尾随空格?可以包括,但是反转后的字符不能包 ...
glog功能介绍
1. 概述 Google glog是一个基于程序级记录日志信息的c++库,编程使用方式与c++的stream操作类似,例: LOG(INFO) << &quo ...
10-hdfs-hdfs搭建
hdfs的优缺点比较: 架构图解分析: nameNode的主要任务: SNameNode的功能: (不是NN的备份, 主要用来合并fsimage) 合并流程: dataNode的主要功能: HDFS上 ...
docker 创建elasticsearch集群镜像
搞了2天终于搞好了更新: 2017/2/15: 更改elasticsearch.yml中绑定ip, 可开启集群效果 //: supervisord.conf 加入 autostart=true, 开 ...
java的if语句，少于一行可以省略大括号
我们认识的 if 语句,大概是这样的: if(条件){ 语句1; }else{ 语句2; } 如果要执行的语句少于1行,大括号是可以省略的可以让程序更简洁和美观 if(条件){ 语句1; 语句2; ...
Java并发编程笔记之ThreadLocal源码分析
多线程的线程安全问题是微妙而且出乎意料的,因为在没有进行适当同步的情况下多线程中各个操作的顺序是不可预期的,多线程访问同一个共享变量特别容易出现并发问题,特别是多个线程需要对一个共享变量进行写入时候, ...
jqGrid随窗口大小变化自适应大小-转
第一种: jqGrid随窗口大小变化自适应宽度 $(function(){ $(window).resize(function(){ $("#listId").setGridWid ...
Java指定保留小数位数的方法
package com.qiyuan.util; import java.math.BigDecimal; import java.math.RoundingMode; import java.tex ...

scrapy实战--登陆人人网爬取个人信息

scrapy实战--登陆人人网爬取个人信息的更多相关文章

随机推荐

热门专题