使用python进行新浪微博粉丝爬虫

由于最近没事在学python，正好最近也想趴下新浪微博上边的一些数据，在这里主要爬去的是一个人的粉丝具体信息（微博昵称,个人介绍，地址，通过什么方式进行关注），所以就学以致用，通过python来爬去微博上边的数据。

首先先说下环境啊，使用的是python3.5，然后使用的框架有：

requests：用来获取html页面。

BeautifulSoup：用来进行html的解析，是一个在python爬虫中非常好用的一个工具，并且有中文的说明文档，链接是：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html。可以看其中具体的一些函数的使用的方法。

通过这两个，则就可以实现我们想要实现的功能了。

然后第二步，则是我们需要模拟微博进行登录，因为你会发现，如果你不登录，是无法看一个人的具体的粉丝信息的，因此我们需要自己登录下新浪微博，然后通过调试工具，把cookie复制出来，这样才能够进行爬虫。,怎么获取cookie，在这进行一个简单的介绍，登陆后看到个人主页后，打开开发者工具，然后选择network:

然后复制下这个cookie，在爬虫中需要用到，接下来就上代码了：

主程序类代码：

import requests

from html.parser import HTMLParser

import person

from bs4 import BeautifulSoup

import json

#获取的cookie值存放在这

myHeader = {"Cookie":"SINAGLOBAL=1151648924265.729.1510207774298; YF-V5-G0=a9b587b1791ab233f24db4e09dad383c; login_sid_t=663888f6033b6f4a8f5fa48b26d9eb17; YF-Ugrow-G0=ea90f703b7694b74b62d38420b5273df; _s_tentry=passport.weibo.com; Apache=9283625770163.1.1512087277478; ULV=1512087277483:2:1:1:9283625770163.1.1512087277478:1510207774304; SSOLoginState=1512087292; wvr=6; YF-Page-G0=451b3eb7a5a4008f8b81de1fcc8cf90e; cross_origin_proto=SSL; WBStorage=82ca67f06fa80da0|undefined; crossidccode=CODE-gz-1ElEPq-16RrfZ-qpysbLqGTWJetzH095150; SCF=AnQFFpBKBne2YCQtu52G1zEuEpkY1WI_QdgCdIs-ANt1_wzGQ0_VgvzYW7PLnswMwwJgI9T3YeRDGsWhfOwoLBs.; SUB=_2A253IOm1DeThGeNG6lsU-CjOzTWIHXVUVFx9rDV8PUNbmtBeLWTSkW9NS2IjRFgpnHs1R3f_H3nB67BbC--9b_Hb; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9W5fUsSPaZjP3cB4EXR8M3gT5JpX5KzhUgL.Fo-ReK.f1hqESo.2dJLoIEXLxK.L1hzLBKeLxK-LBo.LBoBLxKML1-zL1-zLxK-LBKBL12qLxK-L1K-L122t; SUHB=0wnlry4ys0tunb; ALF=1543884132; wb_cusLike_5819586269=N; UOR=,,login.sina.com.cn"}

#要爬去的账号的粉丝列表页面的地址
r = requests.get('https://weibo.com/p/1005051678105910/follow?relate=fans&from=100505&wvr=6&mod=headfans&current=fans#place',headers=myHeader)

f = open("test.html", "w", encoding="UTF-8")

parser = HTMLParser()

parser.feed(r.text)

htmlStr = r.text

# 通过script来切割后边的几个通过js来显示的json数组，通过观看源代码

fansStr = htmlStr.split("</script>")

#因为在测试的时候，发现微博每一次返回的dom的顺序不一样，粉丝列表的dom和一个其他内容的dom的位置一直交替，所以在这加了一个判断

tmpJson = fansStr[-2][17:-1] if fansStr[-2][17:-1].__len__()>fansStr[-3][17:-1].__len__() else fansStr[-3][17:-1]

dict = json.loads(tmpJson)

soup = BeautifulSoup(dict['html'], 'html')

soup.prettify()

f.write(soup.prettify())

for divTag in soup.find_all('div'):

    if divTag['class'] == ["follow_inner"]:

        followTag = divTag

if locals().get("followTag"):

    for personTag in followTag.find_all('dl'):

        p = person.person(personTag)

        print(p.__dict__)

person类代码：

在这中间进行主要的解析

from bs4 import BeautifulSoup

#具体解析在这

class person(object):

    def __init__(self, personTag = None):

        self.analysis(personTag)

    def analysis(self,personTag):

        self.analysisName(personTag)

        self.analysisFollowAndFansNumber(personTag)

        self.analysisCity(personTag)

        self.analysisIntroduce(personTag)

        self.analysisFollowWay(personTag)

        self.analysisID(personTag)

    def analysisName(self,personTag):

        self.name = personTag.div.a.string

　　

    def analysisFollowAndFansNumber(self,personTag):

        for divTag in personTag.find_all('div'):

            if divTag['class'] == ["info_connect"]:

                infoTag = divTag

        if locals().get("infoTag"):

            self.followNumber = infoTag.find_all('span')[0].em.string

            self.fansNumber = infoTag.find_all('span')[1].em.a.string

            self.assay = infoTag.find_all('span')[2].em.a.string

    def analysisCity(self,personTag):

        for divTag in personTag.find_all('div'):

            if divTag['class'] == ['info_add']:

                addressTag = divTag

        if locals().get('addressTag'):

            self.address = addressTag.span.string

    def analysisIntroduce(self,personTag):

        for divTag in personTag.find_all('div'):

            if divTag['class'] == ['info_intro']:

                introduceTag = divTag

        if locals().get('introduceTag'):

            self.introduce = introduceTag.span.string

    def analysisFollowWay(self,personTag):

        for divTag in personTag.find_all('div'):

            if divTag['class'] == ['info_from']:

                fromTag = divTag

        if locals().get('fromTag'):

            self.fromInfo = fromTag.a.string

    def analysisID(self,personTag):

        personRel = personTag.dt.a['href']

        self.id = personRel[personRel.find('=')+1:-5]+personRel[3:personRel.find('?')]

在这里爬去的是孙俪下边的第一页列表的微博的粉丝，结果如下截图：

其实这个相对还是比较简单的，主要比较麻烦的是需要看新浪的html的源代码，需要了解其显示的规律，然后使用beautiful soup进行解析节点，获取数据。

使用python进行新浪微博粉丝爬虫的更多相关文章

Python初学者之网络爬虫(二)
声明:本文内容和涉及到的代码仅限于个人学习,任何人不得作为商业用途.转载请附上此文章地址本篇文章Python初学者之网络爬虫的继续,最新代码已提交到https://github.com/octans ...
【Python】：简单爬虫作业
使用Python编写的图片爬虫作业: #coding=utf-8 import urllib import re def getPage(url): #urllib.urlopen(url[, dat ...
使用python/casperjs编写终极爬虫-客户端App的抓取-ZOL技术频道
使用python/casperjs编写终极爬虫-客户端App的抓取-ZOL技术频道使用python/casperjs编写终极爬虫-客户端App的抓取
[Python学习] 简单网络爬虫抓取博客文章及思想介绍
前面一直强调Python运用到网络爬虫方面很有效,这篇文章也是结合学习的Python视频知识及我研究生数据挖掘方向的知识.从而简介下Python是怎样爬去网络数据的,文章知识很easy ...
洗礼灵魂，修炼python（69）--爬虫篇—番外篇之feedparser模块
feedparser模块 1.简介 feedparser是一个Python的Feed解析库,可以处理RSS ,CDF,Atom .使用它我们可从任何 RSS 或 Atom 订阅源得到标题.链接和文章的 ...
洗礼灵魂，修炼python（50）--爬虫篇—基础认识
爬虫 1.什么是爬虫爬虫就是昆虫一类的其中一个爬行物种,擅长爬行. 哈哈,开玩笑,在编程里,爬虫其实全名叫网络爬虫,网络爬虫,又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者 ...
使用Python + Selenium打造浏览器爬虫
Selenium 是一款强大的基于浏览器的开源自动化测试工具,最初由 Jason Huggins 于 2004 年在 ThoughtWorks 发起,它提供了一套简单易用的 API,模拟浏览器的各种操 ...
Python 利用Python编写简单网络爬虫实例3
利用Python编写简单网络爬虫实例3 by:授客 QQ:1033553122 实验环境 python版本:3.3.5(2.7下报错实验目的获取目标网站“http://bbs.51testing. ...
Python 利用Python编写简单网络爬虫实例2
利用Python编写简单网络爬虫实例2 by:授客 QQ:1033553122 实验环境 python版本:3.3.5(2.7下报错实验目的获取目标网站“http://www.51testing. ...

随机推荐

第八章：SCRT搭建ES搜索引擎步骤
1.打开SecureCRT工具,输入服务器IP.端口号,确认后根据提示输入账号密码. 2.进入后判断服务器是否安装过JDK(1.6.0以上版本), 输入命令:# java –version 3.如 ...
C#字符串来袭——因为爱，所以爱
一直以来都喜欢谢霆锋,喜欢他身上的那股劲,也一直喜欢唱他的歌,比如这首最广为人知的<因为爱,所以爱>:因为爱所以爱,温柔经不起安排,愉快那么快,不要等到互相伤害...是的,没到互相伤害,他 ...
算法笔记_068:Dijkstra算法简单介绍（Java）
目录 1 问题描述 2 解决方案 2.1 使用Dijkstra算法得到最短距离示例 2.2 具体编码 1 问题描述何为Dijkstra算法? Dijkstra算法功能:给出加权连通图中一个顶点, ...
nutch中bin/crawl和bin/nutch crawl的用法(转)
针对上一篇文章中出现的问题:Command crawl is deprecated, please use bin/crawl instead错误信息,今天在官网上查阅了一下,进行了总结. 官网lin ...
Android实现小圆点显示未读功能
代码地址如下:http://www.demodashi.com/demo/13541.html 前言以前我们实现这个功能都是用 BadgeView.java,大体就是将这个java类复制到自己的项目 ...
asp 支付宝企业版接口支持网银接口，网银直接支付
asp 支付宝企业版接口支持网银接口 ,网银直接支付仅仅是多了一个defalutbank的參数. 详细看 open.alipay.com <% ' 类名:AlipaySubmit ' 功 ...
键盘enter按钮出发登陆事件
$("#nameInput").focus();$(".txtUserName").keydown(function (event) { if (event.k ...
CentOS安装rz\sz命令
执行以下命令进行安装: yum install lrzsz 安装完成后即可操作rz和sz命令. rz:本地文件上传. sz:Linux系统文件下载到本地.
Rabbitmq消息队列（五）路由Routing
1.简介在以前一章中,我们可以把一个消息广播给多个接收者.在这一章中,我们会增加一个功能:接收者能够只接收订阅消息中的一个子集. 2.绑定在我们将交换机和队列进行绑定的时候,我们可以添加一个额外的 ...
POI操作Excel导入和导出
Apache的POI组件是Java操作Microsoft Office办公套件的强大API,当中对Word,Excel和PowperPoint都有支持,当然使用较多的还是Excel.由于Word和Po ...

使用python进行新浪微博粉丝爬虫

使用python进行新浪微博粉丝爬虫的更多相关文章

随机推荐

热门专题