第二个爬虫之爬取知乎用户回答和文章并将所有内容保存到txt文件中

自从这两天开始学爬虫，就一直想做个爬虫爬知乎。于是就开始动手了。

知乎用户动态采取的是动态加载的方式，也就是先加载一部分的动态，要一直滑道底才会加载另一部分的动态。要爬取全部的动态，就得先获取全部的url。

我先找到了第一条url:

https://www.zhihu.com/api/v4/members/***************************/activities?limit=7&session_id=************************&after_id=*************&desktop=True

为了不泄露别人的隐私。涉及到用户信息部分我都用*来代替。

通过几个url的比对，我找到个关键的信息after_id。

这个after_id是一串n位的数字，刚开始我以为每条url之间的after_id都是有规律的，但对比了几条url之后我发现这个数字完全没有规律。那没有规律的话该怎么找出下一个url呢？

情急之下我想到一个办法，我发现after_id前几位是不变的，一直改变的是后六位数字。于是我想到，能不能遍历十万个数，每次after_id加一，这样就能找出所有的url了。

这不太可行。

冷静下来我开始分析url。打开url之后我发现回复的json数据里有一个键值‘next’，里面放的就是下一次请求的url。只要不断提取next的值，就能拿到所有的url。于是我想到了递归的方法。难点解决了，剩下的其实很快就可以完成。下面的源码：

import re

import os

import requests

import urllib

import json

allUrl=[]       #全局数组，用来保存该用户所有的动态的url

def getUrl(url):    #递归获取用户所有的动态url

    nextUrl=urllib.request.urlopen(url)

    nextUrl=json.loads(nextUrl.read())

    key=nextUrl['paging']

    if 'next' in key:   #假如还没到底

        nextUrl=nextUrl['paging']['next']

        allUrl.append(nextUrl)

        #print(nextUrl)

        getUrl(nextUrl)

    else:      #已经到底，停止递归

        print('成功获取所有url！')

        return    

def getArticle():     #获取文章，并将文章存入文本文件中

    a=''

    cnt=0

    for line in allUrl:

        t=urllib.request.urlopen(line)

        t=json.loads(t.read())

        t=t['data']

        try:    #异常处理，由于未知原因，爬取某个url时会出现找不到json数据里的content键，导致报错

            for k in t:    #提取单个url内所有文章

                k1=k['target']['content']

                k1=re.sub('.*?</figure>','\r\n\r\n',k1)

                k1=k1.replace('</p><p>','\r\n    ')

                k1=k1.replace('</p>','\r\n')

                k1=k1.replace('<p>','')

                k1=k1.replace('<br>','')

                cnt=cnt+1

                a=a+k1

                print('第'+str(cnt)+'个动态爬取成功')

        except KeyError:

            print('发生错误，此时的url为'+str(line))    

    file=open('D:/bbb.txt','w',encoding='gb18030',errors='ignore')  #将内容写入文本，字符编码要与浏览器一致，否则会报错。

    file.write(a)

    file.close()        

getUrl(url)     #参数是第一个url

getArticle()

第二个爬虫之爬取知乎用户回答和文章并将所有内容保存到txt文件中的更多相关文章

爬虫-----爬取所有国家的首都、面积，并保存到txt文件中
# -*- coding:utf-8 -*- import urllib2import lxml.htmlfrom lxml import etree def main(): file = open( ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...
利用 Scrapy 爬取知乎用户信息
思路:通过获取知乎某个大V的关注列表和被关注列表,查看该大V和其关注用户和被关注用户的详细信息,然后通过层层递归调用,实现获取关注用户和被关注用户的关注列表和被关注列表,最终实现获取大量用户信息. 一 ...
Srapy 爬取知乎用户信息
今天用scrapy框架爬取一下所有知乎用户的信息.道理很简单,找一个知乎大V(就是粉丝和关注量都很多的那种),找到他的粉丝和他关注的人的信息,然后分别再找这些人的粉丝和关注的人的信息,层层递进,这样下 ...
用python+selenium抓取微博24小时热门话题的前15个并保存到txt中
抓取微博24小时热门话题的前15个,抓取的内容请保存至txt文件中,需要抓取排行.话题和阅读数 #coding=utf-8 from selenium import webdriver import ...
基于webmagic的爬虫小应用--爬取知乎用户信息
听到“爬虫”,是不是第一时间想到Python/php ? 多少想玩爬虫的Java学习者就因为语言不通而止步.Java是真的不能做爬虫吗? 当然不是. 只不过python的3行代码能解决的问题,而Jav ...
Scrapy爬虫笔记 - 爬取知乎
cookie是一种本地存储机制,cookie是存储在本地的 session其实就是将用户信息用户名.密码等)加密成一串字符串,返回给浏览器,以后浏览器每次请求都带着这个sessionId 状态码一般是 ...
爬虫（十六）：scrapy爬取知乎用户信息
一:爬取思路首先我们应该找到一个账号,这个账号被关注的人和关注的人都相对比较多的,就是下图中金字塔顶端的人,然后通过爬取这个账号的信息后,再爬取他关注的人和被关注的人的账号信息,然后爬取被关注人的账 ...
Python 爬取生成中文词云以爬取知乎用户属性为例
代码如下: # -*- coding:utf-8 -*- import requests import pandas as pd import time import matplotlib.pyplo ...

随机推荐

新拉的项目在idea中启动时报如下错误:org.apache.catalina.core.ContainerBase.addChildInternal ContainerBase.addChild: start:
今天真的是很苦恼,之前启动项目没有任何问题,今天突然启动时给我报了如下一个错误. 详细报错信息: org.apache.catalina.core.ContainerBase.addChildInte ...
关于使用pietty或putty终端连接ubuntu虚拟机时报被拒绝连接问题
首先如果要使用终端进行远程连接的ubuntu虚拟机的话,必须保证其虚拟机ip能在window下ping的动.具体的ubuntu网络配置这里不再讲,我这里使用的是NAT连接. 然后检查ssh服务是否有安 ...
【第一季】CH05_FPGA设计Verilog基础（二）Enter a post title
[第一季]CH05_FPGA设计Verilog基础(二) 5.1状态机设计状态机是许多数字系统的核心部件,是一类重要的时序逻辑电路.通常包括三个部分:一是下一个状态的逻辑电路,二是存储状态机当前状态 ...
decimal, double, float
更新: 2019-09-08 c# and js 要 ceil floor 2 decimal point 都没有 build in 的 solution 比如 15.667 想 ceil to ...
怎样通过name属性获取元素节点集合
使用 document.getElementsByName(); document.getElementsByName("userInfo") instanceof NodeLis ...
5-MySQL DBA笔记-开发技巧
第5章开发技巧本章将介绍一些和数据库相关的开发技巧.由于开发领域很广,这里只选取部分比较常见的小技巧.5.1 存储树形数据有时我们需要保存一些树形的数据结构,比如组织架构.话题讨论.知识管理.商 ...
Windows 编程键盘
键盘对于大家来说可能再也熟悉不过了,它和鼠标是现在最常用的电脑输入设备.虽然在现在的图形界面操作系统下使用鼠标比使用键盘更方便.更广泛,但是鼠标还是一时半会儿取代不了它的老前辈——键盘的地位,尤其是在 ...
http、tcp简述
网络简述第一章 http.tcp简述一.网络7层协议从上到下分别是 7 应用层 6 表示层 5 会话层 4 传输层 3 网络层 2 数据链路层 1 物理层 : 其中高层(即7.6.5.4层)定 ...
netstat用法详解
netstat用法详解知识,netstat用法详解图片 netstat用法详解内容,netstat用法详介绍,netstat用法详正文 netstat命令是一个监控TCP/IP网络的非常有用的工 ...
python使用openpyxl操作execl
openpyxl openpyxl可以用来对excel进行操作,但只能操作xlsx文件而不能操作xls文件. 主要用到三个概念:Workbooks,Sheets,Cells.Workbook就是一个e ...

第二个爬虫之爬取知乎用户回答和文章并将所有内容保存到txt文件中

第二个爬虫之爬取知乎用户回答和文章并将所有内容保存到txt文件中的更多相关文章

随机推荐

热门专题