爬取知乎话题async使用协程

import requests

import json

import time

from pyquery import PyQuery

import pandas as pd

from collections import OrderedDict

import multiprocessing

import asyncio

from functools import partial

# cookies = input('请输入Cookie：')

# url = input('请输入url：')

init_url = 'https://www.zhihu.com/api/v4/topics/19562045/feeds/top_activity?offset=5&limit=10'

headers = {

    'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1',

    'Cookie': '**',

    'Referer': 'https://www.zhihu.com/topic/19606409/hot',

    'Host': 'www.zhihu.com',

    'X-UDID': 'AGDlzA1itw2PTr6aWsPp6OtejkxQ9iF7xgA='

}

def get_all_url(url):

    res = requests.get(url,headers=headers)

    data = json.loads(res.text)

    next_page_url = data['paging']['next']

    url_list.append(next_page_url)

    print(len(url_list))

    end_page = data['paging']['is_end']  # true

    if end_page:

        return url_list

    else:

        get_all_url(next_page_url)

async def get_all_data(url):

    future = loop.run_in_executor(None,partial(requests.get,url,headers=headers))

    #res = requests.get(url,headers=headers)

    res = await future

    data = json.loads(res.text)

    res_data = data['data']

    print(len(data_list))

    for i in res_data:

        final_data = OrderedDict()

        type = i['target']['type']

        if type =='answer':

            final_data['title'] = i['target']['question']['title'] or ''

            try:

                final_data['content'] = PyQuery(i['target']['content']).text()

            except Exception as e:

                final_data['content'] = PyQuery(i['target']['excerpt']).text()

            final_data['comment_count'] = i['target']['comment_count']

            final_data['voteup_count'] = i['target']['voteup_count']

            data_list.append(final_data)

if __name__ == '__main__':

    data_list=[]

    url_list = []

    get_all_url(init_url)

    tasks = [asyncio.ensure_future(get_all_data(url)) for url in url_list]

    loop = asyncio.get_event_loop()

    loop.run_until_complete(asyncio.wait(tasks))

    loop.close()

    df1 =pd.DataFrame(data_list)

    df1.to_excel('保险'+time.strftime("%Y%m%d%H%M%S")+'.xlsx',index=False)

    print('done')

爬取知乎话题async使用协程的更多相关文章

requests爬取知乎话题和子话题
zhihu.py # *_*coding:utf-8 *_* import pymysql import requests from lxml import etree from requests_t ...
教程+资源,python scrapy实战爬取知乎最性感妹子的爆照合集(12G)!
一.出发点: 之前在知乎看到一位大牛(二胖)写的一篇文章:python爬取知乎最受欢迎的妹子(大概题目是这个,具体记不清了),但是这位二胖哥没有给出源码,而我也没用过python,正好顺便学一学,所以 ...
通过scrapy，从模拟登录开始爬取知乎的问答数据
这篇文章将讲解如何爬取知乎上面的问答数据. 首先,我们需要知道,想要爬取知乎上面的数据,第一步肯定是登录,所以我们先介绍一下模拟登录: 先说一下我的思路: 1.首先我们需要控制登录的入口,重写star ...
利用 Scrapy 爬取知乎用户信息
思路:通过获取知乎某个大V的关注列表和被关注列表,查看该大V和其关注用户和被关注用户的详细信息,然后通过层层递归调用,实现获取关注用户和被关注用户的关注列表和被关注列表,最终实现获取大量用户信息. 一 ...
16、爬取知乎大v张佳玮的文章“标题”、“摘要”、“链接”，并存储到本地文件
爬取知乎大v张佳玮的文章“标题”.“摘要”.“链接”,并存储到本地文件 # 爬取知乎大v张佳玮的文章“标题”.“摘要”.“链接”,并存储到本地文件 # URL https://www.zhihu.co ...
python scrapy爬取知乎问题和收藏夹下所有答案的内容和图片
上文介绍了爬取知乎问题信息的整个过程,这里介绍下爬取问题下所有答案的内容和图片,大致过程相同,部分核心代码不同. 爬取一个问题的所有内容流程大致如下: 一个问题url 请求url,获取问题下的答案个数 ...
使用python scrapy爬取知乎提问信息
前文介绍了python的scrapy爬虫框架和登录知乎的方法. 这里介绍如何爬取知乎的问题信息,并保存到mysql数据库中. 首先,看一下我要爬取哪些内容: 如下图所示,我要爬取一个问题的6个信息: ...
爬取知乎热榜标题和连接（python，requests，xpath）
用python爬取知乎的热榜,获取标题和链接. 环境和方法:ubantu16.04.python3.requests.xpath 1.用浏览器打开知乎,并登录 2.获取cookie和User—Agen ...
scrapy 爬取知乎问题、答案，并异步写入数据库（mysql）
python版本 python2.7 爬取知乎流程: 一 .分析在访问知乎首页的时候(https://www.zhihu.com),在没有登录的情况下,会进行重定向到(https://www. ...

随机推荐

Java中的生产者、消费者问题
Java中的生产者.消费者问题描述: 生产者-消费者(producer-consumer)问题, 也称作有界缓冲区(bounded-buffer)问题, 两个进程共享一个公共的固定大小的缓冲区(仓库) ...
WebService（三）
JAX-WS简单使用示例: 1.服务端 package com.rong.service; import javax.jws.WebMethod; import javax.jws.WebParam; ...
2nd 四人小组项目的进一步分析
组长:林莉组员:王东涵.宫丽君.胡丽娜项目选题:车辆管理系统(附加相关员工管理) 项目期限:暂定十周一.NABCD模型 N-Need 需求分析及相应功能设置需求概述: 管理库中车辆信息.相关人 ...
Java实现的词频统计——Web迁移
本次将原本控制台工程迁移到了web工程上,依旧保留原本控制台的版本. 需求: 1.把程序迁移到web平台,通过用户上传TXT的方式接收文件: 2.在页面上给出链接 (如果有封皮.作者.字数.页数等信息 ...
对Excle的行和列进行检查单元格类型转换代码；
对Excle的行和列进行检查转换代码 : ** * 导入信息 */ @Override public List<Object> add(HttpServletRequest reque ...
Hive查看执行日志
HIVE-如何查看执行日志 HIVE既然是运行在hadoop上,最后又被翻译为MapReduce程序,通过yarn来执行.所以我们如果想解决HIVE中出现的错误,需要分成几个过程 HIVE自身翻译成为 ...
将Python项目生成所有依赖包的清单requirements .txt文件
在开发中不同的项目总会牵扯到各种不同作用的包安装,下面是总结一下对写好的项目自动生成依赖清单,以及在新环境下解决依赖的方法: 一:生成所有依赖清单requirements.txt 这里需要使用到的工具 ...
smokping的部署使用
本文是介绍如何的使用smokeping来监控idc机房的网络质量情况,从监控图上的延时与丢包能分辨出你机房的网络是否稳定,是否为多线,是否为BGP机房,到各城市的3个运行商网络各是什么情况,如果出现问 ...
Java ISO 8601时间格式转换
common-lang包: String pattern = "YYYY-MM-dd'T'HH:mm:ssZZ"; System.out.println(DateFormatUti ...
spring 整合 struts2 + Hibernate application配置文件（基于注解）
下面是 application.xml 文件. <?xml version="1.0" encoding="UTF-8"?> <beans x ...

爬取知乎话题async使用协程

爬取知乎话题async使用协程的更多相关文章

随机推荐

热门专题