python爬取今日头条图片

import requests

from urllib.parse import urlencode

from requests import codes

import os

# qianxiao996精心制作

#博客地址：https://blog.csdn.net/qq_36374896

from hashlib import md5

from multiprocessing.pool import Pool

def get_page(offset):

    params = {

        'offset': offset,

        'format': 'json',

        'keyword': '街拍',

        'autoload': 'true',

        'count': '20',

        'cur_tab': '1',

        'from': 'search_tab'

    }

    base_url = 'https://www.toutiao.com/search_content/?'

    url = base_url + urlencode(params)

    try:

        resp = requests.get(url)

        if codes.ok == resp.status_code:

            return resp.json()

    except requests.ConnectionError:

        return None

def get_images(json):

    if json.get('data'):

        data = json.get('data')

        for item in data:

            if item.get('cell_type') is not None:

                continue

            title = item.get('title')

            images = item.get('image_list')

#            url_temp = image.get('url')

            for image in images:

                url_temp = image.get('url')

                yield {

                    #此处更新，使用列表网址后23位作为大图的地址，抓取大图

                    'image': 'https:' + '//p3.pstatp.com/large/pgc-image/'+ url_temp[-23:],

#                    'image': 'https:' + image.get('url')，

                    'title': title

                }

def save_image(item):

    img_path = 'img' + os.path.sep + item.get('title')

    if not os.path.exists(img_path):

        os.makedirs(img_path)

    try:

        resp = requests.get(item.get('image'))

        if codes.ok == resp.status_code:

            file_path = img_path + os.path.sep + '{file_name}.{file_suffix}'.format(

                file_name=md5(resp.content).hexdigest(),

                file_suffix='jpg')

            if not os.path.exists(file_path):

                with open(file_path, 'wb') as f:

                    f.write(resp.content)

                print('Downloaded image path is %s' % file_path)

            else:

                print('Already Downloaded', file_path)

    except requests.ConnectionError:

        print('Failed to Save Image，item %s' % item)

def main(offset):

    json = get_page(offset)

    for item in get_images(json):

        print(item)

        save_image(item)

GROUP_START = 0

GROUP_END = 3

if __name__ == '__main__':

    pool = Pool()

    groups = ([x * 20 for x in range(GROUP_START, GROUP_END + 1)])

    pool.map(main, groups)

    pool.close()

    pool.join()

代码年代久远，注释当时没写，现在懒得写了

python爬取今日头条图片的更多相关文章

爬虫—分析Ajax爬取今日头条图片
以今日头条为例分析Ajax请求抓取网页数据.本次抓取今日头条的街拍关键字对应的图片,并保存到本地一,分析打开今日头条主页,在搜索框中输入街拍二字,打开开发者工具,发现浏览器显示的数据不在其源码里面 ...
Python爬取今日头条段子
刚入门Python爬虫,试了下爬取今日头条官网中的段子,网址为https://www.toutiao.com/ch/essay_joke/源码比较简陋,如下: import requests impo ...
python爬取今日头条关键字图集
1．访问搜索图集结果,获得json如下(右图为data的一条的详细内容)．页面以Ajax呈现,每次请求20个图集,其中 title --- 图集名字 artical_url --- 图集的地址 cou ...
用Ajax爬取今日头条图片集
Ajax原理在用requests抓取页面时,得到的结果可能和浏览器中看到的不一样:在浏览器中可以正常显示的页面数据,但用requests得到的结果并没有.这是因为requests获取的都是原始 ...
爬虫七之分析Ajax请求并爬取今日头条
爬取今日头条图片这里只讨论出现的一些问题,代码在最下面github链接里. 首先,今日头条取消了"图集"这一选项,因此对于爬虫来说效率降低了很多: 在所有代码都完成后,也许是爬取 ...
PYTHON 爬虫笔记九:利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集（实战项目二）
利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集目标站点分析今日头条这类的网站制作,从数据形式,CSS样式都是通过数据接口的样式来决定的,所以它的抓取方法和其他网页的抓取方 ...
python 简单爬取今日头条热点新闻(一)
今日头条如今在自媒体领域算是比较强大的存在,今天就带大家利用python爬去今日头条的热点新闻,理论上是可以做到无限爬取的: 在浏览器中打开今日头条的链接,选中左侧的热点,在浏览器开发者模式netwo ...
Python3从零开始爬取今日头条的新闻【一、开发环境搭建】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...
Python3从零开始爬取今日头条的新闻【四、模拟点击切换tab标签获取内容】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...

随机推荐

虫师Selenium2+Python_2、测试环境搭建
windows环境配置: 步骤: 安装python 官网下载http://www.seleniumhq.org/ https://www.python.org/downloads/windows/ 3 ...
termux vim 配置自动补全遇到的问题
// 自动不全需要安装 pkg install proot -y // 用proot可以为手机没有root的用户来模拟一个root的环境,这里主要是经典的 Linux 文件系统布局上的模拟. //执行 ...
Ubuntu20.04 PostgreSQL 14 安装配置记录
PostgreSQL 名称来源 It was originally named POSTGRES, referring to its origins as a successor to the Ing ...
Solution -「CTS 2019」「洛谷 P5404」氪金手游
\(\mathcal{Description}\) Link. 有 \(n\) 张卡牌,第 \(i\) 张的权值 \(w_i\in\{1,2,3\}\),且取值为 \(k\) 的概率正比于 \ ...
BeanFactory与FactoryBean有什么区别？
相同点:都是用来创建bean对象的不同点:使用beanFactory创建对象的时候,必须要遵循严格的生命周期流程,太复杂了,如果想要简单的自定义某个对象的创建,同时创建好的对象想要交给spring来 ...
Vue 源码解读（4）—— 异步更新
前言上一篇的 Vue 源码解读(3)-- 响应式原理说到通过 Object.defineProperty 为对象的每个 key 设置 getter.setter,从而拦截对数据的访问和设置. 当对 ...
OpenHarmony移植：如何适配utils子系统之KV存储部件
摘要:本文介绍移植开发板时如何适配utils子系统之KV存储部件,并介绍相关的运行机制原理. 本文分享自华为云社区<OpenHarmony移植案例与原理 - utils子系统之KV存储部件> ...
图解CPU缓存一致性问题
产生背景 CPU的读取速度比内存的快,一个快一个慢,就会有矛盾,就会有人想要解决这个矛盾,所以就提出多级缓存来解决,如下图所示. L1级缓存:分为数据域和程序域. L2级缓存:二级缓存. L3级缓存 ...
GNS3与抓包工具Wireshark的关联
转至:https://blog.51cto.com/xpleaf/1615145 (一)前言本博文分享GNS3与Wireshark关联的方法. 显然现在网络上已经有类似的文章分享,而本博文旨在提供更 ...
五、ES6之对象
一.对象和属性和方法 JavaScript中对象: var person={name:"Jack",age:20}; 或: var name = "jack"; ...

python爬取今日头条图片

python爬取今日头条图片的更多相关文章

随机推荐

热门专题