python AjaxSpider 代码演示


import re # 引入正则表达式

import json #  引入 json

import pymongo # 引入mongo数据库

import requests # 引入HTTP请求协议

from hashlib import md5 # 引入MD5

from bs4 import BeautifulSoup #引入BeautifulSoup 信息查询框架

from multiprocessing import Pool # 引入 多线程池

from urllib.parse import urlencode #引入网页解析

from json.decoder import JSONDecodeError #引入json错误异常

from requests.exceptions import RequestException #引入 HTTP异常

from config import * #导入数据库配置信息

client = pymongo.MongoClient(MONGO_URL,connect=False)

db = client[MONGO_DB]

# 抓取索引

def get_page_index(offset,keyword):

    # 构造请求数据信息

    data ={

        'office':offset, # 默认页码

        'format': 'json', # 数据格式

        'keyword': 'keyword', # 关键字

        'autoload': 'true',

        'count': '20',

        'cur_tab': 3,

    }

    url = 'http://www.toutiao.com/search_content/?' + urlencode(data)

    try:

        response = requests.get(url)

        # 判断是否有正常获取到网页信息

        if response.status_code == 200:

            # 如果访问正常泽返回数据，否则为空

            return response.text

        return None

    except RequestException:

        print('请求索引出错')

        return None

def parse_page_index(html):

   try:

        data = json.loads(html)

        if data and 'data' in data.keys():

            for item in data.get('data'):

                yield item.get('article_url')

   except JSONDecodeError:

       pass

def get_page_detail(url):

    try:

        response = requests.get(url)

        if response.status_code == 200:

                return response.text

        return None

    except RequestException:

        print('请求详情页出错',url)

        print(url)

def parse_page_detail(html,url):

    soup = BeautifulSoup(html,'lxml')

    title = soup.select('title')[0].get_text()

    print(title)

    images_pattern = re.compile('var gallery = (.*?)',re.S)

    result = re.search(images_pattern,html)

    if result:

        data = json.loads(result.group(1))

        if data and 'sub_images' in data.keys():

            sub_images = data.get('sub_images')

            images = [item.get('url') for item in sub_images]

            for image in images: download_image(image)

            return {

                'title':title,

                'url':url,

                'images':images,

            }

def save_to_monogo(result):

    if db[MONGO_TABLE].insert(result):

        print('存储到MonogoDB成功',result)

        return True

    return False

def download_image(url):

    print('正在下载',url)

    try:

        response = requests.get(url)

        if response.status_code == 200:

                # return response.text

            save_image(response.content)

        return None

    except RequestException:

        print('请求图片出错出错',url)

        return None

def save_image(content):

    file_path = '{0}/{1}.{2}'.format(ls.getcwd(),md5(content).hexdigest(),'jpg')

    if not os.path.exists(file_path):

        with open(file_path,'wb') as f:

            f.writable(content)

            f.close()

def main(offset):

    # html = get_page_index(0,'街拍')

    html = get_page_index(offset,KEYWORD)

    for url in parse_page_index(html):

        html = get_page_detail(url)

        if html:

           result = parse_page_detail(html,url)

           if result: save_to_monogo(result)

           print(result)

if __name__ == '__main__':

    # main()

    groups = [x*20 for x in range(GROUP_START,GROUP_END + 1)]

    pool = Pool()

    pool.map(main, groups)

python AjaxSpider 代码演示的更多相关文章

python 类继承演示范例的代码
把做工程过程重要的代码片段备份一次,下面的资料是关于python 类继承演示范例的代码. # a simple example of a class inheritance # tested with ...
Python Web框架Tornado的异步处理代码演示样例
1. What is Tornado Tornado是一个轻量级但高性能的Python web框架,与还有一个流行的Python web框架Django相比.tornado不提供操作数据库的ORM接口 ...
代码演示C#各版本新功能
代码演示C#各版本新功能 C#各版本新功能其实都能在官网搜到,但很少有人整理在一起,并通过非常简短的代码将每个新特性演示出来. 代码演示C#各版本新功能 C# 2.0版 - 2005 泛型分部类型 ...
Python一行代码
1:Python一行代码画出爱心 print]+(y*-)**-(x**(y*<= ,)]),-,-)]) 2:终端路径切换到某文件夹下,键入: python -m SimpleHTTPServ ...
python爬虫代码
原创python爬虫代码主要用到urllib2.BeautifulSoup模块 #encoding=utf-8 import re import requests import urllib2 im ...
14种网页jQuery和css3特效插件代码演示
1.网页table增删样式代码演示和下载地址 2.jQuery左右滑动幻灯片插件演示和下载地址 3.jQuery文字轮播焦点图演示和下载地址 4.网页文字焦点图切换演示和下载地址 5.jQue ...
9种jQuery和css3图片动画特效代码演示
1.自由旋转的jQuery图片演示和下载地址 2.css3阴影动画效果演示和下载地址 3.拉窗帘特效图片演示和下载地址 4.css3文字特效动画演示和下载地址 5.css3时钟代码演示和下载 ...
java 覆盖hashCode()深入探讨代码演示样例
java 翻盖hashCode()深入探讨代码演示样例 package org.rui.collection2.hashcode; /** * 覆盖hashcode * 设计HashCode时最重要 ...
javascript 压缩空格代码演示
压缩空格代码演示主要是讲解压缩一个字符串两段空格例如:javascript函数里的空格不论是这样 var s = "Hello World ...

随机推荐

python中列表的常用操作增删改查
1. 列表的概念,列表是一种存储大量数据的存储模型. 2. 列表的特点,列表具有索引的概念,可以通过索引操作列表中的数据.列表中的数据可以进行添加.删除.修改.查询等操作. 3. 列表的基本语法创建 ...
dp算法之平安果路径问题c++
前文:https://www.cnblogs.com/ljy1227476113/p/9563101.html 在此基础上更新了可以看到行走路径的代码. 代码: #include <iostre ...
假设检验，alpha，p值通俗易懂的的理解。
假设检验: 一般原假设H0 :表是为 XXX和YYYY无显著差异,H1,是有显著差异. 如果我们定义alpha的值是0.05.意味着我们接受H0是真的但是我们却认为他是假的的概率. 这里你想想,这个值 ...
PAT甲题题解-1022. Digital Library (30)-map映射+vector
博主欢迎转载,但请给出本文链接,我尊重你,你尊重我,谢谢~http://www.cnblogs.com/chenxiwenruo/p/6789235.html特别不喜欢那些随便转载别人的原创文章又不给 ...
每日scrum(5)
进入冲刺第五天,软件的界面设计成为主打,收集学校的很多美图是我们组的任务: 问题在于软件已很难有很大的改进,大方向也都是变不了的任务看板: 燃尽图:
Fibbing以让虚结点的设置更简单为目的优化网络需求
(Alpha)Let's-技术文档（技术规格说明书）
技术规格说明书抽象首先,对抽象原则的理解,“抽象”这一概念本身就很抽象.抽象体现的是一种概括能力.我们生活中遇到的很多客体,其在某些方面具备有一些相似甚至相同的性质,以这些特点而非事物本身来认识鉴 ...
UIView 添加闪烁的渐变光
CGRect gradientRect=CGRectMake(- imageView3.bounds.size.width*, * imageView3.bounds.size.width, imag ...
Window环境下RabbitMQ的安装和配置教程
一.安装首先,RabbitMQ基于Erlang语言环境,所以需要先安装Erlang. Erlang下载地址:http://www.erlang.org/downloads 按照安装程序默认安装完成就 ...
初学Nutch之简介与安装
1.Nutch简介 Nutch是一个由Java实现的,开放源代码(open-source)的web搜索引擎.主要用于收集网页数据,然后对其进行分析,建立索引,以提供相应的接口来对其网页数据进行查询 ...

python AjaxSpider 代码演示

python AjaxSpider 代码演示的更多相关文章

随机推荐

热门专题