python协程爬取某网站的老赖数据

import re

import json

import aiohttp

import asyncio

import time

import pymysql

from asyncio.locks import Semaphore

from functools import partial

headers = {

    'Cookie': 'auth_token=your_token_here',

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.135 Safari/537.36'

}

def save_data(cursor, addr_dic, obj):

    try:

        data = obj.result()['data']

        name = data['iname']

        addr = addr_dic.get(name, '')

        idcard = data['cardnum']

        assert re.match('\d{10}[\d*]{4}\d{3}[\dxX]', idcard)

        birth = idcard[6:10]

        assert birth.isdigit()

        birth += '年'

        sex = data.get('sex')

        if not sex:

            n = int(idcard[-2])

            sex = '男' if (n % 2) == 1 else '女'

        tm = time.localtime(data.get('regdate', 0) / 1000)

        createtime = f'{tm.tm_year}-{tm.tm_mon}-{tm.tm_mday}'

        cursor.execute("insert into tianyancha(name, birth, sex, idcard, court, createtime, caseno, base, duty, status, detail, addr) values('%s', '%s', '%s', '%s', '%s', '%s', '%s', '%s', '%s', '%s', '%s', '%s')" % (

            name, birth, sex, idcard, data['courtname'], createtime, data['casecode'], data['gistunit'], data['duty'], data['performance'], data['disrupttypename'], addr

        ))

    except Exception as e:

        print('插入错误', e.args)

async def parse_case_data(sem, session, cid):

    # 爬取详情记录

    async with sem:  # 控制并发量

        async with session.get(f"https://shixin.tianyancha.com/shixin/getDishonestinfoDetailWeb.json?bussinessId={cid}") as rsp:

            return await rsp.json()

async def parse_province(sem, session, cursor, url):

    page = 1

    while True:

        # 翻页爬取

        page_url = f'{url}/p{page}'

        async with session.get(page_url) as rsp:

            try:

                txt = await rsp.text()

                # 解析出人名对应的地址

                addr_dic = {}

                pps = [i.strip() for i in re.findall('dishonest_base_info_detail">(.*?)</', txt, re.S)]

                for itm in pps:

                    try:

                        name, _, _, addr = itm.split('，')

                        assert addr.endswith('人。')

                        addr = addr.rstrip('人。')

                        addr_dic[name] = addr

                    except:

                        pass

                # 解析出每条失信记录的id

                cid_lis = re.findall('data-id="([\da-z]{32})"', txt)

                tasks = []

                for cid in cid_lis:

                    # 开启协程爬取解析每条记录

                    task = asyncio.create_task(parse_case_data(sem, session, cid))

                    # 回调存入mysql

                    task.add_done_callback(partial(save_data, cursor, addr_dic))

                    tasks.append(task)

                await asyncio.wait(tasks)

                print(f'第{page}页爬取完成')

                if 'tic-icon-arrow-right' not in txt:

                    break

                page += 1

            except:

                print(f'爬取到第{page}页失败')

                break

async def main():

    province = "广东"

    url_data = json.load(open('url.json', 'r', encoding='utf-8'))  # url.json: 存储省份对应的url的json文件

    url_lis = [url_data.get(province)]  # 此处是支持全国所有省份一起爬取的，但是我只爬取广东的

    sem = Semaphore(4)

    conn = pymysql.connect(host='localhost', port=3306, user='user', password='password', charset='utf8', database='db', autocommit=True)

    cursor = conn.cursor()

    async with aiohttp.ClientSession(headers=headers) as session:

        for url in url_lis:

            await parse_province(sem, session, cursor, url)

    cursor.close()

    conn.close()

if __name__ == '__main__':

    asyncio.run(main())

python协程爬取某网站的老赖数据的更多相关文章

Python协程爬取妹子图(内有福利，你懂得~)
项目说明: 1.项目介绍本项目使用Python提供的协程+scrapy中的选择器的使用(相当好用)实现爬取妹子图的(福利图)图片,这个学会了,某榴什么的.pow(2, 10)是吧! 2.用到的知 ...
python之简单爬取一个网站信息
requests库是一个简介且简单的处理HTTP请求的第三方库 get()是获取网页最常用的方式,其基本使用方式如下使用requests库获取HTML页面并将其转换成字符串后,需要进一步解析HTML ...
初次尝试python爬虫，爬取小说网站的小说。
本次是小阿鹏,第一次通过python爬虫去爬一个小说网站的小说. 下面直接上菜. 1.首先我需要导入相应的包,这里我采用了第三方模块的架包,requests.requests是python实现的简单易 ...
04 Python网络爬虫 <<爬取get/post请求的页面数据>>之requests模块
一. urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib ...
python爬虫学习-爬取某个网站上的所有图片
最近简单地看了下python爬虫的视频.便自己尝试写了下爬虫操作,计划的是把某一个网站上的美女图全给爬下来,不过经过计算,查不多有好几百G的样子,还是算了.就首先下载一点点先看看. 本次爬虫使用的是p ...
Python爬虫：爬取某网站关键词对应商品ID，且存入DB2数据库
公司研发不给力,我就自己写了一个,专门爬关键词对应的商品ID. 其中还学会了用Python操作DB2数据库.Python发送邮件.写日志文件.处理浏览器访问限制. #!/usr/bin/python# ...
用python实现多线程爬取影视网站全部视频方法【笔记】
我拿这个站点作为案例:https://91mjw.com/ 其他站点方法都是差不多的. 第一步:获得整站所有的视频连接 html = requests.get("https://91mjw ...
046.Python协程
协程 1 生成器初始化生成器函数返回生成器对象,简称生成器 def gen(): for i in range(10): #yield 返回便能够保留状态 yield i mygen = gen( ...
python爬虫--爬取某网站电影信息并写入mysql数据库
书接上文,前文最后提到将爬取的电影信息写入数据库,以方便查看,今天就具体实现. 首先还是上代码: # -*- coding:utf-8 -*- import requests import re im ...

随机推荐

tp5使用PHPWord（下载引入/composer两种方式）
PHPWORD使用文档一:引入 tp5.0,tp5.1: 1:composer方式(推荐) a:根目录下执行:composer require phpoffice/phpword b:引入: use ...
容器服务 TKE 存储插件与云硬盘 CBS 最佳实践应用
引言随着自研上云的深入,越来越多的有状态服务对于在 TKE 集群中使用云上存储能力的需求也越来越强烈. 目前腾讯云容器服务 TKE(Tencent Kubernetes Engine已支持在 TKE ...
多任务-python实现-生成器相关（2.1.13）
@ 目录 1.概念 2.创建方法 3.通过send方式来启动 1.概念通过列表生成式,我们可以直接创建一个列表,但是,受到内存限制,列表容量肯定是有限的,而且创建一个包含100万个元素的列表,不仅占 ...
YOLO实践初探
学习了Andrew Ng 深度学习第三周卷积神经网络课程后,接着看了看YOLO论文,论文看得懵懵懂懂,沉不下心精雕细琢,手痒痒,迫不及待地想试一试YOLO效果.于是乎,在github上下载了ping星 ...
同一个UITextField 根据不同状态下弹出不同类型键盘遇到的坑
一,需求:有多个选项按钮,点击不同的按钮,textfield内容需求不同弹出对应需求的键盘类型. 二,问题:1.刚开始在按钮状态改变后设置 self.textField.keyboardType属性完 ...
C# Attribute特性泛型<T> 方法的out ref this(扩展方法) Equals与==
out ref out和ref的使用场景其实不一样.out适合在方法内返回一个额外的结果参数,而ref适合直接改变一个在方法外面的值,方法改变外部就改变,无需重新定义接住返回值再使用. out可以在方 ...
.NET 5 源代码生成器——MediatR——CQRS
在这篇文章中,我们将探索如何使用.NET 5中的新source generator特性,使用MediatR库和CQRS模式自动为系统生成API. 中介者模式中介模式是在应用程序中解耦模块的一种方式. ...
Echarts数据可视化，easyshu图表集成。
介绍: ECharts,一个使用 JavaScript 实现的开源可视化库,可以流畅的运行在 PC 和移动设备上,兼容当前绝大部分浏览器(IE8/9/10/11,Chrome,Firefox,Sa ...
python谷歌序列化传输
今日破解某app加密app当中用到了谷歌序列化传输 1.请求序列化文件 # Generated by the protocol buffer compiler. DO NOT EDIT! # sour ...
HADOOP单机版配置
1.需要软件 jdk hadoop 将jdk和hadoop解压到自己想要存放的路径这里我解压到/usr/目录下 sudo tar -zxvf java1.8.tar.gz -C /usr/ hado ...

python协程爬取某网站的老赖数据

python协程爬取某网站的老赖数据的更多相关文章

随机推荐

热门专题