直接请求json文件爬取天眼查企业信息（未解决验证码问题）—

　　几个月前。。。省略一堆剧情。。。直接请求json文件爬取企业信息未成功，在知乎提问后，得到解决，有大佬说带上全部headers和cookie是可以的，我就又去试了下，果然可以（之前自己试的时候不行，没搞清楚为什么突然可以了、、、）。但是即使sleep几秒后，爬虫还是会死掉，会浏览器再次访问，会发现需要验证才可以继续浏览。咨询了一些大佬，又查了查资料，看来是要用代理了，没有深入去研究。听说天眼查本事就是搞爬虫的。。。这里就贴下未解决验证码的半成品吧，代码写的很烂，也没有清洗数据，凑活着看看吧先。

当中尝试换UA避开验证，不过失败了。大佬们有新的办法欢迎告知。有错误欢迎指出，共同学习。

import requests

import MySQLdb

import time

import random

#打开数据库链接

db = MySQLdb.connect(host="localhost", user="root", passwd="你的密码",db="test",use_unicode=True,charset="utf8")

cursor = db.cursor()

# 如果数据已经存在，使用excute()方法删除表

cursor.execute("DROP TABLE IF EXISTS tianyancha")

#创建数据表	SQL语句

sql = """CREATE TABLE tianyancha(

        industry VARCHAR(20),

        base VARCHAR(10),

        id VARCHAR(20),

		 name VARCHAR(50) NOT NULL,

		 legalPersonName VARCHAR(50),

		 regStatus VARCHAR(10),

		 score VARCHAR(10)

		 )

		 """

cursor.execute(sql)

urls=["http://www.tianyancha.com/search/%E7%BB%9F%E8%AE%A1.json?&pn="+str(i) for i in range(38,51)]

UA = ["Mozilla/5.0 (Windows NT 10.0; WOW64; rv:49.0) Gecko/20100101 Firefox/49.0","Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36"]

headers={

    "Accept":"application/json,text/plain, */*",

    "Accept-Encoding":"gzip, deflate",

    "Accept-Language":"zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3",

    "CheckError":"check",

    "Cookie":"TYCID=79ecda1ebc7243bb8e0e61001fa62e45; tnet=219.217.246.3; Hm_lvt_e92c8d65d92d534b0fc290df538b4758=1478185016,1478185105; Hm_lpvt_e92c8d65d92d534b0fc290df538b4758=1478185127; RTYCID=f6052f4746504a92a9449adf8c1aad4d; aliyungf_tc=AQAAAIi4rlRU9QIAA/bZ26bXAnGDUsL8; _pk_id.1.4c4c=ff85a162bc61332e.1478185118.1.1478185128.1478185118.; _pk_ref.1.4c4c=%5B%22%22%2C%22%22%2C1478185118%2C%22http%3A%2F%2Fwww.tianyancha.com%2F%22%5D; _pk_ses.1.4c4c=*; token=70f49be8c16c4cb290fa7d05c8a60638; _utm=-24s2tr4st24-9n8d32849t38sk97hh8",

    "Referer":"http://bj.tianyancha.com/search",

    "Tyc-From":"normal",

    "User-Agent":random.choice(UA),

    "loop":"null"

}

def get_data(url):

    data = requests.get(url=url,headers=headers).json()

    data = data["data"]

    # print(data)

    for i in range(len(data)):

        score = data[i]["score"]

        base = data[i]["base"]

        regStatus = data[i]["regStatus"]

        industry = data[i]["industry"]

        legalPersonName = data[i]["legalPersonName"]

        name = data[i]["name"]

        id = data[i]["id"]

        sql_save = """INSERT INTO tianyancha\

        SET industry=%s,base=%s, id=%s, name=%s, legalPersonName=%s,regStatus=%s,score=%s"""

        cursor.execute(sql_save,(industry,base, id, name, legalPersonName, regStatus, score))

        db.commit()

        print(name)

for url in urls:

    time.sleep(3)

    try:

        get_data(url)

    except:

        print(url)

        pass

#关闭数据库连接

db.close()

　　输出：

直接请求json文件爬取天眼查企业信息（未解决验证码问题）——python3实现的更多相关文章

python+selenium+xpath 爬取天眼查工商基本信息
# -*- coding:utf-8 -*-# author: kevin# CreateTime: 2018/8/16# software-version: python 3.7 import ti ...
python应用：selenium之爬取天眼查信息
inform_table.py # -*-coding:utf8-*- from selenium import webdriver from selenium.webdriver.common.pr ...
Python反爬：利用js逆向和woff文件爬取猫眼电影评分信息
首先:看看运行结果效果如何! 1. 实现思路小编基本实现思路如下: 利用js逆向模拟请求得到电影评分的页面(就是猫眼电影的评分信息并不是我们上述看到的那个页面上,应该它的实现是在一个页面上插入另外一 ...
<day003>登录+爬取淘宝商品信息+字典用json存储
任务1:利用cookie可以免去登录的烦恼(验证码) ''' 只需要有登录后的cookie,就可以绕过验证码登录后的cookie可以通过Selenium用第三方(微博)进行登录,不需要进行淘宝的滑动 ...
利用 Scrapy 爬取知乎用户信息
思路:通过获取知乎某个大V的关注列表和被关注列表,查看该大V和其关注用户和被关注用户的详细信息,然后通过层层递归调用,实现获取关注用户和被关注用户的关注列表和被关注列表,最终实现获取大量用户信息. 一 ...
爬虫（十六）：scrapy爬取知乎用户信息
一:爬取思路首先我们应该找到一个账号,这个账号被关注的人和关注的人都相对比较多的,就是下图中金字塔顶端的人,然后通过爬取这个账号的信息后,再爬取他关注的人和被关注的人的账号信息,然后爬取被关注人的账 ...
scrapy-redis + Bloom Filter分布式爬取tencent社招信息
scrapy-redis + Bloom Filter分布式爬取tencent社招信息什么是scrapy-redis 什么是 Bloom Filter 为什么需要使用scrapy-redis + B ...
scrapy-redis分布式爬取tencent社招信息
scrapy-redis分布式爬取tencent社招信息什么是scrapy-redis 目标任务安装爬虫创建爬虫编写 items.py 编写 spiders/tencent.py 编写 pip ...
【nodejs 爬虫】使用 puppeteer 爬取链家房价信息
使用 puppeteer 爬取链家房价信息目录使用 puppeteer 爬取链家房价信息页面结构爬虫库 pupeteer 库实现打开待爬页面遍历区级页面方法一方法二遍历街道页面遍 ...

随机推荐

(转)JavaScript中的运算符优先级
JavaScript中的运算符优先级是一套规则.该规则在计算表达式时控制运算符执行的顺序.具有较高优先级的运算符先于较低优先级的运算符执行.例如,乘法的执行先于加法. 下表按从最高到最低的优先级列出J ...
AFNetworking之于https认证
写在开头: 本来这篇内容准备写在AFNetworking到底做了什么?(三)中的,但是因为我想在三中完结这个系列,碍于篇幅所限.并且这一块内容独立性比较强,所以单独拎出来,写成一篇. 本文从源码的角度 ...
51nod 1181 质数中的质数（质数筛法）
题目链接:51nod 1181 质数中的质数(质数筛法) #include<cstdio> #include<cmath> #include<cstring> #i ...
gulp教程之gulp-uglify
简介: 使用gulp-uglify压缩javascript文件,减小文件大小. 1.安装nodejs/全局安装gulp/项目安装gulp/创建package.json和gulpfile.js文件 1. ...
C#简易一元二次求解器
using System;using System.Collections.Generic;using System.ComponentModel;using System.Data;using Sy ...
HTML 中级2
<colgroup> 标签用于对表格中的列进行组合,以便对其进行格式化. 通过使用 <colgroup> 标签,可以向整个列应用样式,而不需要重复为每个单元格或每一行设置样式. ...
wdcp 下apache模式开启https访问，支持多站点
1.vi conf/httpd.conf 查找 #Include conf/extra/httpd-ssl.conf (删除行首的配置语句注释符号"#"保存退出) 2.vi con ...
python学习08——类
笨办法学python第42节,这节讲的是类,程序沿用上一节中一个游戏,不同的是这一节用了类的方法. 其中改动的代码主要如下原来的最后几句用了这样的代码: ROOMS = { 'death':deat ...
c++作业:Circle
Circle Github链接
用jQuery Mobile做HTML5移动应用的三个优缺点
JQuery Mobile 和 HTML5 的 3个优点 1. 上手迅速并支持快速迭代:在一个星期多一点的时间里,通过阅读JQuery Mobile文档以及O’Reilly出版的JQuery Mobi ...

直接请求json文件爬取天眼查企业信息（未解决验证码问题）——python3实现

直接请求json文件爬取天眼查企业信息（未解决验证码问题）——python3实现的更多相关文章

随机推荐

热门专题