使用python抓取汽车之家车型数据

import requests

import pymysql

HOSTNAME = '127.0.0.1'

USERNAME = 'root'

PASSWORD = 'zyndev'

DATABASE = 'zyndev_new'

brand = 'http://www.autohome.com.cn/ashx/AjaxIndexCarFind.ashx?type=1'

series = 'http://www.autohome.com.cn/ashx/AjaxIndexCarFind.ashx?type=3&value={}'

model = 'http://www.autohome.com.cn/ashx/AjaxIndexCarFind.ashx?type=5&value={}'

def obtain_brand_info():

    request_brand = requests.get(brand)

    if request_brand.status_code == 200:

        request_brand.close()

        brand_json = request_brand.json()

        if brand_json['returncode'] == 0:  # 成功

            brand_list = brand_json['result']['branditems']

            conn = pymysql.connect(HOSTNAME, USERNAME, PASSWORD, DATABASE, charset="utf8")

            cur = conn.cursor()

            args = []

            for item in brand_list:  # 存入数据库 将 dict 转为 list

                sub_arg = (item['id'], item['name'], item['bfirstletter'])

                args.append(sub_arg)

            print(args)

            rowcount = cur.executemany('INSERT INTO auto_home_car_brand(brandid,name,bfirstletter) values(%s,%s,%s)', args)

            conn.commit()

            print(f"插入品牌:\n共{len(brand_dict)}\n成功插入{rowcount}条记录\n插入失败{len(brand_dict) - rowcount}条")

            cur.close()

            conn.close()

            return brand_list

    else:

        raise Exception("请求失败")

def obtain_series(brand_list):

    for brand_info in brand_list:

        request_series = requests.get(series.format(brand_info['id']))

        if request_series.status_code == 200:

            request_series.close()

            series_json = request_series.json()

            if series_json['returncode'] == 0:  # 成功

                factory_list = series_json['result']['factoryitems']

                conn = pymysql.connect(HOSTNAME, USERNAME, PASSWORD, DATABASE, charset="utf8")

                cur = conn.cursor()

                args = []

                series_count = 0

                for factory_item in factory_list:

                    factory_id = factory_item['id']

                    factory_name = factory_item['name']

                    series_items = factory_item['seriesitems']

                    for series_item in series_items:

                        series_count = series_count + 1

                        sub_arg = (brand_info['id'], factory_id, factory_name, series_item['id'], series_item['name'],

                                   series_item['seriesstate'], series_item['seriesorder'])

                        args.append(sub_arg)

                rowcount = cur.executemany('''INSERT INTO auto_home_car_series(brand_id, factory_id, `factory_name`,

                                        `series_id`, `series_name`, `series_state`,`series_order`)

                                          values(%s, %s, %s, %s, %s, %s, %s)''',args)

                conn.commit()

                print(f"插入车系:\n共{series_count}\n成功插入{rowcount}条记录\n插入失败{series_count - rowcount}条")

                cur.close()

                conn.close()

def obtain_model():

    conn = pymysql.connect(HOSTNAME, USERNAME, PASSWORD, DATABASE, charset="utf8")

    cur = conn.cursor()

    cur.execute("select series_id from auto_home_car_series")

    series_list = cur.fetchall()

    for series in series_list:

        request_model = requests.get(model.format(series[0]))

        if request_model.status_code == 200:

            model_json = request_model.json()

            request_model.close()

            if model_json['returncode'] == 0:  # 成功

                year_items = model_json['result']['yearitems']

                conn = pymysql.connect(HOSTNAME, USERNAME, PASSWORD, DATABASE, charset="utf8")

                cur = conn.cursor()

                args = []

                model_count = 0

                for year_item in year_items:

                    for spec_item in year_item['specitems']:

                        model_count = model_count + 1

                        sub_args = (series[0], year_item['id'], year_item['name'], spec_item['id'], spec_item['name'],

                                    spec_item['state'], spec_item['minprice'], spec_item['maxprice'])

                        args.append(sub_args)

                rowcount = cur.executemany('''INSERT INTO auto_home_car_model(

                        `series_id`, `year_id`, `year_name`, `model_id`,

                        `model_name`, `model_state`, `min_price`, `max_price`)

                    values(%s, %s, %s, %s, %s, %s, %s, %s)''', args)

                conn.commit()

                print(f"插入车型:\n共{model_count}\n成功插入{rowcount}条记录\n插入失败{model_count - rowcount}条")

                cur.close()

                conn.close()

def main():

    #brand_list = obtain_brand_info()

    #obtain_series(brand_list)

    obtain_model()

if '__main__' == __name__:

    main()

使用python抓取汽车之家车型数据的更多相关文章

Python 爬取汽车之家口碑数据
本文仅供学习交流使用,如侵立删!联系方式见文末汽车之家口碑数据 2021.8.3 更新增加用户信息参数.认证车辆信息等 2021.3.24 更新更新最新数据接口 2020.12.25 更新添加 ...
[Python爬虫] 之十八：Selenium +phantomjs 利用 pyquery抓取电视之家网数据
一.介绍本例子用Selenium +phantomjs爬取电视之家(http://www.tvhome.com/news/)的资讯信息,输入给定关键字抓取资讯信息. 给定关键字:数字:融合:电视抓 ...
一篇文章教会你用Python抓取抖音app热点数据
今天给大家分享一篇简单的安卓app数据分析及抓取方法.以抖音为例,我们想要抓取抖音的热点榜数据. 要知道,这个数据是没有网页版的,只能从手机端下手. 首先我们要安装charles抓包APP数据,它是一 ...
手把手教你用Python抓取AWS的日志(CloudTrail)数据
数据时代,利用数据做决策是大数据的核心价值. 本文手把手,教你使用python进行AWS的CloudTrail配置,进行日志抓取.进行数据分析,发现数据价值! 如今是云的时代,许多公司都把自己的IT架 ...
浅谈如何使用python抓取网页中的动态数据
我们经常会发现网页中的许多数据并不是写死在HTML中的,而是通过js动态载入的.所以也就引出了什么是动态数据的概念, 动态数据在这里指的是网页中由Javascript动态生成的页面内容,是在页面加载到 ...
python抓取网页中的动态数据
一.概念网页中的许多数据并不是写死在HTML中的,而是通过js动态载入的.所以也就引出了什么是动态数据的概念,动态数据在这里指的是网页中由Javascript动态生成的页面内容,是在页面加载到浏览器 ...
Python抓取淘宝IP地址数据
def fetch(ip): url = 'http://ip.taobao.com/service/getIpInfo.php?ip=' + ip result = [] try: response ...
python抓取NBA现役球员基本信息数据
链接:http://china.nba.com/playerindex/ 所需获取JSON数据页面链接:http://china.nba.com/static/data/league/playerli ...
python抓取NBA现役球员基本信息数据并进行分析
链接:http://china.nba.com/playerindex/ 所需获取JSON数据页面链接:http://china.nba.com/static/data/league/playerli ...

随机推荐

Spring 连接MySQL报错java.sql.SQLException: Unknown system variable 'tx_isolation'
先是报错255,这个时候需要把 jdbc:mysql://localhost:3306/projUse 写成 jdbc:mysql://localhost:3306/projUse?useUnicod ...
F - kebab HDU - 2883 (最大流构图)
Almost everyone likes kebabs nowadays (Here a kebab means pieces of meat grilled on a long thin stic ...
push 空内容push入数组会占位
#!/usr/bin/perl use strict; use warnings; ==)?:'';my @arr; ==)?:''; '; my $line = join "|" ...
vue打包成app后，背景图片不显示
问题: 在使用npm run build 打包后, 如果在页面中使用img标签引入,打包后的路径是由index.html开始访问的,真正访问的是Static/img/图片名, 是正确的, 但是写在cs ...
python学习笔记（29）-操作excel
操作excel #存到excel里面,python去操作excel文件 #只支持这种后缀,xlsx ,openpyxl只支持这种格式 # from openpyxl import load_workb ...
LeetCode No.103,104,105
No.103 ZigzagLevelOrder 二叉树的锯齿形层次遍历题目给定一个二叉树,返回其节点值的锯齿形层次遍历.(即先从左往右,再从右往左进行下一层遍历,以此类推,层与层之间交替进行). ...
RPM包和YUM仓库管理
1.RPM包管理 RPMRPM Package Manger,前身Redhat Package Manger,由红帽开发用于软件包的安装升级卸载与查询有一个完整的数据库体系,每个RPM包的所有信息都固 ...
An internal error occurred during: "Redeploy".
原因:项目中JDK使用的版本与现在使用的JDK版本不同所致. 解决方法:右键选择项目>properties>java Build Path>Libraries 查看下面的JRE Sy ...
nutzboot 项目打包排除或指定配置文件（夹）
springboot 是一样的我这里就是从springboot哪里拿过来的 (nutzboot2.x已测试可以使用) 排除指定文件在pom 文件 build 标签内添加 resources < ...
ExecutorCompletionService理解记忆
java.util.concurrent 类 ExecutorCompletionService<V> java.lang.Object 继承者 java.util.concurren ...

使用python抓取汽车之家车型数据

使用python抓取汽车之家车型数据的更多相关文章

随机推荐

热门专题