Python3.5爬取豆瓣电视剧数据并且同步到mysql中

#!/usr/local/bin/python

# -*- coding: utf-8 -*-

# Python:                  3.5

# Author:                  zhenghai.zhang@xxx.com

# Program:                 爬取豆瓣网站上所有电视剧的名称并写入数据库。

# Version:                 0.1

# History:                 2017.11.01

import requests,time, pymysql, re, datetime, json

from exchangelib import DELEGATE, Account, Credentials, Message, Mailbox, HTMLBody

host = 'xxx'

user = 'xxx'

passwd = 'xxx'

dbme = 'crawl'

dbtarget = 'back_brace'

table = 'tv_hotwords'

tabledelta = 'tv_hotwords_delta'

tablesync = 'slot_value'

port = 3306

tolist = ['zhenghai.zhang@xxx.com']

def get_tvs(urlbase, page):

    try:

        url = urlbase + str(page)

        print(url)

        try:

            result = requests.get(url).text

            jresult = json.loads(result)

            tvs = jresult.get('subjects')

        except:

            print('爬取' + urlbase + str(page) + '失败！')

        time.sleep(2)

        return tvs

    except:

        print('获取第%s页电影列表失败' % page)

def tv_insert(host, user, passwd, dbme, port, table, tvs_list):

    conn = pymysql.connect(host=host, user=user, passwd=passwd, db=dbme, port=port, charset="utf8")

    cur = conn.cursor()

    new_tvs = []

    punc = "！？｡＂＃＄％＆＇（）＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏.():：。· "

    punctuation = punc

    for tv in tvs_list:

        try:

            tv['title'] = re.sub(r"[%s]+" % punctuation, "", tv.get('title'))

            cmd = 'insert into %s(tv_id, tv_name) values("%s", "%s")' % (

                table, tv.get('id'), tv.get('title'))

            cur.execute(cmd)

            new_tvs.append(tv)

        except:

            print(" " * 20, tv.get('title'), "already exists, skip……")

    cur.close()

    conn.commit()

    conn.close()

    return new_tvs

def tv_new_and_sync(host, user, passwd, dbme, dbtarget, port, tabledelta, tvs_list, tablesync):

    conn = pymysql.connect(host=host, user=user, passwd=passwd, db=dbme, port=port, charset="utf8")

    cur = conn.cursor()

    cur.execute("delete from %s " % dbme+"."+tabledelta)

    for tv in tvs_list:

        try:

            cmd = 'insert into %s(tv_id, tv_name) values("%s", "%s")' % (tabledelta, tv['id'], tv['title'])

            cmdsync = 'insert into %s(slot_type_id, slot_value, create_by, modify_by, gmt_create, gmt_modify, out_value) values("%s", "%s", "%s", "%s", "%s", "%s", "%s")' % (dbtarget+"."+tablesync, "xxxxxx", tv['title'], "system", "system", datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S"), datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S"), "")

            cur.execute(cmd)

            cur.execute(cmdsync)

        except pymysql.Error:

            print(" " * 20, tv['title'], "already exists, skip……")

    cur.close()

    conn.commit()

    conn.close()

def tv_new_to_release(host, user, passwd, dbtarget, port):

    conn = pymysql.connect(host=host, user=user, passwd=passwd, db=dbtarget, port=port, charset="utf8")

    cur = conn.cursor()

    try:

        cmdbacktoskill = 'insert into back_brace.release_task(app_type,app_status,type,ref_id,status,register_id,create_by,modify_by,gmt_create,gmt_modify) values("BACKBRACE","testpass","SLOT","xxxxxx","init","SLOT_BACKBRACE_TESTPASS" ,"zhenghai.zhang","zhenghai.zhang","%s","%s")' % (datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S"), datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S"))

        cmdskilltoskillpro = 'insert into back_brace.release_task(app_type,app_status,type,ref_id,status,register_id,create_by,modify_by,gmt_create,gmt_modify) values("SKILL","deploy","SLOT","xxxxxx","init","SLOT_SKILL_DEPLOY" ,"zhenghai.zhang","zhenghai.zhang","%s","%s")' % (datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S"), datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S"))

        print(cmdbacktoskill)

        cur.execute(cmdbacktoskill)

        print(cmdskilltoskillpro)

        cur.execute(cmdskilltoskillpro)

    except pymysql.Error:

        print("write into back_brace.release_task error!!!")

    cur.close()

    conn.commit()

    conn.close()

def Email(to, subject, body):

    creds = Credentials(

        username='xxxxxx',

        password='xxxxxx')

    account = Account(

        primary_smtp_address='xxx@xxx.com',

        credentials=creds,

        autodiscover=True,

        access_type=DELEGATE)

    m = Message(

        account=account,

        subject=subject,

        body=HTMLBody(body),

        to_recipients=[Mailbox(email_address=to)])

    m.send_and_save()

if __name__ == '__main__':

    update_tvs = []

    pages = 25 # 豆瓣每项电视剧只有前500部

    # 美剧 英剧 韩剧 日剧 国产剧 港剧 日本动画 综艺

    urlbaselist = ['https://movie.douban.com/j/search_subjects?type=tv&tag=%E7%BE%8E%E5%89%A7&sort=recommend&page_limit=20&page_start=',

                       'https://movie.douban.com/j/search_subjects?type=tv&tag=%E8%8B%B1%E5%89%A7&sort=recommend&page_limit=20&page_start=',

                       'https://movie.douban.com/j/search_subjects?type=tv&tag=%E9%9F%A9%E5%89%A7&sort=recommend&page_limit=20&page_start=',

                       'https://movie.douban.com/j/search_subjects?type=tv&tag=%E6%97%A5%E5%89%A7&sort=recommend&page_limit=20&page_start=',

                       'https://movie.douban.com/j/search_subjects?type=tv&tag=%E5%9B%BD%E4%BA%A7%E5%89%A7&sort=recommend&page_limit=20&page_start=',

                       'https://movie.douban.com/j/search_subjects?type=tv&tag=%E6%B8%AF%E5%89%A7&sort=recommend&page_limit=20&page_start=',

                       'https://movie.douban.com/j/search_subjects?type=tv&tag=%E6%97%A5%E6%9C%AC%E5%8A%A8%E7%94%BB&sort=recommend&page_limit=20&page_start=',

                       'https://movie.douban.com/j/search_subjects?type=tv&tag=%E7%BB%BC%E8%89%BA&sort=recommend&page_limit=20&page_start=']

    for urlbase in urlbaselist:

        for i in range(pages):

            print("*"*30, i, "*"*30)

            tvs_list = get_tvs(urlbase, i * 20)

            new_tvs = tv_insert(host, user, passwd, dbme, port, table, tvs_list)

            for tv in new_tvs:

                print(tv['title'],"Added")

                onetv = {}

                onetv["id"] = tv["id"]

                onetv["title"] = tv["title"]

                update_tvs.append(onetv)

            time.sleep(1)

        print(update_tvs)

        try:

            tv_new_and_sync(host, user, passwd, dbme, dbtarget, port, tabledelta, update_tvs, tablesync)  # 将增加的电影写入movie_hotwords_delta表中

        except:

            print("tv update and sync Error!")

    try:

        tv_new_to_release(host, user, passwd, dbtarget, port)

    except:

        print("tv_new_to_release error!!!")

    subject = '本次新增电视剧名称'

    body = "本次新增的电影名称为：<hr>"

    for movie in update_tvs:

        body += movie['title'] + "<br>"

    for to in tolist:

        Email(to, subject, body)

还请各位大侠指点

Python3.5爬取豆瓣电视剧数据并且同步到mysql中的更多相关文章

Python3.5爬取cbooo.cn数据并且同步到mysql中
#!/usr/local/bin/python # -*- coding: utf-8 -*- # Python: 3.5 # Author: wucl(),zhenghai.zhang # Prog ...
Scrapy 通过登录的方式爬取豆瓣影评数据
Scrapy 通过登录的方式爬取豆瓣影评数据爬虫 Scrapy 豆瓣 Fly 由于需要爬取影评数据在来做分析,就选择了豆瓣影评来抓取数据,工具使用的是Scrapy工具来实现.scrapy工具使用起来 ...
【python数据挖掘】爬取豆瓣影评数据
概述: 爬取豆瓣影评数据步骤: 1.获取网页请求 2.解析获取的网页 3.提速数据 4.保存文件源代码: # 1.导入需要的库 import urllib.request from bs4 impo ...
python系列之（3）爬取豆瓣图书数据
上次介绍了beautifulsoup的使用,那就来进行运用下吧.本篇将主要介绍通过爬取豆瓣图书的信息,存储到sqlite数据库进行分析. 1.sqlite SQLite是一个进程内的库,实现了自给自足 ...
python爬虫-爬取豆瓣电影数据
#!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:27# 文件 :spider_05.py# IDE :PyChar ...
node 爬虫 --- 将爬取到的数据，保存到 mysql 数据库中
步骤一:安装必要模块 (1)cheerio模块 ,一个类似jQuery的选择器模块,分析HTML利器. (2)request模块,让http请求变的更加简单 (3)mysql模块,node连接mysq ...
利用selenium 爬取豆瓣武林外传数据并且完成数据可视化情绪分析
全文的步骤可以大概分为几步: 一:数据获取,利用selenium+多进程(linux上selenium 多进程可能会有问题)+kafka写数据(linux首选必选耦合)windows直接采用的是写my ...
Scrapy爬取豆瓣图书数据并写入MySQL
项目地址 BookSpider 介绍本篇涉及的内容主要是获取分类下的所有图书数据,并写入MySQL 准备 Python3.6.Scrapy.Twisted.MySQLdb等演示代码一.创建项目 ...
python3 爬虫---爬取豆瓣电影TOP250
第一次爬取的网站就是豆瓣电影 Top 250,网址是:https://movie.douban.com/top250?start=0&filter= 分析网址'?'符号后的参数,第一个参数's ...

随机推荐

keras中的loss、optimizer、metrics
用keras搭好模型架构之后的下一步,就是执行编译操作.在编译时,经常需要指定三个参数 loss optimizer metrics 这三个参数有两类选择: 使用字符串使用标识符,如keras.lo ...
Tensorflow get_variable和Varialbe的区别
import tensorflow as tf """ tf.get_variable()和Variable有很多不同点 * 它们对重名操作的处理不同 * 它们受name ...
【LeetCode】235. Lowest Common Ancestor of a Binary Search Tree (2 solutions)
Lowest Common Ancestor of a Binary Search Tree Given a binary search tree (BST), find the lowest com ...
HDU 1258 Sum It Up （DFS）
Sum It Up Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others)Total S ...
RabbitMQ.Client API (.NET)中文文档
主要的名称空间,接口和类核心API中定义接口和类 RabbitMQ.Client 名称空间: 1 using RabbitMQ.Client; 核心API接口和类 IModel :表示一个AMQP ...
Android上面通过URL来启动本地应用
<application android:allowBackup="true" android:icon="@drawable/ic_launcher" ...
shell脚本监控cpu/内存使用率转
该脚本检测cpu和内存的使用情况,只需要调整memorySetting.cpuSetting.userEmail要发邮件报警的email地址即可如果没有配置发邮件参数的哥们,已配置了的,直接飞到代码 ...
centos 6&7 升级openssh
1.查看现在的版本 # rpm -qa | grep openssh openssh-clients-6.6.1p1-22.el7.x86_64 openssh-server-6.6.1p1-22.e ...
使用Kotlin开发Android应用
1.Kotlin介绍 [Kotlin](https://kotlinlang.org/) Kotlin是一门基于JVM的编程语言,它正成长为Android开发中用于替代Java语言的继承者.Java是 ...
php超时时间说明
一,http请求超时时间可能出现的场景: 1,curl进程运行了一个世纪还木结束,curl的时候设置了超时时间 --connect-timeout 1000 2,operation timed ou ...

Python3.5爬取豆瓣电视剧数据并且同步到mysql中

Python3.5爬取豆瓣电视剧数据并且同步到mysql中的更多相关文章

随机推荐

热门专题