Python 爬虫实例（2）—— 爬取今日头条

# coding:utf-8

import base64

import random, re

import sqlite3

import redis, pickle

import json, time

import urllib3,urllib2,hashlib

from datetime import datetime

import threading

import logging.handlers

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

import uuid

import requests

session = requests.session()

#把连接加密成 MD5 生成唯一的主键

def md5(str):

    import hashlib

    m = hashlib.md5()

    m.update(str)

    return m.hexdigest()

def jinri():

    list_data  = []

    for i in range(1,20):

     　　#请求得到url 链接

        url = "http://www.toutiao.com/api/pc/feed/"

        data = {

            "category":"news_game",

            "utm_source":"toutiao",

            "widen":str(i),

            "max_behot_time":"",

            "max_behot_time_tmp":"",

            "tadrequire":"true",

            "as":"479BB4B7254C150",

            "cp":"7E0AC8874BB0985",

        }

        headers = {

                "Host":"www.toutiao.com",

                "Connection":"keep-alive",

                "Accept":"text/javascript, text/html, application/xml, text/xml, */*",

                "X-Requested-With":"XMLHttpRequest",

                "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36",

                "Content-Type":"application/x-www-form-urlencoded",

                "Referer":"http://www.toutiao.com/ch/news_hot/",

                "Accept-Encoding":"gzip, deflate",

                "Accept-Language":"zh-CN,zh;q=0.8",

        }

        result1 = session.get(url=url,params=data,headers=headers).text

        result2 =json.loads(result1)

        if result2["message1"] =="success":

            for i in result2["data"]:

                source_url =i["source_url"]

                headers = {

                    "Host":"www.toutiao.com",

                    "Connection":"keep-alive",

                    "Cache-Control":"max-age=0",

                    "Upgrade-Insecure-Requests":"",

                    "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36",

                    "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",

                    "Accept-Encoding":"gzip, deflate",

                    "Accept-Language":"zh-CN,zh;q=0.8",

                }

                url1 = "http://www.toutiao.com" + str(source_url)

                try:

                    return_data = session.get(url=url1, headers=headers).content

                except:

                    pass

                # print return_data

                try:

                    contentData = re.findall(' <article>(.*?)</article>',return_data)[0]

                except:

                    contentData = ""

                cx = sqlite3.connect("C:\\Users\\xuchunlin\\PycharmProjects\\study\\db.sqlite3",check_same_thread=False)

                cx.text_factory = str

                try:

                    print "正在插入链接   %s   数据" % (url)

                    chinese_ta = i["chinese_tag"]

                    media_avatar_url = i["media_avatar_url"]

                    is_feed_ad = i["is_feed_ad"]

                    tag_url = i["tag_url"]

                    title = i["title"]

                    tag = i["tag"]

                    label = str(i["label"])

                    abstract = i["abstract"]

                    source_url = i["source_url"]

                    print title

                    print chinese_ta

                    print media_avatar_url

                    print is_feed_ad

                    print tag_url

                    print tag

                    print label

                    print abstract

                    print source_url

                    url2 = md5(str(url1))

                    cx.execute("INSERT INTO toutiao (title,chinese_ta,media_avatar_url,is_feed_ad,tag_url,tag,label,abstract,source_url,url,contentData)VALUES (?,?,?,?,?,?,?,?,?,?,?)",

                        (str(title), str(chinese_ta), str(media_avatar_url), str(is_feed_ad), str(tag_url), str(tag), str(label), str(abstract), str(source_url), str(url2),str(contentData)))

                    cx.commit()

                    # time.sleep(2)

                except Exception as e:

                    print e

                    print "cha ru shi bai "

                cx.close()

        else:

            print "请求失败"

    return list_data

print jinri()

爬虫很简单，难的是自己去分析网页解析网页和爬虫的效率

Python 爬虫实例（2）—— 爬取今日头条的更多相关文章

Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取
很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面右边 li 标签中的就是短 ...
Python爬虫实例：爬取猫眼电影——破解字体反爬
字体反爬字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...
Python爬虫实例：爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...
爬虫—分析Ajax爬取今日头条图片
以今日头条为例分析Ajax请求抓取网页数据.本次抓取今日头条的街拍关键字对应的图片,并保存到本地一,分析打开今日头条主页,在搜索框中输入街拍二字,打开开发者工具,发现浏览器显示的数据不在其源码里面 ...
PYTHON 爬虫笔记九:利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集（实战项目二）
利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集目标站点分析今日头条这类的网站制作,从数据形式,CSS样式都是通过数据接口的样式来决定的,所以它的抓取方法和其他网页的抓取方 ...
使用scrapy爬虫,爬取今日头条搜索吉林疫苗新闻（scrapy+selenium+PhantomJS）
这一阵子吉林疫苗案,备受大家关注,索性使用爬虫来爬取今日头条搜索吉林疫苗的新闻依然使用三件套(scrapy+selenium+PhantomJS)来爬取新闻以下是搜索页面,得到吉林疫苗的搜索信息, ...
Python爬虫教程-17-ajax爬取实例（豆瓣电影）
Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互对于ajax: ...
爬虫七之分析Ajax请求并爬取今日头条
爬取今日头条图片这里只讨论出现的一些问题,代码在最下面github链接里. 首先,今日头条取消了"图集"这一选项,因此对于爬虫来说效率降低了很多: 在所有代码都完成后,也许是爬取 ...
使用scrapy爬虫,爬取今日头条首页推荐新闻（scrapy+selenium+PhantomJS）
爬取今日头条https://www.toutiao.com/首页推荐的新闻,打开网址得到如下界面查看源代码你会发现全是js代码,说明今日头条的内容是通过js动态生成的. 用火狐浏览器F12查看得知 ...
Python3从零开始爬取今日头条的新闻【一、开发环境搭建】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...

随机推荐

Jquery实现可拖拽的树菜单
效果图例如以下所看到的:下载地址http://download.csdn.net/detail/javaquentin/8290417 <html xmlns="http://www. ...
Tomcat配置域名和虚拟文件夹
说明: 我在本机中添加域名模拟,假设是主机直接配置也能够使用.我用的tomcat是apache-tomcat-7.0.42 本地添加域名本文介绍怎样通过改动tomcat的配置.实现通过IP地址或者域 ...
[转]C#中图片.BYTE[]和base64string的转换
本文转自:http://blog.csdn.net/thebesttome/article/details/6870155 在C#中图片到byte[]再到base64string的转换: Bitma ...
如何编译Linux内核
内核,是一个操作系统的核心.它负责管理系统的进程.内存.设备驱动程序.文件和网络系统,决定着系统的性能和稳定性.Linux作为一个自由软件,在广大爱好者的支持下,内核版本不断更新.新的内核修订了旧内 ...
oracle sql 优化大全
转自: http://panshaobinsb.iteye.com/blog/1718233 http://yulimeander.blog.sohu.com/115850824.html 最近遇到了 ...
Mahout构建图书推荐系统【一起学Mahout】
阅读导读: 1.Mahout中推荐过滤算法支持哪两种算法? 2.用java代码怎样计算男性用户打分过的图书? 3.itemEuclidean.userEuclideanNoPref各自是什么算法? 1 ...
sqlserver 汉字转拼音
作者不详 --方法一sqlserver汉字转拼音首字母 --调用方法 select dbo.procGetPY ('中國') Create FUNCTION dbo.procGetPY ( ...
iOS:切换视图时,反向传递数据方法二：代理
代理: 1.发送信息的控制器设置一个代理,并自定义一个代理的方法,用来传递数据 2.接受信息的控制器遵循发送信息的控制器的协议 3.接受信息的控制器设置发送信息的控制器的代理为自己self 4.接受信 ...
iOS：带主标题、副标题、图像类型的表格视图UITableView
制作一个通讯录,包括姓名.电话.头像,将表格视图类型设置为UITableViewCellStyleSubtitle 效果图: //创建一个联系人的类,初始化数据在视图控制器中实现表格内容的显示 #i ...
关于CPU的运行队列与系统负载
在linux操作系统中,我们一般查看系统的cpu负载情况常用的命令可以是uptime,top,还有vmstat等这些个都是可以有的.每个工具所提供的信息各不相同, 我这里要讨论的仅说cpu部分.使用u ...

Python 爬虫实例（2）—— 爬取今日头条

Python 爬虫实例（2）—— 爬取今日头条的更多相关文章

随机推荐

热门专题