Python爬上不得姐并将段子写入数据库

#Python2.7 可以优化一下 前10页 每页点赞最多的段子  百思不得姐

# -*- coding: utf-8 -*-
import MySQLdb
import urllib,urllib2
import sys,re

reload(sys)
sys.setdefaultencoding('utf-8')

class TestBDJ():
    def __init__(self):
        pass
    def getbdj(self):
        lis = []
        for h in range(1,10):
            cc = []
            tt = []
            try:
                url = 'http://www.budejie.com/text/'+str(h)
                res = urllib.urlopen(url).read()
                #print res
                m = re.compile('<div class="j-r-list-c-desc">(.*?)</div>.*?<i class="icon-up ui-icon-up"></i>&nbsp;&nbsp;<span>(.*?)</span>',re.S)    #当前版本可以这样匹配  没有匹配作者
                tt = re.findall(m,res)
                for i in tt:
                    cc.append(i[1])    #把每个段子点赞的数量放入list
                aa = cc
                aa = map(eval,aa)             #需要将点赞的值由string转换成int
                #print "befor %s",aa
                for b in range(len(aa) - 1):           #排序
                    for i in range(len(aa) - 1):
                        if aa[i] < aa[i + 1]:
                            aa[i], aa[i + 1] = aa[i + 1], aa[i]
                #print "after %s",aa

                for t in range(5):             #取每页前5条段子
                    duanzi = []
                    index = cc.index(str(aa[t]))           #将点赞的数量转回string 根据下标 获取对应的段子
                    #print tt[index][0].replace("<br />","")
                    #print tt[index][1]
                    star = tt[index][1]              #点赞人数
                    word = tt[index][0].replace("<br />","").encode('utf-8')       #文字内容
                    duanzi.append(star)
                    duanzi.append(word)
                    lis.append(duanzi)
            except Exception,e:
                print e
        return lis

    def load(self):
        key = self.getbdj()
        if key:
            try:
                conn = MySQLdb.connect(host='localhost', user='hehehe', passwd='****', db='tester', port=330,charset="utf8")    # 加上charset="utf8" 指定编码格式  解决写入mysql中文乱码的问题
                cur = conn.cursor()
                conn.select_db('tester')
                cur.execute('create table if not exists budejie(st int,info TEXT)')
                for k in key:
                    cur.execute('insert into budejie values(%s,%s)',k)
                cur.close()
                conn.commit()
                conn.close()
            except MySQLdb.Error, e:
                print "Mysql Error %d: %s" % (e.args[0], e.args[1])

        return 0

if __name__=='__main__':
    h = TestBDJ()
    h.load()

Python 3 的需要稍微修改一下

#coding:utf-8

import urllib.request

import re

import importlib,sys

for h in range(1,10):

    cc = []

    tt = []

    try:

        url = 'http://www.budejie.com/text/'+str(h)

        res = urllib.request.urlopen(url).read()

        res = res.decode("utf-8")

    #   print (res)

        m = re.compile('<div class="j-r-list-c-desc">(.*?)</div>.*?<i class="icon-up ui-icon-up"></i>&nbsp;&nbsp;<span>(.*?)</span>',re.S)    #当前版本可以这样匹配  没有匹配作者

        tt = re.findall(m,res)

        for i in tt:

            cc.append(i[1])    #把每个段子点赞的数量放入list

        aa = cc

        aa = list(map(eval,aa))             #需要将点赞的值由string转换成int

        #print "befor %s",aa

        for b in range(len(aa)-1):           #排序

            for i in range(len(aa) - 1):

                if aa[i] < aa[i + 1]:

                    aa[i], aa[i + 1] = aa[i + 1], aa[i]

        #print "after %s",aa

        for t in range(5):             #取每页前5条段子

            index = cc.index(str(aa[t]))           #将点赞的数量转回string 根据下标 获取对应的段子

            print (tt[index][0].replace("<br />",""))

            print (tt[index][1])

    except Exception as e:

        print (e)

糗事百科，稍稍做了一下处理

# -*- coding: utf-8 -*-

import urllib,urllib2

import sys,re

reload(sys)

sys.setdefaultencoding('utf-8')

for h in range(1,8):

    cc = []

    tt = []

    try:

        url = 'http://www.qiushibaike.com/text/page/'+str(h)+'/?s=4891212'

        req = urllib2.Request(url)

        req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36')

        res = urllib2.urlopen(req).read()

        #print res

        m = re.compile('<div class="content">(.*?)</div>.*?<span class="stats-vote"><i class="number">(.*?)</i> 好笑</span>',re.S)    #当前版本可以这样匹配  没有匹配作者

        tt = re.findall(m,res)

        for i in tt:

            cc.append(i[1])    #把每个段子点赞的数量放入list

　　　　 aa = cc

        aa = map(eval,aa)             #需要将点赞的值由string转换成int

        #print "befor %s",aa

        for b in range(len(aa) - 1):           #排序

            for i in range(len(aa) - 1):

                if aa[i] < aa[i + 1]:

                    aa[i], aa[i + 1] = aa[i + 1], aa[i]

        #print "after %s",aa

        for t in range(5):             #取每页前5条段子

            index = cc.index(str(aa[t]))           #将点赞的数量转回string 根据下标 获取对应的段子
　　　　　　　print tt[index][0].replace("<br/>","") 
　　　　　　　print tt[index][1]
　　except Exception,e: print e

爬取含图片的段子：

# -*- coding: utf-8 -*-

import urllib,urllib2

import sys,re

reload(sys)

sys.setdefaultencoding('utf-8')

for h in range(1,3):

    cc = []

    tt = []

    try:

        url = 'http://www.qiushibaike.com/imgrank/page/'+str(h)+'/?s=4891221'

        req = urllib2.Request(url)

        req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36')

        res = urllib2.urlopen(req).read()

        #print res

        m = re.compile('<div class="content">(.*?)</div>.*?target="_blank">.*?<img src=\"(.*?)\" alt=.*?<span class="stats-vote"><i class="number">(.*?)</i> 好笑</span>',re.S)    #当前版本可以这样匹配  没有匹配作者

        tt = re.findall(m,res)

        for i in tt:

            cc.append(i[2])    #把每个段子点赞的数量放入list

        #    print i[0]

        #    print i[1]

        #    print i[2]

        aa = cc

        aa = map(eval,aa)             #需要将点赞的值由string转换成int

        #print "befor %s",aa

        for b in range(len(aa) - 1):           #排序

            for i in range(len(aa) - 1):

                if aa[i] < aa[i + 1]:

                    aa[i], aa[i + 1] = aa[i + 1], aa[i]

        #print "after %s",aa

        for t in range(5):             #取每页前5条段子

            index = cc.index(str(aa[t]))           #将点赞的数量转回string 根据下标 获取对应的段子

            print index

            print tt[index][0]

            print tt[index][1]

            print tt[index][2]

    except Exception,e:

        print e

Python爬上不得姐并将段子写入数据库的更多相关文章

（python爬取小故事网并写入mysql）
前言: 这是一篇来自整理EVERNOTE的笔记所产生的小博客,实现功能主要为用广度优先算法爬取小故事网,爬满100个链接并写入mysql,虽然CS作为双学位已经修习了三年多了,但不仅理论知识一般,动手 ...
python爬取糗事百科段子
初步爬取糗事百科第一页段子(发布人,发布内容,好笑数和评论数) #-*-coding:utf--*- import urllib import urllib2 import re page = url ...
Python爬取拉勾网招聘信息并写入Excel
这个是我想爬取的链接:http://www.lagou.com/zhaopin/Python/?labelWords=label 页面显示如下: 在Chrome浏览器中审查元素,找到对应的链接: 然后 ...
Python爬取新浪微博评论数据，写入csv文件中
因为新浪微博网页版爬虫比较困难,故采取用手机网页端爬取的方式操作步骤如下: 1. 网页版登陆新浪微博 2.打开m.weibo.cn 3.查找自己感兴趣的话题,获取对应的数据接口链接 4.获取cook ...
Python爬取全球是最大的电影数据库网站IMDb数据
在使用 Python 开发爬虫的过程中,requests 和 BeautifulSoup4(别名bs4) 应用的比较广泛,requests主要用于模拟浏览器的客户端请求,以获取服务器端响应,接收到的响 ...
Python爬虫实战三之爬取嗅事百科段子
一.前言俗话说,上班时间是公司的,下班了时间才是自己的.搞点事情,写个爬虫程序,每天定期爬取点段子,看着自己爬的段子,也是一种乐趣. 二.Python爬取嗅事百科段子 1.确定爬取的目标网页首先我 ...
利用Python爬取豆瓣电影
目标:使用Python爬取豆瓣电影并保存MongoDB数据库中我们先来看一下通过浏览器的方式来筛选某些特定的电影: 我们把URL来复制出来分析分析: https://movie.douban.com ...
python 爬取段子网段子写入文件
import requests import re 进入网址 for i in range(1,5): page_url = requests.get(f"http://duanziwang ...
没有内涵段子可以刷了，利用Python爬取段友之家贴吧图片和小视频(含源码)
由于最新的视频整顿风波,内涵段子APP被迫关闭,广大段友无家可归,但是最近发现了一个"段友"的app,版本更新也挺快,正在号召广大段友回家,如下图,有兴趣的可以下载看看(ps:我不 ...

随机推荐

u-boot-2010.3移植到Tiny6410问题总结
问题1: u-boot-2010.3中nand_spl文件夹的作用:实现从Nandflash启动在编译是会建立几个链接文件,用这几个链接文件生成u-boot-spl-16k.bin nand_spl/ ...
Object 类中的 equals方法
1 相等与同一如果两个对象具有相同的类型以及相同的属性值,则称这两个对象相等.如果两个引用对象指的是同一个对像,则称这两个变量同一.Object类中定义的equals 函数原型为:public bo ...
Litepal 数据库操作框架的使用 (火)
LitePal是GitHub上一款开源的Android数据库框架. 它採用了对象关系映射(ORM)的模式,将平时开发时最经常使用的一些数据库功能进行了封装.使得开发人员不用编写一行SQL语句就能够完毕 ...
ambari修改admin密码
https://community.hortonworks.com/questions/449/how-to-reset-ambari-admin-password.html 1) Postgres ...
oracle find blocking session
show current session id select sid from v$mystat where rownum=1; show blocking session selec ...
ElasticSearch获取指定Field数据的Java方法
ElasticSearch(ES)检索后需要结果时,可能通过source接口读出.但是这样的话,返回的结果会很多.在调用search方法时,我们可以添加addfield或addfields方法,仅仅读 ...
Tomcat 编码不一致导致乱码
众所周知,Tomcat是一个基于HTTP协议的Java应用服务器(非Web服务器),也是一个Servlet容器. 一般我们会基于使用HTTP协议的Post或Get方法来传递内容或参数,中间会涉及一些编 ...
Git版本管理
1.显示当前工作目录 pwd 2.把当前目录初始化为git可以管理的仓库 git init 3.把文件添加到仓库 git add xxx.txt 4.告诉git,把文件提交到仓库 .-m后面输入的是本 ...
2、cas4.0 单点登录之 cas-client
cas4.0 单点登录之 cas-client cas4.0 单点登录之 https证书已经做好了证书的准备工作.如今结合cas-server来配置单点登录: 一.安装cas服务端(cas-ser ...
ZooKeeper安装与执行
首先从官网下载ZooKeeper压缩包,然后解压下载得到的ZooKeeper压缩包,发现有"bin,conf,lib"等文件夹. "bin文件夹"中存放有执行脚 ...

Python爬上不得姐 并将段子写入数据库

Python爬上不得姐 并将段子写入数据库的更多相关文章

随机推荐

热门专题

Python爬上不得姐并将段子写入数据库

Python爬上不得姐并将段子写入数据库的更多相关文章