史诗级干货-python爬虫之增加CSDN访问量

搜索微信公众号:‘AI-ming3526’或者’计算机视觉这件小事’ 获取更多算法、机器学习干货

csdn：https://blog.csdn.net/baidu_31657889/

github：https://github.com/aimi-cn/AILearners

文章初衷：

最近CSDN官方出了一个流量扶持计划，针对原创文章进行百度推广，我尝试推了几篇，效果也不是很好，或者是自己文章水平不够，太水~就想着增加一下自己CSDN的访问量
想写出更优质的博客技术文章，不再为了访问量去写文章。

本文参照CSDN一个大佬的文章：https://blog.csdn.net/Giser_D/article/details/97472274

加上了使用代理访问，可以尽量防止被官方封号，更安全一些。

步骤：

在国内髙匿代理IP网站：http://www.xicidaili.com/nn/ 取到ip。

通过解析csdn博客首页html 获得相应文章的a标签链接，使用代理对其进行访问。

Python代码实现：

#!/usr/bin/env python

# -*- encoding: utf-8 -*-

'''

@File    :   csdn.py

@Time    :   2019/08/26 09:54:47

@Author  :   xiao ming

@Version :   1.0

@Contact :   xiaoming3526@gmail.com

@Desc    :   None

@github  :   https://github.com/aimi-cn/AILearners

'''

# 导入相关爬虫库和解析xml库即可

import time

from pyquery import PyQuery as pq

import requests

from bs4 import BeautifulSoup

import random

from fake_useragent import UserAgent

from lxml import etree

import ssl

ssl._create_default_https_context = ssl._create_unverified_context 

# 爬取csdn类

class ScrapyMyCSDN:

    ''' class for csdn'''

    def __init__(self,blogname):

        '''init 类似于构造函数 param[in]:blogname:博客名'''

        csdn_url = 'https://blog.csdn.net/' #常规csdnurl

        self.blogurl = csdn_url+blogname #拼接字符串成需要爬取的主页url

    ''' Func:获取写了多少篇原创文章 '''

    ''' return:写了多少篇原创文章'''

    def getOriginalArticalNums(self,proxies):

        main_response = requests.get(self.blogurl,proxies=proxies)

        # 判断是否成功获取 (根据状态码来判断)

        if main_response.status_code == 200:

            print('获取成功')

            self.main_html = main_response.text

            main_doc = pq(self.main_html)

            mainpage_str = main_doc.text() #页面信息去除标签信息

            origin_position = mainpage_str.index('原创') #找到原创的位置

            end_position = mainpage_str.index('原创',origin_position+1) #最终的位置,即原创底下是数字多少篇博文

            self.blog_nums = ''

            # 获取写的博客数目

            for num in range(3,10):

                #判断为空格 则跳出循环

                if mainpage_str[end_position + num].isspace() == True:

                    break

                self.blog_nums += mainpage_str[end_position + num]

            print(type(str(self.blog_nums)))

            cur_blog_nums = (int((self.blog_nums))) #获得当前博客文章数量

            return cur_blog_nums #返回博文数量

        else:

            print('爬取失败')

            return 0 #返回0 说明博文数为0或者爬取失败

    ''' Func：分页'''

    ''' param[in]:nums:博文数 '''

    ''' return: 需要爬取的页数'''

    def getScrapyPageNums(self,nums):

        self.blog_original_nums = nums

        if nums == 0:

            print('它没写文章，0页啊！')

            return 0

        else:

            print('现在开始计算')

            cur_blog = nums/20 # 获得精确的页码

            cur_read_page = int(nums/20) #保留整数

            # 进行比对

            if cur_blog > cur_read_page:

                self.blog_original_nums = cur_read_page + 1

                print('你需要爬取 %d'%self.blog_original_nums + '页')

                return self.blog_original_nums #返回的数字

            else:

                self.blog_original_nums = cur_read_page

                print('你需要爬取 %d'%self.blog_original_nums + '页')

            return self.blog_original_nums

    '''Func:开始爬取，实际就是刷浏览量hhh'''

    '''param[in]:page_num:需要爬取的页数'''

    '''return:0:浏览量刷失败'''

    def beginToScrapy(self,page_num,proxies):

        if page_num == 0:

            print('连原创博客都不写 爬个鬼!')

            return 0

        else:

            for nums in range(1,page_num+1):

                self.cur_article_url = self.blogurl + '/article/list/%d'%nums+'?t=1&'  #拼接字符串

                article_doc = requests.get(self.cur_article_url,proxies=proxies) #访问该网站

                # 先判断是否成功访问

                if article_doc.status_code == 200:

                    print('成功访问网站%s'%self.cur_article_url)

                    #进行解析

                    cur_page_html = article_doc.text

                    #print(cur_page_html)

                    soup = BeautifulSoup(cur_page_html,'html.parser')

                    for link in soup.find_all('p',class_="content"):

                        #print(link.find('a')['href'])

                        requests.get(link.find('a')['href'],proxies=proxies) #进行访问

                else:

                    print('访问失败')

        print('访问结束')

# IP地址取自国内髙匿代理IP网站：http://www.xicidaili.com/nn/  

#功能：爬取IP存入ip_list列表

def get_ip_list(url, headers):

    web_data = requests.get(url, headers=headers)

    soup = BeautifulSoup(web_data.text, 'lxml')

    ips = soup.find_all('tr')

    ip_list = []

    for i in range(1, len(ips)):

        ip_info = ips[i]

        tds = ip_info.find_all('td') #tr标签中获取td标签数据

        if not tds[8].text.find('天')==-1:

            ip_list.append(tds[1].text + ':' + tds[2].text)

    return ip_list  

#功能：1,将ip_list中的IP写入IP.txt文件中

#      2,获取随机IP，并将随机IP返回

def get_random_ip(ip_list):

    proxy_list = []

    for ip in ip_list:

        proxy_list.append(ip)

        f=open('IP.txt','a+',encoding='utf-8')

        f.write('http://' + ip)

        f.write('\n')

        f.close()

    proxy_ip = random.choice(proxy_list)

    proxies = {'http':proxy_ip}

    return proxies  

if __name__ == '__main__':

    for i in range(1,3):

        url = 'http://www.xicidaili.com/wt/{}'.format(i)

        headers = {

            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'

        } 

        ip_list = get_ip_list(url, headers=headers)

        proxies = get_random_ip(ip_list)

        print(proxies)

        #如何调用该类 参数换成你的csdn名字就行

        mycsdn = ScrapyMyCSDN('baidu_31657889') #初始化类 参数为博客名

        cur_write_nums = mycsdn.getOriginalArticalNums(proxies) #得到写了多少篇文章

        cur_blog_page = mycsdn.getScrapyPageNums(cur_write_nums) #cur_blog_page:返回需要爬取的页数

        mycsdn.beginToScrapy(cur_blog_page,proxies)

        time.sleep(20) # 给它休息时间 还是怕被封号的

需要用到的pip包

我的python环境为3.6.5版本及以上需要安装相关库

pip install pyquery

pip install requests

pip install bs4

pip install fake_useragent

pip install lxml

pip install ssl

使用方法

修改主函数第一行中range(1,3),这代表只取两个随机代理，然后让我们的csdn所有原创文章浏览量加一遍，循环两次，修改range后面的值就可以增加循环次数了。

mycsdn = ScrapyMyCSDN('baidu_31657889') #参数为博客名，参数换成你的csdn名字就行

后记

个人感觉提高博客质量才是重点，但是我们可以找到比较好的机会来蹭个热度，爬一下自己感觉非常不错的文章。

当然我们要记得适可而止，网上不乏有很多人的号被封的。别忘记我们写博客的初衷是什么，对访问量这个东西不用太在意了。

代码下载地址：https://github.com/aimi-cn/AILearners/tree/master/src/py3.x/others/fm/19.08.26/csdn.py

史诗级干货-python爬虫之增加CSDN访问量的更多相关文章

Linux&&Mac 自动增加CSDN访问量
我心里面有两个小人. 一个叫愧疚,对CSDN这么一个分享知识的平台的愧疚,因为我正在做一件对不起CSDN的事情. 一个叫虚荣,对CSDN访问量的渴望过渡使得我踏出了这一步. 这一步,踏入了深渊.. 最 ...
Python爬虫简单实现CSDN博客文章标题列表
Python爬虫简单实现CSDN博客文章标题列表操作步骤: 分析接口,怎么获取数据? 模拟接口,尝试提取数据封装接口函数,实现函数调用. 1.分析接口打开Chrome浏览器,开启开发者工具(F1 ...
利用Python爬虫刷新某网站访问量
前言:前一段时间看到有博友写了爬虫去刷新博客访问量一篇文章,当时还觉得蛮有意思的,就保存了一下,但是当我昨天准备复现的时候居然发现文章404了.所以本篇文章仅供学习交流,严禁用于商业用途很多人学习p ...
Python+爬虫+xlwings发现CSDN个人博客热门文章
☞ ░ 前往老猿Python博文目录 ░ 一.引言最近几天老猿博客的访问量出现了比较大的增长,从常规的1000-3000之间波动的范围一下子翻了将近一倍,粉丝增长从日均10-40人也增长了差不多一倍 ...
Python爬虫抓取csdn博客
昨天晚上为了下载保存某位csdn大牛的所有博文,写了一个爬虫来自己主动抓取文章并保存到txt文本,当然也能够保存到html网页中. 这样就能够不用Ctrl+C 和Ctrl+V了,很方便.抓取别的站点 ...
[Python爬虫] Selenium+Phantomjs动态获取CSDN下载资源信息和评论
前面几篇文章介绍了Selenium.PhantomJS的基础知识及安装过程,这篇文章是一篇应用.通过Selenium调用Phantomjs获取CSDN下载资源的信息,最重要的是动态获取资源的评论,它是 ...
用python爬虫监控CSDN博客阅读量
作为一个博客新人,对自己博客的访问量也是很在意的,刚好在学python爬虫,所以正好利用一下,写一个python程序来监控博客文章访问量效果代码会自动爬取文章列表,并且获取标题和访问量,写入exc ...
Python爬虫实战——反爬策略之模拟登录【CSDN】
在<Python爬虫实战-- Request对象之header伪装策略>中,我们就已经讲到:=="在header当中,我们经常会添加两个参数--cookie 和 User-Age ...
Python 爬虫入门实战
1. 前言首先自我介绍一下,我是一个做 Java 的开发人员,从今年下半年开始,一直在各大技术博客网站发表自己的一些技术文章,差不多有几个月了,之前在 cnblog 博客园加了网站统计代码,看到每天 ...

随机推荐

通过ip远程控制电脑
现在,很多人都用了不止一台电脑,而同时操作两台电脑是一件比较麻烦的事情,所以,如果能够使用一台电脑的鼠标键盘显示器,去远程控制另一台电脑,那就方便多了. 远程计算机设置 1.先确保本地计算机和远程计算 ...
mysql查询之分数排名
编写一个 SQL 查询来实现分数排名.如果两个分数相同,则两个分数排名(Rank)相同 +----+-------+ | Id | Score | +----+-------+ | 1 | 3.50 ...
linux_shell程序快速入门
1.shell的基本类型: 表达式类型:使用关键字expr申明. 声明格式 :var=`expr $a - $b` 相关运算符号:+,-,*,/,%. 坑点:一定要注意空格,某些地方空格省略会造成语法 ...
Postman 使用方法详细介绍
1,下载安装: https://www.getpostman.com/apps 2,打开Postman,如图所示: 3,创建一个接口项目 4,新增接口文件 5,下面以登录接口login为例,介绍如何做 ...
LeetCode 78. 子集(Subsets) 34
78. 子集 78. Subsets 题目描述给定一组不含重复元素的整数数组 nums,返回该数组所有可能的子集(幂集). 说明: 解集不能包含重复的子集. 每日一算法2019/6/6Day 34L ...
djngo未整理
Django Django基础命令 - runserver 本地建议运行Django - shell 进入Django项目得python shell环境 - test 执行Django 用列测试数据 ...
你应该掌握linux中Bash命令的一些快捷方式
在本文中,我们将分享许多对任何Linux用户都有用的Bash命令行快捷方式.这些快捷方式可以快速地执行某些动作,例如访问和运行先前执行的命令,打开编辑器,在命令行上编辑/删除/更改文本,移动光标,控制 ...
Educational Codeforces Round 71
https://www.cnblogs.com/31415926535x/p/11460682.html 上午没课,做一套题,,练一下手感和思维,,教育场的71 ,,前两到没啥,,后面就做的磕磕巴巴的 ...
路由Routers
路由Routers 对于视图集ViewSet,我们除了可以自己手动指明请求方式与动作action之间的对应关系外,还可以使用Routers来帮助我们快速实现路由信息. REST framework提供 ...
GIT讲解
一.什么是Git: Git是目前世界上最先进的分布式版本控制系统. 二.为什么要用版本控制系统: 1.更方便的存储版本 2.恢复之前的版本 3.更方便的进行对比 4.协同合作三.如何安装GIT: 1 ...

史诗级干货-python爬虫之增加CSDN访问量

史诗级干货-python爬虫之增加CSDN访问量

文章初衷：

步骤：

Python代码实现：

需要用到的pip包

使用方法

后记

史诗级干货-python爬虫之增加CSDN访问量的更多相关文章

随机推荐

热门专题