爬取目标

1.本次代码是在python2上运行通过的,python3的最需改2行代码,用到其它python模块

  • selenium 2.53.6 +firefox 44
  • BeautifulSoup
  • requests

2.爬取目标网站,我的博客:https://home.cnblogs.com/u/yoyoketang

爬取内容:爬我的博客的所有粉丝的名称,并保存到txt

3.由于博客园的登录是需要人机验证的,所以是无法直接用账号密码登录,需借助selenium登录

selenium获取cookies

1.大前提:先手工操作浏览器,登录我的博客,并记住密码

(保证关掉浏览器后,下次打开浏览器访问我的博客时候是登录状态)

2.selenium默认启动浏览器是一个空的配置,默认不加载配置缓存文件,这里先得找到对应浏览器的配置文件地址,以火狐浏览器为例

3.使用driver.get_cookies()方法获取浏览器的cookies

  1. # coding:utf-8
  2. import requests
  3. from selenium import webdriver
  4. from bs4 import BeautifulSoup
  5. import re
  6. import time
  7. # firefox浏览器配置文件地址
  8. profile_directory = r'C:\Users\admin\AppData\Roaming\Mozilla\Firefox\Profiles\yn80ouvt.default'
  9. # 加载配置
  10. profile = webdriver.FirefoxProfile(profile_directory)
  11. # 启动浏览器配置
  12. driver = webdriver.Firefox(profile)
  13. driver.get("https://home.cnblogs.com/u/yoyoketang/followers/")
  14. time.sleep(3)
  15. cookies = driver.get_cookies() # 获取浏览器cookies
  16. print(cookies)
  17. driver.quit()

(注:要是这里脚本启动浏览器后,打开的博客页面是未登录的,后面内容都不用看了,先检查配置文件是不是写错了)

requests添加登录的cookies

1.浏览器的cookies获取到后,接下来用requests去建一个session,在session里添加登录成功后的cookies

  1. s = requests.session() # 新建session
  2. # 添加cookies到CookieJar
  3. c = requests.cookies.RequestsCookieJar()
  4. for i in cookies:
  5. c.set(i["name"], i['value'])
  6. s.cookies.update(c) # 更新session里cookies

计算粉丝数和分页总数

1.由于我的粉丝的数据是分页展示的,这里一次只能请求到45个,所以先获取粉丝总数,然后计算出总的页数

  1. # 发请求
  2. r1 = s.get("https://home.cnblogs.com/u/yoyoketang/relation/followers")
  3. soup = BeautifulSoup(r1.content, "html.parser")
  4. # 抓取我的粉丝数
  5. fensinub = soup.find_all(class_="current_nav")
  6. print fensinub[0].string
  7. num = re.findall(u"我的粉丝\((.+?)\)", fensinub[0].string)
  8. print u"我的粉丝数量:%s"%str(num[0])
  9. # 计算有多少页,每页45条
  10. ye = int(int(num[0])/45)+1
  11. print u"总共分页数:%s"%str(ye)

保存粉丝名到txt

  1. # 抓取第一页的数据
  2. fensi = soup.find_all(class_="avatar_name")
  3. for i in fensi:
  4. name = i.string.replace("\n", "").replace(" ","")
  5. print name
  6. with open("name.txt", "a") as f: # 追加写入
  7. f.write(name.encode("utf-8")+"\n")
  8. # 抓第二页后的数据
  9. for i in range(2, ye+1):
  10. r2 = s.get("https://home.cnblogs.com/u/yoyoketang/relation/followers?page=%s"%str(i))
  11. soup = BeautifulSoup(r1.content, "html.parser")
  12. # 抓取我的粉丝数
  13. fensi = soup.find_all(class_="avatar_name")
  14. for i in fensi:
  15. name = i.string.replace("\n", "").replace(" ","")
  16. print name
  17. with open("name.txt", "a") as f: # 追加写入
  18. f.write(name.encode("utf-8")+"\n")

参考代码:

  1. # coding:utf-8
  2. import requests
  3. from selenium import webdriver
  4. from bs4 import BeautifulSoup
  5. import re
  6. import time
  7. # firefox浏览器配置文件地址
  8. profile_directory = r'C:\Users\admin\AppData\Roaming\Mozilla\Firefox\Profiles\yn80ouvt.default'
  9. s = requests.session() # 新建session
  10. url = "https://home.cnblogs.com/u/yoyoketang"
  11. def get_cookies(url):
  12. '''启动selenium获取登录的cookies'''
  13. try:
  14. # 加载配置
  15. profile = webdriver.FirefoxProfile(profile_directory)
  16. # 启动浏览器配置
  17. driver = webdriver.Firefox(profile)
  18. driver.get(url+"/followers")
  19. time.sleep(3)
  20. cookies = driver.get_cookies() # 获取浏览器cookies
  21. print(cookies)
  22. driver.quit()
  23. return cookies
  24. except Exception as msg:
  25. print(u"启动浏览器报错了:%s" %str(msg))
  26. def add_cookies(cookies):
  27. '''往session添加cookies'''
  28. try:
  29. # 添加cookies到CookieJar
  30. c = requests.cookies.RequestsCookieJar()
  31. for i in cookies:
  32. c.set(i["name"], i['value'])
  33. s.cookies.update(c) # 更新session里cookies
  34. except Exception as msg:
  35. print(u"添加cookies的时候报错了:%s" % str(msg))
  36. def get_ye_nub(url):
  37. '''获取粉丝的页面数量'''
  38. try:
  39. # 发请求
  40. r1 = s.get(url+"/relation/followers")
  41. soup = BeautifulSoup(r1.content, "html.parser")
  42. # 抓取我的粉丝数
  43. fensinub = soup.find_all(class_="current_nav")
  44. print(fensinub[0].string)
  45. num = re.findall(u"我的粉丝\((.+?)\)", fensinub[0].string)
  46. print(u"我的粉丝数量:%s"%str(num[0]))
  47. # 计算有多少页,每页45条
  48. ye = int(int(num[0])/45)+1
  49. print(u"总共分页数:%s"%str(ye))
  50. return ye
  51. except Exception as msg:
  52. print(u"获取粉丝页数报错了,默认返回数量1 :%s"%str(msg))
  53. return 1
  54. def save_name(nub):
  55. '''抓取页面的粉丝名称'''
  56. try:
  57. # 抓取第一页的数据
  58. if nub <= 1:
  59. url_page = url+"/relation/followers"
  60. else:
  61. url_page = url+"/relation/followers?page=%s" % str(nub)
  62. print(u"正在抓取的页面:%s" %url_page)
  63. r2 = s.get(url_page, verify=False)
  64. soup = BeautifulSoup(r2.content, "html.parser")
  65. fensi = soup.find_all(class_="avatar_name")
  66. for i in fensi:
  67. name = i.string.replace("\n", "").replace(" ","")
  68. print(name)
  69. with open("name.txt", "a") as f: # 追加写入
  70. f.write(name.encode("utf-8")+"\n")
  71. # python3的改成下面这两行
  72. # with open("name.txt", "a", encoding="utf-8") as f: # 追加写入
  73. # f.write(name+"\n")
  74. except Exception as msg:
  75. print(u"抓取粉丝名称过程中报错了 :%s"%str(msg))
  76. if __name__ == "__main__":
  77. cookies = get_cookies(url)
  78. add_cookies(cookies)
  79. n = get_ye_nub(url)
  80. for i in list(range(1, n+1)):
  81. save_name(i)

---------------------------------python接口自动化完整版-------------------------

全书购买地址 https://yuedu.baidu.com/ebook/585ab168302b3169a45177232f60ddccda38e695

作者:上海-悠悠 QQ交流群:588402570

也可以关注下我的个人公众号:

python+selenium+requests爬取我的博客粉丝的名称的更多相关文章

  1. python3+selenium3+requests爬取我的博客粉丝的名称

    爬取目标 1.本次代码是在python3上运行通过的 selenium3 +firefox59.0.1(最新) BeautifulSoup requests 2.爬取目标网站,我的博客:https:/ ...

  2. python+selenium+requests爬取qq空间相册时遇到的问题及解决思路

    最近研究了下用python爬取qq空间相册的问题,遇到的问题及解决思路如下: 1.qq空间相册的访问需要qq登录并且需是好友,requests模块模拟qq登录略显麻烦,所以采用selenium的dri ...

  3. Python爬虫小实践:爬取任意CSDN博客所有文章的文字内容(或可改写为保存其他的元素),间接增加博客访问量

    Python并不是我的主业,当初学Python主要是为了学爬虫,以为自己觉得能够从网上爬东西是一件非常神奇又是一件非常有用的事情,因为我们可以获取一些方面的数据或者其他的东西,反正各有用处. 这两天闲 ...

  4. Scrapy爬取自己的博客内容

    python中常用的写爬虫的库有urllib2.requests,对于大多数比较简单的场景或者以学习为目的,可以用这两个库实现.这里有一篇我之前写过的用urllib2+BeautifulSoup做的一 ...

  5. python+selenium+bs4爬取百度文库内文字 && selenium 元素可以定位到,但是无法点击问题 && pycharm多行缩进、左移

    先说一下可能用到的一些python知识 一.python中使用的是unicode编码, 而日常文本使用各类编码如:gbk utf-8 等等所以使用python进行文字读写操作时候经常会出现各种错误, ...

  6. 开发记录_自学Python写爬虫程序爬取csdn个人博客信息

    每天刷开csdn的博客,看到一整个页面,其实对我而言,我只想看看访问量有没有上涨而已... 于是萌生了一个想法: 想写一个爬虫程序把csdn博客上边的访问量和评论数都爬下来. 打算通过网络各种搜集资料 ...

  7. python+selenium+PhantomJS爬取网页动态加载内容

    一般我们使用python的第三方库requests及框架scrapy来爬取网上的资源,但是设计javascript渲染的页面却不能抓取,此时,我们使用web自动化测试化工具Selenium+无界面浏览 ...

  8. python+selenium+xpath 爬取天眼查工商基本信息

    # -*- coding:utf-8 -*-# author: kevin# CreateTime: 2018/8/16# software-version: python 3.7 import ti ...

  9. 看我怎么扒掉CSDN首页的底裤(python selenium+phantomjs爬取CSDN首页内容)

    这里只是学习一下动态加载页面内容的抓取,并不适用于所有的页面. 使用到的工具就是python selenium和phantomjs,另外调试的时候还用了firefox的geckodriver.exe. ...

随机推荐

  1. 很全面的WinRAR实用技巧系列 - imsoft.cnblogs

    WinRAR也可以管理我的桌面时间长了,桌面上堆的东西实在太多,平时该如何管理呢?安装了WinRAR的朋友可以请它来帮忙,用它管理清除无用的桌面文件或图标. 以XP系统为例,系统所在目录是“c:\wi ...

  2. (4)logging(日志模块)

    日志分成几个常用的级别 debug 10 代表程序调试过程中的信息 info 20 代表普通日志信息,用户的访问等等 warning 30 警告日志,有可能出错,但是目前还没出错的 error 40 ...

  3. Java-如何不使用-volatile-和锁实现共享变量的同步操作

    from: http://thinkinjava.cn/2018/06/Java-%E5%A6%82%E4%BD%95%E4%B8%8D%E4%BD%BF%E7%94%A8-volatile-%E5% ...

  4. 将一个list转成json数组-晚上坐49路回去打卡

  5. 感悟:Java新手一点想法

    在2年前写的博客,写的那么幼稚,工作了,工作经验多重要啊,有3年的开发经验,工资8000-12000 没接触Java框架之前,以为这些东西多神秘,多了不起,多高大上,其实也就那样 最重要的搞懂交互的流 ...

  6. day41 python【事物 】【数据库锁】

    MySQL[五] [事物 ][数据库锁]   1.数据库事物 1. 什么是事务  事务是应用程序中一系列严密的操作,所有操作必须成功完成,否则在每个操作中所作的所有更改都会被撤消.也就是事务具有原子性 ...

  7. pipelinedb 滑动窗口

    滑动窗口可以方便的让我们进行一段时间的数据分析 几个主要函数 clock_timestamp 内置的函数,总是返回当前的时间戳 arrival_timestamp 事件达到的时间 单滑动窗口 参考 C ...

  8. C# 使用oledb 方式连接本地或者远程oracel 数据库的方式

    对于C# 进行oracle 数据库的开发来说使用oracle 提供的odp.net 方式是比较方便的,同时在性能以及兼容性也是比较好的 但是,对于不打算使用的,那么该如何使用oledb 进行连接 连接 ...

  9. pow 的使用和常见问题

    版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/menxu_work/article/details/24540045 1.安装: $ curl ge ...

  10. jquery选择器之属性过滤选择器详解

    代码如下: <style type="text/css">  /*高亮显示*/  .highlight{       } </style> 复制代码代码如下 ...