title: QQ空间数据抓取

author: 杨晓东

permalink: QQ空间数据抓取

date: 2021-10-02 11:27:04

categories:

- 嗯哼

tags:

- 无聊

QQ空间数据抓取

import time

import os

from selenium import webdriver

from bs4 import BeautifulSoup

from selenium.webdriver.common.action_chains import ActionChains

import requests

# 登陆QQ访问对方QQ空间

def login(login_qq, password, business_qq):

    '''

    登陆

    :param login_qq: 登陆用的QQ

    :param password: 登陆的QQ密码

    :param business_qq: 业务QQ

    :return: driver

    '''

    print("开始登陆中...")

    driver.get('https://user.qzone.qq.com/{}/311'.format(business_qq))  # URL

    driver.implicitly_wait(10)  # 隐示等待，为了等待充分加载好网址

    driver.find_element_by_id('login_div')

    driver.switch_to.frame('login_frame')  # 切到输入账号密码的frame

    driver.find_element_by_id('switcher_plogin').click()  ##点击‘账号密码登录’

    driver.find_element_by_id('u').clear()  ##清空账号栏

    driver.find_element_by_id('u').send_keys(login_qq)  # 输入账号

    driver.find_element_by_id('p').clear()  # 清空密码栏

    driver.find_element_by_id('p').send_keys(password)  # 输入密码

    driver.find_element_by_id('login_button').click()  # 点击‘登录’

    driver.switch_to.default_content()

    driver.implicitly_wait(10)

    time.sleep(5)

    try:

        driver.find_element_by_id('QM_OwnerInfo_Icon')

        print("登陆完成....")

        return driver

    except:

        print('不能访问' + business_qq)

        return None

# 抓取说说

def get_shuoshuo(driver):

    page = 1

    while True:

        # 下拉滚动条

        for j in range(1, 5):

            driver.execute_script("window.scrollBy(0,5000)")

            time.sleep(2)

            # 切换 frame

        driver.switch_to.frame('app_canvas_frame')

        # 构建 BeautifulSoup 对象

        bs = BeautifulSoup(driver.page_source.encode('GBK', 'ignore').decode('gbk'))

        # 找到页面上的所有说说

        pres = bs.find_all('pre', class_='content')

        for pre in pres:

            shuoshuo = pre.text

            tx = pre.parent.parent.find('a', class_="c_tx c_tx3 goDetail")['title']

            print(tx + ":" + shuoshuo)

            with open('她的空间动态.txt', 'a+') as f:

                f.write('\n' + tx + ":" + shuoshuo + '\n')

                f.close()

            # 页数判断

        page = page + 1

        maxPage = bs.find('a', title='末页').text

        if int(maxPage) < page:

            break

        driver.find_element_by_link_text(u'下一页').click()

        # 回到主文档

        driver.switch_to.default_content()

        # 等待页面加载

        time.sleep(3)

# 计数函数

def num(name_a):

    name_a+=1

    return name_a

# 下载图片  单个相册中点击图片

def get_photo(driver):

    # 照片下载路径

    photo_path = r"E:\DC\2548957387\{}.jpg"

    mkdir_path = r'E:\DC\2548957387'

    if os.path.exists(mkdir_path):

        pass

    else:

        mkdir_path = os.mkdir(r'E:\DC\2548957387')

    # 相册索引

    photoIndex = 1

    while True:

        # 回到主文档

        driver.switch_to.default_content()

        # driver.switch_to.parent_frame()

        # 点击头部的相册按钮

        driver.find_element_by_xpath('//*[@id="menuContainer"]/div/ul/li[3]/a').click()

        # 等待加载

        driver.implicitly_wait(10)

        time.sleep(3)

        # 切换 frame

        driver.switch_to.frame('app_canvas_frame')

        # 各个相册的超链接

        a = driver.find_elements_by_class_name('album-cover')

        # 单个相册

        a[photoIndex].click()

        # 隐式等待，5秒钟内只要找到了元素就开始执行，10秒钟后未找到，就超时；

        driver.implicitly_wait(10)

        # 等待10秒

        time.sleep(3)

        # 相册的第一张图

        p = driver.find_elements_by_class_name('item-cover')[0]

        p.click()

        time.sleep(3)

        # 相册大图在父frame，切换到父frame

        driver.switch_to.parent_frame()

        # 循环相册中的照片

        name_a = 0

        while True:

            # 照片url地址和名称

            # img = driver.find_element_by_id('js-img-disp')

            img = driver.find_element_by_xpath('//*[@id="js-img-border"]/img')

            print(img)

            src = img.get_attribute('src').replace('&t=5', '')

            name = driver.find_element_by_id("js-photo-name").text

            # 下载

            print(src)

            print(photo_path.format(name))

            req = requests.get(src)

            name_a+=1

            with open(photo_path.format(name + "-" + str(name_a)),'wb') as f:

                f.write(req.content)

                f.close()

                print("第 {} 张，已下载！！！！".format(name_a))

            # urlretrieve(src,photo_path.format(miss_qq,name))

            # 取下面的 当前照片张数/总照片数量

            counts = driver.find_element_by_xpath('//*[@id="js-ctn-infoBar"]/div/div[1]/span').text

            print(counts + "张！")

            counts = counts.split('/')

            # 最后一张的时候退出照片浏览

            if counts[0] == counts[1]:

                # 右上角的 X 按钮

                driver.find_element_by_xpath('//*[@id="js-viewer-main"]/div[1]/a').click()

                print("右上角x")

                break

            # 点击 下一张，网页加载慢，所以10次加载

            for i in (1, 10):

                if driver.find_element_by_id('js-btn-nextPhoto'):

                    n = driver.find_element_by_id('js-btn-nextPhoto')

                    ActionChains(driver).click(n).perform()

                    print("等待1秒，点击下一张.....")

                    time.sleep(1)

                    break

                else:

                    time.sleep(5)

                    print("否则time5秒")

                    # 相册数量比较，是否下载了全部的相册

        photoIndex = photoIndex + 1

        if len(a) <= photoIndex:

            break

if __name__ == '__main__':

    # 输入QQ信息

    qq_num = input("请输入自己的QQ：")

    qq_pwd = input("请输入自己的QQ密码：")

    miss_qq = input("请输入要查看的QQ：")

    # 标识 当前目录

    path = os.getcwd()

    url = "https://www.ispfsb.com/Public/FOID.aspx"

    headers = {

        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"}

    # 去除浏览器被控  字样

    options = webdriver.ChromeOptions()

    options.add_experimental_option("excludeSwitches", ['enable-automation'])

    options.add_experimental_option('useAutomationExtension', False)

    # 浏览器扩展程序

    # 语音识别程序

    # extension_path1 = './1.2.2_0.crx'

    # xpath程序

    extension_path2 = './2.1.0.0_0.crx'

    # options.add_extension(extension_path1)

    options.add_extension(extension_path2)

    driver = webdriver.Chrome(options=options)  # driver = webdriver.Chrome(executable_path=r'D:PATHchromedriver.exe')?

    driver.maximize_window()

    # 登陆

    login(qq_num, qq_pwd, miss_qq)

    # 爬取说说

    get_shuoshuo(driver)

QQ空间数据抓取的更多相关文章

C#使用Selenium实现QQ空间数据抓取说说抓取
上一篇讲的是如何模拟真人操作登录QQ空间,本篇主要讲述一下如何抓取QQ说说数据继续登录空间后的操作登陆后我们发现QQ空间的菜单其实是固定的,只需要找到对应元素就可以,继续XPath 可以得到地址 ...
C#使用Selenium实现QQ空间数据抓取登录QQ空间
经@吃西瓜的星星提醒首先我们介绍下Selenium Selenium也是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一样.支持的浏览器包括IE.Mo ...
周董新歌搞崩QQ，抓取20W评论看看歌迷在说啥
9 月 16 日晚间,周董在朋友圈发布了最新单曲<说好不哭> 发布后,真的让一波人哭了一群想抢鲜听的小伙伴直接泪奔因为 QQ 音乐直接被搞崩了没想到干翻 QQ 音乐的不是网易云音乐 ...
htmlunit+fastjson抓取酷狗音乐 qq音乐链接及下载
上次学了jsoup之后,发现一些动态生成的网页内容是无法抓取的,于是又学习了htmlunit,下面是抓取酷狗音乐与qq音乐链接的例子: 酷狗音乐: import java.io.BufferedInp ...
通过Scrapy抓取QQ空间
毕业设计题目就是用Scrapy抓取QQ空间的数据,最近毕业设计弄完了,来总结以下: 首先是模拟登录的问题: 由于Tencent对模拟登录比较讨厌,各个防备,而本人能力有限,所以做的最简单的,手动登录后 ...
利用libpcap抓取QQ号码信息
最近想在QQ登录时把QQ号码信息记录下来,百度了很多都没有找到具体方式,最近用Wireshark分析报文+libpcap库嗅探实现了这个小功能. 通讯背景: QQ客户端在通讯时使用UDP协议,其中数据 ...
抓取QQ空间相册
某天,想下载某人的相册,发现一张一张下载,工作量巨大,所以写了这个工具. 使用到的工具 Fiddler(抓包工具) python(脚本语言) intellij 步骤分析包获取相册分类链接信息打开 ...
Java版 QQ空间自动登录无需拷贝cookie一天抓取30WQQ说说数据&流程分析
QQ空间说说抓取难度比较大,花了一个星期才研究清楚! 代码请移步到GitHub GitHub地址:https://github.com/20100507/Qzone [没有加入多线程,希望你可以参与进 ...
抓取60000+QQ空间说说做一次数据分析
对于QQ空间的数据一直来是垂涎不已,老早就想偷过来研究研究,这几天闲下来便开始动手... 整个程序的流程为:登录-->获取cookie-->获取所有的好友qq_number-->根据 ...
Python爬虫实战：使用Selenium抓取QQ空间好友说说
前面我们接触到的,都是使用requests+BeautifulSoup组合对静态网页进行请求和数据解析,若是JS生成的内容,也介绍了通过寻找API借口来获取数据. 但是有的时候,网页数据由JS生成,A ...

随机推荐

新项目决定用 JDK 17了
大家好,我是风筝,公众号「古时的风筝」,专注于 Java技术及周边生态. 文章会收录在 JavaNewBee 中,更有 Java 后端知识图谱,从小白到大牛要走的路都在里面. 最近在调研 JDK 1 ...
python 实现DES加解密
from pyDes import * import base64 class Des3(object): def __init__(self, key, iv): # 这里密钥key长度必须为16/ ...
vuex的使用详解
一.下载vuex 在store文件夹下的index.js中官方文档:https://vuex.vuejs.org/zh/ 需要使用的页面 sotre中 mutations的调用方法 store ...
[seaborn] seaborn学习笔记2-散点图Scatterplot
2 散点图Scatterplot(代码下载) 散点图能够显示2个维度上2组数据的值.每个点代表一个观察点.X(水平)和Y(垂直)轴上的位置表示变量的值.研究这两个变量之间的关系是非常有用的.在seab ...
CSS-@规则(At-rules)常用语法使用总结
At-rules规则是目前CSS中一种常见的语法规则,它使用一个"@"符号加一个关键词定义,后面跟上语法区块,如果没有则以分号结束即可. 这种规则一般用于标识文档.引入外部样式.条 ...
SpringBoot 三大开发工具，你都用过么？
本文已经收录到Github仓库,该仓库包含计算机基础.Java基础.多线程.JVM.数据库.Redis.Spring.Mybatis.SpringMVC.SpringBoot.分布式.微服务.设计模式 ...
记一次失败的StackOverflow回答
有一位同学在StackOverflow上提问,他想创建一个 Future 类,异步的实现 Future 的构造,当构造完成之后自动调用 .then 方法,执行后面的逻辑 class Features ...
线程基础知识09-JAVA的可见性和有序性问题
1 CPU中的三级缓存及可见性问题 1.1 简介 1.2 缓存行Cacheline 1.3 可见性问题-缓存一致性协议 2 JAVA中的有序性问题 2.1 指令重排简介 2.2 as-if-seria ...
springcloud-alibaba
1.spring cloud alibaba官网 https://spring.io/projects/spring-cloud-alibaba#overview 2.spring cloud ali ...
3分钟安装fcpx10.6.5最新小白一看就会简体中文版（亲测有效）
Final Cut Pro 简介 Final Cut Pro X for Mac是苹果推出的一款功能强大的视频编辑软件,具有先进的调色功能.HDR 视频支持,以及 ProRes RAW,让剪辑.音轨. ...

QQ空间数据抓取

QQ空间数据抓取

QQ空间数据抓取的更多相关文章

随机推荐

热门专题