用python爬取QQ空间

好久没写博文了，最近捣鼓了一下python，好像有点上瘾了，感觉python比js厉害好多，但是接触不久，只看了《[大家网]Python基础教程(第2版)[www.TopSage.com]》的前7章，好多东西还不会，能做的也比较少。我想做的是爬QQ空间，然后把空间里的留言，说说拷下来，已经成功做到了，只是，拷下来是word文档，看着没有在线看那么有感触，有些话，觉得不像自己会说的。

我花了好多时间，幸好最近清闲，有时间给我慢慢学。一开始，我使用urllib去登陆QQ空间：

def getCookieOpener():

    postUrl="http://qzone.qq.com"

    cj = cookielib.LWPCookieJar()

    cookie_support = urllib2.HTTPCookieProcessor(cj)

    opener = urllib2.build_opener(cookie_support)

    postData={

        "app":"adv",

        "return":"http://user.qzone.qq.com/",

        "username":"登陆名",

        "password":"登陆密码"

    }

    postData = urllib.urlencode(postData)

    loginRequest = opener.open(postUrl,postData)

    return opener

会报错，建议我登陆手机端页面，几番尝试，都不行，我去百度，果然，在我前面已经有好多人实践过了。查到了使用selenium中的webdriver库模拟浏览器操作，第六感告诉我，这个非常好，可以做很多事情。立马在cmd里安装这个包：pip install selenium,然后研究了下网上的一个例子：http://www.zh30.com/python-selenium-qzone-login.html，发现selenium的使用方法非常简单，查找元素并点击之类的操作和js有点相似，看完，开始自己动手，结果报错了，无论是尝试driver = webdriver.Chrome()还是driver = webdriver.Firefox()，都是报错：

我查到模拟谷歌浏览器要装个chromedriver.exe来辅助，但是火狐没说需要耶，猜想是不是要装个python3版本才行，目前用的是python2.7，结果还是报一样的错误，实在没辙了，就装了个chromedriver.exe，模拟谷歌，毕竟谷歌浏览器我用得最多。python3的语法和python2有区别，最先发现的是print方法。原来，新版的火狐浏览器也需要安装点什么东西才行，有个新加入博客的伙伴回复了我的评论：

原谅我的孤闻，其实很多东西我都不懂。

好了，程序终于能跑了，神奇的事情发生了，程序打开了一个新的谷歌页面，按照代码所写的打开了QQ登陆页，然后自动填进了名称和密码，自动点击提交按钮，成功登陆了，我愣了愣，原来所说的模拟登陆是这么的可视化，真好。然后我开始研究怎么把自己的所有留言都导出来。先说一个把内容下载到txt或者其他格式的方法：

#日志文件

def logToFile(content,name="liuyan.txt"):

    fileH=open(name,"a+")

    try:

        print(content)

        fileH.write(content+"\n")

    except Exception as e:

        print("except:"+str(e))

    finally:

        fileH.close()

接下来就是获取问题了，我要获取li里的内容，然后翻到下一页，继续获取，直到全部获取完毕，留言板html结果如下图：

我的核心代码是：

def getData():

    num=1

    while (num<265):

        num+=1

        time.sleep(2)

        memu=driver.find_element_by_id('ulCommentList')

        logToFile(memu.text)

        p='QZBlog.Util.PageIndexManager.goDirectPage('+str(num)+')'

        #driver.execute_script调用页面的js

        driver.execute_script(p+';return false;')

    if num==265:

        time.sleep(2)

        memu=driver.find_element_by_id('ulCommentList')

        logToFile(memu.text)

不需要直接获取每个li标签的内容，获取外层ul的文本即可，这种方法只能获取核心文字，图片无法拷贝，下载完的样子是这样：

拷完自己的，又去把闺蜜的留言拷了一份，她的留言比我多多了，因为她很喜欢自己去给自己留言，拷的速度还是蛮快的，如果我不用time.sleep（延时执行）会更快，但是不用延时，有时会报错，估计是页面元素还没加载出来，获取不到。

下面继续说说怎么爬取说说以及说说的图片（我真是太无聊了）

每条说说的内容都包含在类名为“content‘的pre标签中，说说发布的时间在类名为"c_tx c_tx3 goDetail"的a标签中，于是这样获取内容：（我是百度的，哈哈，如果是我，我估计还不会用zip）

        contents = driver.find_elements_by_css_selector('.content')

        times = driver.find_elements_by_css_selector('.c_tx.c_tx3.goDetail')

        for c,t in zip(contents,times):

            data =t.text+"\n"+c.text+"\n"

            logToFile(data)

这样得出的内容是这样的：

很清晰明了，但是看着总少了那种feel。我自己想了个功能，就是把说说的图片也下载下来，本想一起放进word文档，但是会报错，于是放弃了，改为放到一个单独的文件夹中：

        hp=driver.find_elements_by_class_name('img-attachments-inner')

        ho=''

        for ho in hp:

            hq=ho.find_elements_by_tag_name('a')

            for tg in hq:

                try:

                    linkF=tg.get_attribute('href')

                    urllib.request.urlretrieve(linkF,'./myshuoshuo/%s.jpg' % str(x))

                    x+=1

                except:

                    logToFile('something was wrong!')

上面的代码有个地方坑苦了我，由于之前的driver.find_elements_by_css_selector方法是我直接复制网上的，这次我下载图片打成了：driver.find_element_by_css_selector，总是报错，报hp不是个可迭代的对象，调试输出也的确只输出第一个图片的内容，我就好纳闷了，查了好多，百度和谷歌都翻了，我之前一直用的都是find_element，并不知道还有个find_elements，所以当我找到一篇博客，上面很清晰明了地告诉我，应该把前者改为后者，认真对比之后我才知道是少了个”s"，加上果然不报错了，也怪我自己不细心，没留意到它们之间的区别，或者说我的基础还不结实，我刚接触不久，所以值得原谅，嘻嘻。翻页是判断是否还有下一页这个跳转，有就跳到下一页，继续获取：

    try:

        driver.find_element_by_link_text('下一页')

        d = True

    except:

        d = False

当变量d为真时，点击”下一页“按钮。看着下载回来的照片倒是挺有感觉，哈哈。

要保持学习，好好努力，恩恩。

用python爬取QQ空间的更多相关文章

Python爬取qq空间说说
#coding:utf-8 #!/usr/bin/python3 from selenium import webdriver import time import re import importl ...
python+selenium+requests爬取qq空间相册时遇到的问题及解决思路
最近研究了下用python爬取qq空间相册的问题,遇到的问题及解决思路如下: 1.qq空间相册的访问需要qq登录并且需是好友,requests模块模拟qq登录略显麻烦,所以采用selenium的dri ...
selenium爬取qq空间，requests爬取雪球网数据
一.爬取qq空间好友动态数据 # 爬取qq空间好友状态信息(说说,好友名称),并屏蔽广告 from selenium import webdriver from time import sleep f ...
Python_小林的爬取QQ空间相册图片链接程序
前言昨天看见某人的空间有上传了XXXX个头像,然后我就想着下载回来[所以本质上这是一个头像下载程序],但是一个个另存为太浪费时间了,上网搜索有没有现成的工具,居然要注册码,还卖45一套.你们的良心也 ...
python selenium爬取QQ空间方法
from selenium import webdriver import time # 打开浏览器 dr = webdriver.Chrome() # 打开某个网址 dr.get('https:// ...
Python爬虫实战一之爬取QQ音乐
一.前言前段时间尝试爬取了网易云音乐的歌曲,这次打算爬取QQ音乐的歌曲信息.网易云音乐歌曲列表是通过iframe展示的,可以借助Selenium获取到iframe的页面元素, 而QQ音乐采用的是 ...
手把手教你使用Python抓取QQ音乐数据（第一弹）
[一.项目目标] 获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名.专辑名.播放链接. 由浅入深,层层递进,非常适合刚入门的同学练手. [二.需要的库] 主要涉及的库有:requests.json ...
手把手教你使用Python抓取QQ音乐数据（第二弹）
[一.项目目标] 通过Python爬取QQ音乐数据(一)我们实现了获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名.专辑名.播放链接. 此次我们在之前的基础上获取QQ音乐指定歌曲的歌词及前15个精 ...
Python爬虫使用selenium爬取qq群的成员信息（全自动实现自动登陆）
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: python小爬虫 PS:如有需要Python学习资料的小伙伴可以 ...

随机推荐

PHP基础班初学心得：脑洞实验-JS变量存储函数与return的一些问题
本人刚参加PHP基础班培训第一天,由于之前毫无基础,分享的心得可能不规范,方法也许也"旁门左道",不能保证质量,只作自己总结学习,也希望能帮助到同样是初学者的朋友们,共同进步. 在 ...
XAF 如何基于业务规则禁用属性
// Developer Express Code Central Example: // How to: Disable Property Editors Based on a Business R ...
PhpStorm提高效率的使用方法及设置
快捷键: CTRL + D 复制当前行到下一行或复制选中内容到选中内容之后 CTRL + Y 删除当前行或选中内容所涉及的行 CTRL + R 替换 CTRL + F 查找 ALT + 上 ...
stack栈
栈(statck)这种数据结构在计算机中是相当出名的.栈中的数据是先进后出的(First In Last Out, FILO).栈只有一个出口,允许新增元素(只能在栈顶上增加).移出元素(只能移出栈顶 ...
AngularJS过滤器
1.过滤器可以使用一个管道字符(|)添加到表达式和指令中. 再次强调一点,所有的运行都要加入angularJS的库文件(类似JQuery的引用) 常见的AngularJS 过滤器 (1) lowerc ...
sdn
#!/usr/bin/env python #from mininet.cli import CLI #from mininet.link import Link #from mininet.net ...
Metro-Ural119递推
Time limit: 0.5 second Memory limit: 64 MB Many of SKB Kontur programmers like to get to work by Met ...
js计算两个日期的差值
// 获取两个比较值的毫秒数var postman_confirmtime_ms = Date.parse(new Date(data.postman_confirmtime.replace(/-/g ...
No identities are available for signing的解决方法
今天将做好的app提交到app store,结果就出现标题上的错误.“No identities are available for signing”.这个错误对于一个iOS开发者来说已经很平常了,这 ...
OpenWrt > ADSL单线多拨，负载均衡（仅供参考）
前题硬件:路由器,刷入OpenWrt 一些背景知识和动手能力目标效果图步骤使用SSH 登陆路由器.I.e. ssh root@192.168.2.1 运行/usr/bin/duobo.日志类似 ...

用python爬取QQ空间

用python爬取QQ空间的更多相关文章

随机推荐

热门专题