Python数据挖掘(爬虫强化)

（我喜欢雨天，因为雨天我可以回到童年踩水花！哈！）

2018年 --7月--12日：多云又暴雨 T—T

前言

我要把爬虫的终极利器介绍一下，这个只要是我们肉眼能看到的，就算在源码中或者在json中，或是post也无法得到的数据，我们都可以获取到，雷同F12后源码暴露在你面前一样！

这次需要用到selenium家族的一些成员，它们各司其职，各个身怀绝技。

先介绍一下selenium模块：Selenium is a suite of tools specifically for automating web browsers.（Selenium是一套专门用于自动化web浏览器的工具。）

---：（这里补充一下，在需要用到这种大型模块的时候，一定要去读官方文档，不要去听百度里面和一些断章取义的人瞎写的内容，他们更容易把你带偏。）

这个Selenium模块主要是应对我们自动浏览网页数据所需要用的，让程序来执行半智能，前提你要教会它去做什么事情！

直接介绍此次所需要用到的家族模块：

 from selenium import webdriver

 import time

 from selenium.webdriver.common.keys import Keys

 from selenium.webdriver.common.action_chains import ActionChains

 from selenium.webdriver.common.by import By

一、每一个解释一下哈，按顺序对号：

1、主模块的嵌入，主要是应对控制程序自动打开浏览器浏览网页功能。

2、作为开发人员，尤其是对网页自动化测试的开发工具必须需要time模块来制约程序的访问时间，因为可能网站会直接把你IP封掉。

3、selenium 模块家族成员Keys，此成员是应当以模拟键盘操作，应对模拟输入用户登录名和密码，或者价值数据索引输入。

4、selenium 模块家族成员ActionChains，它则是应对模拟鼠标操作，对与鼠标的双击，单击，左右键，应对我们翻页，搜索按钮的点击功能。

5、selenium 模块家族成员By,这个则是我们要教会它所要做的事情，也是我们数据挖掘又要用到的核心价值功能之一，应对价值数据抓取。

二、开发初步：

1、操作程序打开浏览器并打开我们需要进入的网页：

 url = 'https://www.xxx.com'

 driver=webdriver.Chrome()

 driver.get(url)

 time.sleep(5)

 driver.quit()

这里可以自己测试一下，我所使用的是Google的浏览器，你们可以尝试使用Firefox,他们有一些的区别，主要是站点的区别！

2、进入页面后锁定tag

html:

 <div id="aaa" class="bbb" name="ccc">

     <p></p>

     <p><a></p>

 </div>

python:

 element = driver.find_element_by_id("aaa")

 frame = driver.find_element_by_tag_name("div")

 cheese = driver.find_element_by_name("ccc")

 cheeses = driver.find_elements_by_class_name("bbb")

 or

 from selenium.webdriver.common.by import By

 element = driver.find_element(by=By.ID, value="aaa")

 frame = driver.find_element(By.TAG_NAME, "div")

 cheese = driver.find_element(By.NAME, "ccc")

 cheeses = driver.find_elements(By.CLASS_NAME, "bbb")

这里每一个都是锁定tag树，它们都是根据id，class，name，tagname来定义的。

 xpath_class = driver.find_element_by_xpath('//div[@class="bbb"]/p')

 xpath_id = driver.find_element_by_xpath('//div[@id="aaa"]/p')

这是通用方法的，Xpath方法，它们都输属于解析网页的内容锁定tag。

3、处理操作：

当我们锁定功能键的tag属性的时候，我们就可以进一步操作，比如换页，搜索功能的实现，对于模拟键盘输入的可以参考我的另一篇博客，《python自动化爬虫》

这里我们就介绍一下模拟鼠标的操作：

 elem = driver.find_element_by_xpath('//a[@id="tagname"]')

 ActionChains(driver).double_click(elem).perform()

 time.sleep(3)

因为时间问题，我只是介绍一下鼠标左键单击换页操作，其他的何以参考一下官方文档：Selenium Webdrive

ActionChains：锁定浏览器，double_click锁定tag标签树，.perform()：点击标签树

4、获取价值数据

这里的操作类似与Xpath的语法：

driver.find_elements_by_tag_name('td')[3].text

driver.find_elements_by_tag_name('a').get_attribute('href')

这里注意一下elements，指所有的tag-> a比标签的href，这里是list格式，需要遍历。

5、最后来一串完整代码：

 from selenium import webdriver

 import time

 import lxml.html as HTML

 from bs4 import BeautifulSoup

 from selenium.webdriver.common.keys import Keys

 from selenium.webdriver.common.action_chains import ActionChains

 from pymongo import MongoClient,ASCENDING, DESCENDING

 from selenium.webdriver.common.by import By

 def parser():

       url = 'https://www.xxx.com'

       driver=webdriver.Chrome()

       driver.get(url)

       time.sleep(5)

       for i in range(1,675):

             a = driver.find_element_by_xpath('//div[@class="aaa"]')

             tr =  a.find_elements_by_tag_name('tr')

             for j in xrange(1,len(tr)):

                   quantity = tr[j].find_elements_by_tag_name('td')[3].text

                   producturl = tr[j].find_elements_by_tag_name('td')[0].find_elements_by_tag_name("div")[1].find_element_by_tag_name('ul').find_element_by_tag_name('li').find_element_by_tag_name('a').get_attribute('href')

                   producturl_db(producturl,quantity)

             elem = driver.find_element_by_xpath('//a[@id="eleNextPage"]')

             ActionChains(driver).double_click(elem).perform()

             time.sleep(3)

       driver.quit()

selenium有个小GUB，就是在用Xpath的时候，你已经找到父级tag，但是这个父级很多，比如tr，你如果遍历它，寻找td的话，那么你还是使用find_elements_by_tag_name，因为那个会初始化，不会管你找到那个父级。所以这里是需要注意的！
最后祝你们加油！！！！！

Python数据挖掘(爬虫强化)的更多相关文章

Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱（转）
原文:http://www.52nlp.cn/python-网页爬虫-文本处理-科学计算-机器学习-数据挖掘曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开 ...
【Python】Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱
本文转载自:https://www.cnblogs.com/colipso/p/4284510.html 好文 mark http://www.52nlp.cn/python-%E7%BD%91%E9 ...
2019年Python数据挖掘就业前景前瞻
Python语言的崛起让大家对web.爬虫.数据分析.数据挖掘等十分感兴趣.数据挖掘就业前景怎么样?关于这个问题的回答,大家首先要知道什么是数据挖掘.所谓数据挖掘就是指从数据库的大量数据中揭示出隐含的 ...
Python数据挖掘课程
[Python数据挖掘课程]一.安装Python及爬虫入门介绍[Python数据挖掘课程]二.Kmeans聚类数据分析及Anaconda介绍[Python数据挖掘课程]三.Kmeans聚类代码实现.作 ...
第3次作业-MOOC学习笔记：Python网络爬虫与信息提取
1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业 4.提供图片或网站显示的学习进 ...
第三次作业-Python网络爬虫与信息提取
1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业过程. 5.写一篇不少于100 ...
第三次作业-MOOC学习笔记：Python网络爬虫与信息提取
1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业第一周 Requests库的爬 ...
一篇文章带你用Python网络爬虫实现网易云音乐歌词抓取
前几天小编给大家分享了数据可视化分析,在文尾提及了网易云音乐歌词爬取,今天小编给大家分享网易云音乐歌词爬取方法. 本文的总体思路如下: 找到正确的URL,获取源码: 利用bs4解析源码,获取歌曲名和歌 ...
一篇文章教会你利用Python网络爬虫获取电影天堂视频下载链接
[一.项目背景] 相信大家都有一种头疼的体验,要下载电影特别费劲,对吧?要一部一部的下载,而且不能直观的知道最近电影更新的状态. 今天小编以电影天堂为例,带大家更直观的去看自己喜欢的电影,并且下载下来 ...

随机推荐

基于 EntityFramework、Autofac 的 UnitOfWork 框架（一）
之前公司项目参考 NopCommerce 开发了一套系统,但是不支持 UnitOfWork,最近想开发新的项目,所以就基于原有的基础上又添加 UnitOfWork 支持,由于目前正在逐步完善中,所以可 ...
INotifyPropertyChanged 接口 CallerMemberName属性
调用方信息使用调用方信息属性,可以获取关于调用方的信息传递给方法. 可以获取源代码.行号在源代码和调用方的成员名称的文件路径. 此信息用于跟踪,调试和创建诊断工具非常有用.若要获取此信息,则使用适用 ...
linux上部署JMeter
export JAVA_HOME=/opt/jdk1.8.0_171 export PATH=$PATH:$JAVA_HOME/bin 让环境变量生效 vi /etc/profile 添加下述两行: ...
从外面更新unity需要用的题库
unity中必须要有Plugins文件夹以及dll文件官方dll文件下载链接: https://archive.codeplex.com/?p=exceldatareader using System ...
SSH免密登录实现
现在先想要把项目部署到linux系统中通过使用maven添加tomcat插件可以做到,右击项目配置这里的url,是部署到哪里的意思(比如我们现在将这个项目部署到以下系统的tomcat中) 此处只有 ...
002 html总结
1.题目每个HTML文件里开头都有个很重要的东西,Doctype,知道这是干什么的吗? div+css的布局较table布局有什么优点? strong与em的异同? 你能描述一下渐进增强和优雅降级之 ...
接口管理工具——阿里RAP
1.阿里官网RAP a.进入官网 http://rapapi.org/org/index.do b.项目创建:创建团队 —— 创建产品线 —— 创建分组 —— 创建项目 c.然后就可以创建页 ...
通过javap终极理解++i和i++的区别
一直在学习Java,碰到了很多问题,碰到了很多关于i++和++i的难题,以及最经典的String str = "abc" 共创建了几个对象的疑难杂症. 知道有一日知道了java的反 ...
Stream闪亮登场
Stream闪亮登场一. Stream(流)是什么,干什么 Stream是一类用于替代对集合操作的工具类+Lambda式编程,他可以替代现有的遍历.过滤.求和.求最值.排序.转换等二. Strea ...
第k小的元素
利用快排思想,如果标志位大于k,则第k小的数字在左边,否则在右边.(程序是第k大的元素) #include <iostream> #include <vector> using ...

Python数据挖掘(爬虫强化)

Python数据挖掘(爬虫强化)的更多相关文章

随机推荐

热门专题