go实现爬虫

条件：
1.第三方包github.com/tebeka/selenium，selenium自动化测试工具
2.google驱动chromedriver.exe，要与本地浏览器的版本号对应，下载：http://npm.taobao.org/mirrors/chromedriver/
流程：
1.开启google驱动服务
2.设置浏览器参数
3.开启浏览器窗口，每次调用wd,_ :=selenium.NewRemote函数都会开启一个窗口。
3.1.比如调用页面中的某个组件，wd.FindElements(selenium.ByCSSSelector, ".xxx")，选择器符合W3C规范即可。
4.关闭窗口，webDriver.Quit()
5.关闭驱动服务，crawler.Service.Stop()
代码

type Crawler struct {

    ChromeDriver string

    Port         int

    Service      *selenium.Service

    Caps selenium.Capabilities

}

//开启驱动服务

func NewCrawler() (*Crawler,error) {

    crawler := &Crawler{

        ChromeDriver: `E:/go_workspace/src/my_common_utils/chromedriver.exe`,//google浏览器驱动

        Port:         ,

        Service:      nil,

    }

    opts := []selenium.ServiceOption{}

    service, err := selenium.NewChromeDriverService(crawler.ChromeDriver, crawler.Port, opts...)

    if nil != err {

        return nil,errors.New("start a chromedriver service falid,"+err.Error())

    }

    caps := selenium.Capabilities{

        "browserName": "chrome",

    }

    imagCaps := map[string]interface{}{

        "profile.managed_default_content_settings.images": ,//不加载图片，提高浏览器响应速度

    }

    chromeCaps := chrome.Capabilities{

        Prefs: imagCaps,

        Path:  "",

        Args: []string{

            //"--headless", //不弹出窗口

            "--user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36", // 模拟user-agent，防反爬

        },

    }

    //以上是设置浏览器参数

    caps.AddChrome(chromeCaps)

    crawler.Service = service

    crawler.Caps = caps

    return crawler,nil

}

//打开窗口

func (c *Crawler) NewRemote()(selenium.WebDriver,error){

    w_b1, err := selenium.NewRemote(c.Caps, fmt.Sprintf("http://localhost:%d/wd/hub", c.Port))

    if err != nil {

        return nil,errors.New("connect to the webDriver faild,"+err.Error())

    }

    return w_b1,nil

}

//关闭驱动服务

func (c *Crawler) Shutdown(){

    _ = c.Service.Stop()

}

go实现爬虫的更多相关文章

设计爬虫Hawk背后的故事
本文写于圣诞节北京下午慵懒的午后.本文偏技术向,不过应该大部分人能看懂. 五年之痒 2016年,能记入个人年终总结的事情没几件,其中一个便是开源了Hawk.我花不少时间优化和推广它,得到的评价还算比较 ...
Scrapy框架爬虫初探——中关村在线手机参数数据爬取
关于Scrapy如何安装部署的文章已经相当多了,但是网上实战的例子还不是很多,近来正好在学习该爬虫框架,就简单写了个Spider Demo来实践.作为硬件数码控,我选择了经常光顾的中关村在线的手机页面 ...
Python 爬虫模拟登陆知乎
在之前写过一篇使用python爬虫爬取电影天堂资源的博客,重点是如何解析页面和提高爬虫的效率.由于电影天堂上的资源获取权限是所有人都一样的,所以不需要进行登录验证操作,写完那篇文章后又花了些时间研究了 ...
scrapy爬虫docker部署
spider_docker 接我上篇博客,为爬虫引用创建container,包括的模块:scrapy, mongo, celery, rabbitmq,连接https://github.com/Liu ...
scrapy 知乎用户信息爬虫
zhihu_spider 此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongo,下载这些数据感觉也没什么用,就当为大家学习scrapy提供一个例子吧.代码地 ...
120项改进：开源超级爬虫Hawk 2.0 重磅发布！
沙漠君在历时半年,修改无数bug,更新一票新功能后,在今天隆重推出最新改进的超级爬虫Hawk 2.0! 啥?你不知道Hawk干吗用的? 这是采集数据的挖掘机,网络猎杀的重狙!半年多以前,沙漠君写了一篇 ...
Python爬虫小白入门（四）PhatomJS+Selenium第一篇
一.前言在上一篇博文中,我们的爬虫面临着一个问题,在爬取Unsplash网站的时候,由于网站是下拉刷新,并没有分页.所以不能够通过页码获取页面的url来分别发送网络请求.我也尝试了其他方式,比如下拉 ...
Python多线程爬虫爬取电影天堂资源
最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载.刚开始学习python希望可以获得宝贵的意见. ...
QQ空间动态爬虫
作者:虚静链接:https://zhuanlan.zhihu.com/p/24656161 来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 先说明几件事: 题目的意 ...
让你从零开始学会写爬虫的5个教程（Python）
写爬虫总是非常吸引IT学习者,毕竟光听起来就很酷炫极客,我也知道很多人学完基础知识之后,第一个项目开发就是自己写一个爬虫玩玩. 其实懂了之后,写个爬虫脚本是很简单的,但是对于新手来说却并不是那么容易. ...

随机推荐

java实现第四届蓝桥杯快速排序
快速排序题目描述快速排序算法是典型的分治思想的运用.它使用某个key把全部元素分成两组,其中一组的元素不大于另一组.然后对这两组再次进行递归排序. 以下代码实现了快速排序.请仔细阅读代码,填写缺少 ...
【JAVA习题二十八】海滩上有一堆桃子，五只猴子来分。第一只猴子把这堆桃子凭据分为五份，多了一个，这只猴子把多的一个扔入海中，拿走了一份。第二只猴子把剩下的桃子又平均分成五份，又多了一个，它同样把多的一个扔入海中，拿走了一份，第三、第四、第五只猴子都是这样做的，问海滩上原来最少有多少个桃子？
package erase; import java.util.Scanner; public class 猴子分桃 { public static void main(String[] args) ...
使用vw进行移动端适配（nuxt项目）
基于nuxt 2.0.0 一.安装postcss-px-to-viewport npm安装 npm install postcss-px-to-viewport --save-dev 或 yarn安装 ...
实战记录之SQL server报错手工注入
前言最近测试了一个站点,这个站点挺有意思,发现没有关闭错误提示,初步猜测是SQL server数据库,后来验证确实是.在这里记录一下实战过程,并详细讲解一下用到的知识点. SQL server报错注 ...
DevOps系列——Jenkins/Gitlab自动打包部署
前面只说了DevOps的两个基础组件Jenkins和GitLab,客官也不要着急,我们玩就玩的深入一点,Gitlab和Jenkins的各种配置和插件很多,也够啃一阵子的,不要照着操作一通就感觉万事大 ...
.NET 技术栈思维导图
背景介绍根据网上招聘网站的一些.NET技能需求,画了一个图,便于在自修和学习的过程当中有一个方向. 技能栈 Web front-end o 框架技术 ▣ Vue ▣ Bootstrap ▣ LayU ...
oracle 锁表解决方式
/*查看被锁住的存储过程*/ SELECT * FROM V$DB_OBJECT_CACHE WHERE OWNER = 'APPADMIN' AND LOCKS != '0'; SELECT * F ...
Unit3-窝窝社交圈
全文共4909字,推荐阅读时间15~20分钟. 文章共分五个部分: JML总结作业分析评测相关重构策略课程体验感受 JML总结定义 JML是一种对Java程序进行规格化设计的表示语言 JML ...
MySQL数据库基础知识复习
现在是2020年寒假,这也是新年写的第一篇博客,用了十几天的时间自学了数据库基础部分,想总结一下得失同时并通过写博客来复习前面学的知识点. 个人: 1.本来是计划一周学完基础部分的178p但没能完成这 ...
Mybaties概述

go实现爬虫

go实现爬虫的更多相关文章

随机推荐

热门专题