背景

写爬虫的时候总会遇到爬取速度过快而被封IP的情况,这个时候就需要使用代理了。在https://github.com/henson/ProxyPool

的启发下,决定自己实现一个代理池。项目已经开源在github。

https://github.com/AceDarkknight/GoProxyCollector

2018.03.29更新

  • go 版本升级为1.9.4,使用新版本的sync.Map 提高并发读的效率

开发环境

windows 7,Go 1.8.4

数据来源

http://www.xicidaili.com

http://www.89ip.cn

http://www.kxdaili.com/

https://www.kuaidaili.com

http://www.ip3366.net/

http://www.ip181.com/

http://www.data5u.com

https://proxy.coderbusy.com

项目结构

目录 作用
collector 收集器,抓取各个网站的代理
result 表示抓取的结果
scheduler 负责任务调度,包括启动collector和入库
server 启动一个web服务,提供取结果的API
storage 存储结果,通过接口可以使用别的数据库
util 一些常用的工具方法
verifier ip的验证与入库出库

实现

  • collector

collector 支持两种模式,分别是使用goquery对网页元素进行选择和使用正则表达式匹配我们需要的信息。直接上代码吧。

// github.com\AceDarkknight\GoProxyCollector\collector\selectorCollector.go
func (c *SelectorCollector) Collect(ch chan<- *result.Result) {
// 退出前关闭channel。
defer close(ch) response, _, errs := gorequest.New().Get(c.currentUrl).Set("User-Agent", util.RandomUA()).End() /* 省略部分代码 */ // 有些网站不是UTF-8编码的,需要进行转码。
var decoder mahonia.Decoder
if c.configuration.Charset != "utf-8" {
decoder = mahonia.NewDecoder(c.configuration.Charset)
} // 使用goquery。
doc, err := goquery.NewDocumentFromReader(response.Body)
if err != nil {
seelog.Errorf("parse %s error:%v", c.currentUrl, err)
return
} // 大部分代理网站的代理列表都放在一个table里,先选出table再循环里面的元素。
selection := doc.Find(c.selectorMap["table"][0])
selection.Each(func(i int, sel *goquery.Selection) {
var (
ip string
port int
speed float64
location string
) // 我们需要的信息的名字和路径存在collectorConfig.xml。
nameValue := make(map[string]string)
for key, value := range c.selectorMap {
if key != "table" {
var temp string
if len(value) == 1 {
temp = sel.Find(value[0]).Text()
} else if len(value) == 2 {
temp, _ = sel.Find(value[0]).Attr(value[1])
} // 转码.
if temp != "" {
if decoder != nil {
temp = decoder.ConvertString(temp)
} nameValue[key] = temp
}
}
} /* 省略部分代码 */ // 过滤一些不符合条件的结果
if ip != "" && port > 0 && speed >= 0 && speed < 3 {
r := &result.Result{
Ip: ip,
Port: port,
Location: location,
Speed: speed,
Source: c.currentUrl} // 把符合条件的结果放进channel
ch <- r
}
})
} // github.com\AceDarkknight\GoProxyCollector\collector\regexCollector.go
func (c *RegexCollector) Collect(ch chan<- *result.Result) {
response, bodyString, errs := gorequest.New().Get(c.currentUrl).Set("User-Agent", util.RandomUA()).End() /* 省略部分代码 */ // 用正则匹配。
regex := regexp.MustCompile(c.selectorMap["ip"])
ipAddresses := regex.FindAllString(bodyString, -1)
if len(ipAddresses) <= 0 {
seelog.Errorf("can not found correct format ip address in url:%s", c.currentUrl)
return
} for _, ipAddress := range ipAddresses {
temp := strings.Split(ipAddress, ":")
if len(temp) == 2 {
port, _ := strconv.Atoi(temp[1])
if port <= 0 {
continue
} r := &result.Result{
Ip: temp[0],
Port: port,
Source: c.currentUrl,
} ch <- r
}
}
}
  • result

result很简单,只是用来表示collector爬取的结果。

// github.com\AceDarkknight\GoProxyCollector\result\result.go
type Result struct {
Ip string `json:"ip"`
Port int `json:"port"`
Location string `json:"location,omitempty"`
Source string `json:"source"`
Speed float64 `json:"speed,omitempty"`
}
  • scheduler

scheduler负责完成一些初始化的工作以及调度collector任务。不同的任务在不同的goroutine中运行,goroutine之间通过channel进行通信。

// github.com\AceDarkknight\GoProxyCollector\scheduler\scheduler.go
func Run(configs *collector.Configs, storage storage.Storage) {
/* 省略部分代码 */ for {
var wg sync.WaitGroup for _, configuration := range configs.Configs {
wg.Add(1)
go func(c collector.Config) {
// 防止死锁。
defer wg.Done() // 处理panic。
defer func() {
if r := recover(); r != nil {
seelog.Criticalf("collector %s occur panic %v", c.Name, r)
}
}() col := c.Collector()
done := make(chan bool, 1) go func() {
runCollector(col, storage)
// 完成时发送信号。
done <- true
}() // 设置timeout防止goroutine运行时间过长。
select {
case <-done:
seelog.Debugf("collector %s finish.", c.Name)
case <-time.After(7 * time.Minute):
seelog.Errorf("collector %s time out.", c.Name)
} }(configuration)
} // 等待所有collector完成。
wg.Wait()
seelog.Debug("finish once, sleep 10 minutes.")
time.Sleep(time.Minute * 10)
}
}
  • server

server启动了一个服务器,提供API

  • storage

storage提供了存储相关的interface和实现。

// github.com\AceDarkknight\GoProxyCollector\storage\storage.go
type Storage interface {
Exist(string) bool
Get(string) []byte
Delete(string) bool
AddOrUpdate(string, interface{}) error
GetAll() map[string][]byte
Close()
GetRandomOne() (string, []byte)
}

目前项目的数据都是存储在boltdb。github上面关于boltdb的简介如下:

Bolt is a pure Go key/value store inspired by Howard Chu's LMDB project. The goal of the project is to provide a simple, fast, and reliable database for projects that don't require a full database server such as Postgres or MySQL.

Since Bolt is meant to be used as such a low-level piece of functionality, simplicity is key. The API will be small and only focus on getting values and setting values. That's it.

考虑到代理池的数据量比较小,而且当初的想法是实现一个开箱即用的代理池,选择boltdb这样的嵌入式数据库显然是比使用MySQL和MongoDB更加简单、便捷。当然,如果以后需要使用不同的数据库时,只需要实现storage的接口即可。使用boltdb的相关文档和教程在我参考的是:

https://segmentfault.com/a/1190000010098668

https://godoc.org/github.com/boltdb/bolt

  • util

util实现了一些通用方法,例如取一个随机的user-agent,具体就不展开了。

  • verifier

verifier负责验证collector拿到的ip是否可用,可用的入库,不可用的就从数据库中删除。

配置

collector是通过配置文件驱动的。配置文件是:

github.com\AceDarkknight\GoProxyCollector\collectorConfig.xml

举个例子:

<config name="coderbusy">
<urlFormat>https://proxy.coderbusy.com/classical/https-ready.aspx?page=%s</urlFormat>
<urlParameters>1,2</urlParameters>
<collectType>0</collectType>
<charset>utf-8</charset>
<valueNameRuleMap>
<item name="table" rule=".table tr:not(:first-child)"/>
<item name="ip" rule="td:nth-child(2)" attribute="data-ip"/>
<item name="port" rule=".port-box"/>
<item name="location" rule="td:nth-child(3)"/>
<item name="speed" rule="td:nth-child(10)"/>
</valueNameRuleMap>
</config>
<config name="89ip">
<urlFormat>http://www.89ip.cn/tiqv.php?sxb=&amp;tqsl=20&amp;ports=&amp;ktip=&amp;xl=on&amp;submit=%CC%E1++%C8%A1</urlFormat>
<collectType>1</collectType>
<charset>utf-8</charset>
<valueNameRuleMap>
<item name="ip" rule="((?:(?:25[0-5]|2[0-4]\d|((1\d{2})|([1-9]?\d)))\.){3}(?:25[0-5]|2[0-4]\d|((1\d{2})|([1-9]?\d)))):[1-9]\d*"/>
</valueNameRuleMap>
</config>
  • name是collector的名字,主要作用是方便调试和出错时查问题。

  • urlFormat和urlParameters用来拼接出需要爬取的网址。urlParameters可以为空。例如上面第一个配置就是告诉爬虫要爬的网站是:

    https://proxy.coderbusy.com/classical/https-ready.aspx?page=1

    https://proxy.coderbusy.com/classical/https-ready.aspx?page=2

  • collectType表示是用哪个collector,0代表selectorCollector,1代表regexCollector。

  • charset表示网站用的是哪种编码。默认编码是UTF-8,如果设置错了可能会拿不到想要的数据。

  • valueNameRuleMap表示需要的点的规则。对于使用selectorCollector的网站,大部分结果通过table表示,所以table是必须的,其他点根据不同网站配置即可。相关rule的配置可以参考goquery的文档:

    https://github.com/PuerkitoBio/goquery

结语

关于项目的介绍到这里就差不多了,新手第一次用go写项目如果有什么不足和错误希望大家多多包涵和指出。如果你有疑问和更好的建议也欢迎大家一起探讨~

用golang 实现一个代理池的更多相关文章

  1. [Golang] 一个简易代理池

    晚上写了一个代理池,就是在一个代理网站上爬取代理ip和端口以及测试是否可用.接下来可能考虑扩展成一个比较大的 golang实现的代理池. 简易版代码: package main import ( &q ...

  2. 如何维护一个1000 IP的免费代理池

    楔子 好友李博士要买房了, 前几天应邀帮他抓链家的数据分析下房价, 爬到一半遇到了验证码. 李博士的想法是每天把链家在售的二手房数据都抓一遍, 然后按照时间序列分析. 链家线上在交易的二手房数据大概有 ...

  3. 记一次企业级爬虫系统升级改造(六):基于Redis实现免费的IP代理池

    前言: 首先表示抱歉,春节后一直较忙,未及时更新该系列文章. 近期,由于监控的站源越来越多,就偶有站源做了反爬机制,造成我们的SupportYun系统小爬虫服务时常被封IP,不能进行数据采集. 这时候 ...

  4. 【Python3爬虫】教你怎么利用免费代理搭建代理池

    一.写在前面 有时候你的爬虫刚开始的时候可以正常运行,能够正常的爬取数据,但是过了一会,却出现了一个“403 Forbidden",或者是”您的IP访问频率太高“这样的提示,这就意味着你的I ...

  5. 利用 Flask+Redis 维护 IP 代理池

    代理池的维护 目前有很多网站提供免费代理,而且种类齐全,比如各个地区.各个匿名级别的都有,不过质量实在不敢恭维,毕竟都是免费公开的,可能一个代理无数个人在用也说不定.所以我们需要做的是大量抓取这些免费 ...

  6. python爬虫18 | 就算你被封了也能继续爬,使用IP代理池伪装你的IP地址,让IP飘一会

    我们上次说了伪装头部 ↓ python爬虫17 | 听说你又被封 ip 了,你要学会伪装好自己,这次说说伪装你的头部 让自己的 python 爬虫假装是浏览器 小帅b主要是想让你知道 在爬取网站的时候 ...

  7. Flask开发系列之Flask+redis实现IP代理池

    Flask开发系列之Flask+redis实现IP代理池 代理池的要求 多站抓取,异步检测:多站抓取:指的是我们需要从各大免费的ip代理网站,把他们公开的一些免费代理抓取下来:一步检测指的是:把这些代 ...

  8. 介绍一种 Python 更方便的爬虫代理池实现方案

    现在搞爬虫,代理是不可或缺的资源 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经做案例的人,却不知道如何去学习更加高深的知识.那 ...

  9. [爬虫]一个易用的IP代理池

    一个易用的IP代理池 - stand 写爬虫时常常会遇到各种反爬虫手段, 封 IP 就是比较常见的反爬策略 遇到这种情况就需要用到代理 IP, 好用的代理通常需要花钱买, 而免费的代理经常容易失效, ...

随机推荐

  1. 在浏览器地址栏输入URL,按下回车后究竟发生了什么?

    1.DNS 在浏览器中输入URL后,首先要进行DNS解析,DNS解析的顺序为: 浏览器缓存 本地hosts文件 系统缓存 路由器缓存 DNS服务器迭代查询 2.发送请求 通过DNS得到目标的IP地址后 ...

  2. 什么是 JSX

    JSX 即 JavaScript XML--一种在 React 组件内部构建标签的类 xml 语法.React 在不使用 JSX 的情况下一样可以工作,然而使用 JSX 可以提高组件的可读性,因此推荐 ...

  3. shell脚本 awk工具

    awk工具概述awk编程语言/数据处理引擎基于模式匹配检查输入文本,逐行处理并输出通常在shell脚本中,或取指定的数据单独用时,可对文本数据做统计 命令格式格式一:awk [选项] '[条件]{编辑 ...

  4. java 集合框架(十)List

    一.概述 List是一种有序集合,有时也被称为序列,可以有重复的元素.List集合相比Collection,除了直接继承的方法外,有以下拓展的操作方法 位置访问---可以基于元素索引来操作元素,比如g ...

  5. windows下常用工具

    下面是平时自用的一些软件,感觉挺好用的,推荐给大家咯. everything 搜索神器 faststone capture 红绿小工具,工具小功能强 clcl 复制粘贴神器 f.lux linux和w ...

  6. jqeury显示前几个,隐藏后几个,点击后隐藏前几个显示后几个

    <script type="text/javascript"> $(".ul li").each(function(){ if($(this).in ...

  7. Linux如何查找处理文件名后包含空格的文件

    Linux如何查找处理文件名后包含空格的文件   当Linux下文件名中出现空格这类特殊情况话,如何查找或确认那些文件名后有空格呢? 又怎么批量替换处理掉这些空格呢? 方法1: 输入文件名后使用Tab ...

  8. vxworks下文件读写示例

    dev 1.create file on floopy disk and write contents: -> pdev=fdDevCreate(0,0,0,0)     /* A:,1.44M ...

  9. return *this 与return this的区别

    return *this返回当前对象的引用(也就是返回当前对象) return this返回当前对象的地址. #include <iostream> using namespace std ...

  10. AM335x关于LCD屏幕的时钟PLL配置

    主要参考的是AM335x的TRM的第8章PRCM模块和13章LCD Controller. 这里在LCD Controller里面的配置描述的比较详细了,分频和像素.消影值的设置等等.不在赘述,很多人 ...