试验一下Golang 网络爬虫框架gocolly/colly

参考：http://www.cnblogs.com/majianguo/p/8186429.html

框架源码在 github.com/gocolly/colly

代码如下(github源码中的demo)

package main

import (

    "fmt"

    "github.com/gocolly/colly"

)

func main() {

    // Instantiate default collector

    c := colly.NewCollector(

        // Visit only domains: hackerspaces.org, wiki.hackerspaces.org

        colly.AllowedDomains("hackerspaces.org", "wiki.hackerspaces.org"),

    )

    // On every a element which has href attribute call callback

    c.OnHTML("a[href]", func(e *colly.HTMLElement) {

        link := e.Attr("href")

        // Print link

        fmt.Printf("Link found: %q -> %s\n", e.Text, link)

        // Visit link found on page

        // Only those links are visited which are in AllowedDomains

        c.Visit(e.Request.AbsoluteURL(link))

    })

    // Before making a request print "Visiting ..."

    c.OnRequest(func(r *colly.Request) {

        fmt.Println("Visiting", r.URL.String())

    })

    // Start scraping on https://hackerspaces.org

    c.Visit("https://hackerspaces.org/")

}

结果Ctrl-B后，提示了类似于cannot find package "github.com/PuerkitoBio/goquery" in any of:等一堆内容，对照提示用gopm逐一下载相应的依赖包,这时候真希望能用go get啊

有一个包下不来，错误提示如下：

..\github.com\gocolly\colly\colly.go::: cannot find package "google.golang.org/appengine/urlfetch" in any of:

    D:\Go\src\google.golang.org\appengine\urlfetch (from $GOROOT)

    C:\Users\Administrator\go\src\google.golang.org\appengine\urlfetch (from $GOPATH)

    E:\goapp\src\google.golang.org\appengine\urlfetch

参考：https://blog.csdn.net/cjj198561/article/details/80631392

原来是由于google.golang.org/appengine这个包的代码仓库变了，指向 https://github.com/golang/appengine

于是，执行 gopm get github.com/golang/appengine 将包下载下来，然后在$gopath\src下建一个名为google.golang.org的目录，

在下载的appengine目录上用鼠标复制，粘贴到刚才建立的google.golang.org目录下。（我是将gopm下载的包全部重新复制到了$gopath\src下）

还有几个包下不了，错误提示为：..\golang.org\x\net\html\charset\charset.go:20:2: cannot find package "golang.org/x/text/encoding" in any of:

参考这里：https://blog.csdn.net/weixin_42780662/article/details/84312889

以下为引用的内容

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝

由于众所周知的原因，golang在下载golang.org的包时会出现访问不了的情况。尤其是x包，很多库都依赖于它。由于x包在github上都有镜像，我们可以使用从github.com上先clone下来，再做软链接的方式曲线救国。

mkdir -p $GOPATH/src/github.com/golang/

git clone https://github.com/golang/sys.git $GOPATH/src/github.com/golang/sys
git clone https://github.com/golang/net.git $GOPATH/src/github.com/golang/net
git clone https://github.com/golang/text.git $GOPATH/src/github.com/golang/text
git clone https://github.com/golang/lint.git $GOPATH/src/github.com/golang/lint
git clone https://github.com/golang/tools.git $GOPATH/src/github.com/golang/tools
git clone https://github.com/golang/crypto.git $GOPATH/src/github.com/golang/crypto

ln -s $GOPATH/src/github.com/golang/ $GOPATH/src/golang.org/x

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝

于是按相应地址用gopm get github.com/golang/text下不来。

用迅雷大法,显示只有6.46M，还是下不来。

再次gopm get github.com/golang/text 终于下来了。可恶的闭关锁国。

最后，对照错误提示，

将下载目录下的github.com\golang\appengine复制到$gopath\src\google.golang.org/appengine

将下载目录下的github.com\golang\text复制到$gopath\src\google.golang.org/text

全部就绪后 Ctrl-B,成功。

小结一下：

需要类似 golang.org/x/text 的包，可以到 github.com/golang/text 找

需要google.golang.org/appengine 的包，可以到github.com/golang/appengine 找

最后，官网有更多例子：http://go-colly.org/

试验一下Golang 网络爬虫框架gocolly/colly的更多相关文章

Golang 网络爬虫框架gocolly/colly 四
Golang 网络爬虫框架gocolly/colly 四爬虫靠演技,表演得越像浏览器,抓取数据越容易,这是我多年爬虫经验的感悟.回顾下个人的爬虫经历,共分三个阶段:第一阶段,09年左右开始接触爬虫, ...
Golang 网络爬虫框架gocolly/colly 三
Golang 网络爬虫框架gocolly/colly 三熟悉了<Golang 网络爬虫框架gocolly/colly一>和<Golang 网络爬虫框架gocolly/colly二& ...
Golang 网络爬虫框架gocolly/colly 二 jQuery selector
Golang 网络爬虫框架gocolly/colly 二 jQuery selector colly框架依赖goquery库,goquery将jQuery的语法和特性引入到了go语言中.如果要灵活自如 ...
Golang 网络爬虫框架gocolly/colly 一
Golang 网络爬虫框架gocolly/colly 一 gocolly是用go实现的网络爬虫框架,目前在github上具有3400+星,名列go版爬虫程序榜首.gocolly快速优雅,在单核上每秒可 ...
Golang 网络爬虫框架gocolly/colly 五获取动态数据
Golang 网络爬虫框架gocolly/colly 五获取动态数据 gcocolly+goquery可以非常好地抓取HTML页面中的数据,但碰到页面是由Javascript动态生成时,用goque ...
网络爬虫框架Scrapy简介
作者: 黄进(QQ:7149101) 一. 网络爬虫网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本:它是一个自动提取网页的程序,它为搜索引擎从万维 ...
基于java的网络爬虫框架(实现京东数据的爬取，并将插入数据库)
原文地址http://blog.csdn.net/qy20115549/article/details/52203722 本文为原创博客,仅供技术学习使用.未经允许,禁止将其复制下来上传到百度文库等平 ...
[原创]一款基于Reactor线程模型的java网络爬虫框架
AJSprider 概述 AJSprider是笔者基于Reactor线程模式+Jsoup+HttpClient封装的一款轻量级java多线程网络爬虫框架,简单上手,小白也能玩爬虫, 使用本框架,只需要 ...
Scrapy （网络爬虫框架）入门
一.Scrapy 简介: Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,Scrapy 使用了 Twisted['twɪstɪd](其主要对手是Tornado) ...

随机推荐

codeM美团编程大赛初赛B轮D题（考验你的数学思维！）
[编程题] 模时间限制:1秒空间限制:32768K 给定四个正整数a,b,c,k,回答是否存在一个正整数n,使得a*n在k进制表示下的各位的数值之和模b为c.输入描述:第一行一个整数T(T < ...
String为什么是不可变的?
前几天一个面试被问到String为什么是不可变的?, 自我感觉当时回答的不太理想, 事后总结一下不可变的是什么我们谈论的String不可变, 指的是字符串的值不可变例: String s = & ...
MyBatis：Pagehelper分页
对于分页插件这里选择查询所有用户的信息,以列表返回前端只需输入分页数的数据既可 service实现类也很方便,甚至我都开始有点喜欢上这种Example的SQL形式了. 最后页面调用url的json信 ...
Laravel 系列入门教程（五）【最适合中国人的 Laravel 教程】
本文是本系列教程的完结篇,我们将一起给 Article 加入评论功能,让游客在前台页面可以查看.提交.回复评论,并完成后台评论管理功能,可以删除.编辑评论.Article 和评论将使用 Laravel ...
IE6不兼容问题
IE6不兼容问题一.选择器兼容问题 1.交集选择器从IE7以上兼容(div.special): 2.儿子选择器(>):IE7开始兼容,IE6不兼容. 3.序选择器(first ...
JS对url进行编码和解码（三种方式区别）
Javascript语言用于编码的函数,一共有三个,最古老的一个就是escape().虽然这个函数现在已经不提倡使用了,但是由于历史原因,很多地方还在使用它,所以有必要先从它讲起. escape 和 ...
HTML空格符号 nbsp; ensp; emsp; 介绍以及实现中文对齐的方法
一:不同空格符合的区别半角的不断行的空白格(推荐使用) 半角的空格全角的空格详细的含义: :这是我们使用最多的空格,也就是按下space键产生的空格.在HTML中,如果你用空格 ...
解决ui-router路由监听$stateChangeStart、$stateChangeSuccess、$stateChangeError不执行的问题
问题解答 angular1项目导入ui-router之后,使用路由监听,代码如下 angular.module('app', ['ui.router', 'ui.router.state.events ...
动态的根据一个资源名获得到对应的资源id
在做项目的过程中,遇到了一个需求,在Android代码里可以通过图片的ID动态加载图片.要加载Android文件夹里面的图片,我们就要知道它的ID,要动态获取,那么就得动态获取图片的ID. 那么应该怎 ...
Python 标准类库-数据类型之copy-深拷贝浅拷贝操作
标准类库-数据类型之copy-深拷贝浅拷贝操作 by:授客 QQ:1033553122 Python中赋值并不会拷贝对象,只是创建目标和对象的绑定关系. copy.copy(x) 返回x的浅拷贝 ...

试验一下Golang 网络爬虫框架gocolly/colly

试验一下Golang 网络爬虫框架gocolly/colly的更多相关文章

随机推荐

热门专题