Go 和 Colly笔记
Colly是Go下功能比较完整的一个HTTP客户端工具.
安装
Win10
下载zip包, 直接解压至c:根目录. 如果不打算直接命令行使用, 可以不配置环境变量
Ubuntu
下载tar.gz, 解压至/opt, 可以不配置环境变量
Golang里的协程同步(等价于Java中的锁)
Mutex
在Go程序中为解决Race Condition和Data Race问题, 使用Mutex来锁定资源只能同时被一个协程调用, 通过 &sync.Mutex() 创建一个全局变量, 在子方法里面通过Lock()和Unlock()锁定和释放资源. 注意defer关键字的使用.
import (
"strconv"
"sync"
) var myBalance = &balance{amount: 50.00, currency: "GBP"} type balance struct {
amount float64
currency string
mu sync.Mutex
} func (b *balance) Add(i float64) {
b.mu.Lock()
b.amount += i
b.mu.Unlock()
} func (b *balance) Display() string {
b.mu.Lock()
defer b.mu.Unlock()
return strconv.FormatFloat(b.amount, 'f', 2, 64) + " " + b.currency
}
读写锁使用RWMutex, 在Mutex的基础上, 增加了RLock()和RUnlock()方法. 在Lock()时依然是互斥的, 但是RLock()与RLock()之间不互斥
import (
"strconv"
"sync"
) var myBalance = &balance{amount: 50.00, currency: "GBP"} type balance struct {
amount float64
currency string
mu sync.RWMutex
} func (b *balance) Add(i float64) {
b.mu.Lock()
b.amount += i
b.mu.Unlock()
} func (b *balance) Display() string {
b.mu.RLock()
defer b.mu.RUnlock()
return strconv.FormatFloat(b.amount, 'f', 2, 64) + " " + b.currency
}
Channel
Channel类似于Java中的Semaphore, 通过设置channel容量限制同时工作的协程数, channel满了之后协程会被阻塞
package main import (
"fmt"
"time"
"strconv"
) func makeCakeAndSend(cs chan string) {
for i := 1; i<=3; i++ {
cakeName := "Strawberry Cake " + strconv.Itoa(i)
fmt.Println("Making a cake and sending ...", cakeName)
cs <- cakeName //send a strawberry cake
}
} func receiveCakeAndPack(cs chan string) {
for i := 1; i<=3; i++ {
s := <-cs //get whatever cake is on the channel
fmt.Println("Packing received cake: ", s)
}
} func main() {
cs := make(chan string)
go makeCakeAndSend(cs)
go receiveCakeAndPack(cs) //sleep for a while so that the program doesn’t exit immediately
time.Sleep(4 * 1e9)
}
可以设置channel的容量
c := make(chan Type, n)
Go的语法
Go的语法简介, 这一篇写得很好 https://zhuanlan.zhihu.com/p/98556883
Go语言的点括号语法
对于下面的语句
mpl := playlist.(*m3u8.MediaPlaylist)
表示将前面的对象转为 *m3u8.MediaPlaylist 类型,
这种类型转换用于在前面的表达式返回的结果存在多种可能时, 需要在使用前对类型进行固定. 也可以用于类型查询.
# 查询接口指向的对象实例是否是*MyStruct类型
if v1.(*MyStruct) # 查询接口指向的对象实例是否实现了MyInterface接口,要在运行期确定
if v2.(MyInterface)
又如
func DecodeWith(input interface{}, strict bool, customDecoders []CustomDecoder) (Playlist, ListType, error) {
switch v := input.(type) {
case bytes.Buffer:
return decode(&v, strict, customDecoders)
case io.Reader:
buf := new(bytes.Buffer)
_, err := buf.ReadFrom(v)
if err != nil {
return nil, 0, err
}
return decode(buf, strict, customDecoders)
default:
return nil, 0, errors.New("input must be bytes.Buffer or io.Reader type")
}
}
调用
f, err := os.Open(testCase.src)
if err != nil {
t.Fatal(err)
}
p, listType, err := DecodeWith(bufio.NewReader(f), true, testCase.customDecoders)
强制类型转换语法检测是否实现接口
_ Error = (*_Error)(nil)
这个一个强制类型转换语法检测是否实现接口的功能,nil就是空指针地址就是0,一个变量是具有类型和地址两个属性,强制类型转换只修改了类型,但是地址是原来那个(例如是nil),这样的转换的变量不用分配地址。例如下列代码:
var _ Context = (*ContextBase)(nil)
nil的类型是nil, 地址值为0,利用强制类型转换成了*ContextBase,返回的变量就是类型为*ContextBase地址值为0,然后Context=xx赋值, 如果xx实现了Context接口就没事,如果没有实现在编译时期就会报错,实现编译期间检测接口是否实现。
参考: golang中的四种类型转换总结 https://segmentfault.com/a/1190000022255009
Go的接口和实现类
Go代码中使用interface关键字标识一个接口定义,例如
type Device interface {
Flush() error // flush all previous writes to the device
MTU() (int, error) // returns the MTU of the device
Name() (string, error) // fetches and returns the current name
Events() chan Event // returns a constant channel of events related to the device
Close() error // stops the device and closes the event channel
}
但是对于这个接口的实现类,并不显式地声明与这个接口的关系,只要是实现了这些方法的结构体,都可以看作是这个接口的实现类
type NativeTun struct {
name string
tunFile *os.File
events chan Event
errors chan error
routeSocket int
} func (tun *NativeTun) Name() (string, error) {
var name string
...
return name, nil
} func (tun *NativeTun) File() *os.File {
return tun.tunFile
} func (tun *NativeTun) Events() chan Event {
return tun.events
} func (tun *NativeTun) Read(buff []byte, offset int) (int, error) {
select {
case err := <-tun.errors:
...
}
}
Go函数的不定参数
Go中可以使用不定参数, 如果有多个参数, 不定参数必须是参数列表中的最后一个
func showName(a ...string) {
name := strings.Join(a," ")
fmt.Println(name)
}
使用不定参数时, 可以传入该类型切片的展开形式, 但是如果传入的是展开形式, 则其前后都不能再添加同类型参数, 例如
func main() {
name := []string{"11","22","33"}
showName(name...)
} func showName(a ...string) {
fmt.Println(strings.Join(a," "))
}
如果对showName(a ...string) 使用showName("test", name...) 或 showName(name..., "test")都会报语法错误.
但是对于func New(ctx context.Context, opts ...Option) (host.Host, error) , 可以使用 New(context.Background(), opts...)
如果在函数内修改了切片内的元素, 会影响到原切片.
Go 教程
网络编程 https://tumregels.github.io/Network-Programming-with-Go/
Go常用Package
time
用法详解 https://juejin.im/post/5ae32a8651882567105f7dd3
使用GoLand作为开发环境
GOROOT: go目录放到了/opt/go, 所以GOROOT默认指向的也是/opt/go
GOPATH: 在Settings->Go->GOPATH里Global GOPATH留空,设置项目的GOPATH, 指向 /home/milton/WorkGo
GOPROXY: 在Settings->Go->Go Modules下, 设置 Environments, GOPROXY=https://goproxy.cn
在GoLand内部的Terminal里查看环境变量, 命令 go env, 确认路径无误, 然后执行以下命令安装
# v1
go get -u github.com/gocolly/colly # v2
go get -u github.com/gocolly/colly/v2
下载项目依赖
# 在项目目录下运行
go mod download
基础使用
增加import
import "github.com/gocolly/colly/v2"
调用
func main() {
// Instantiate default collector
c := colly.NewCollector(
// Visit only domains: hackerspaces.org, wiki.hackerspaces.org
colly.AllowedDomains("hackerspaces.org", "wiki.hackerspaces.org"),
) // On every a element which has href attribute call callback
c.OnHTML("a[href]", func(e *colly.HTMLElement) {
link := e.Attr("href")
// Print link
fmt.Printf("Link found: %q -> %s\n", e.Text, link)
// Visit link found on page
// Only those links are visited which are in AllowedDomains
c.Visit(e.Request.AbsoluteURL(link))
}) // Before making a request print "Visiting ..."
c.OnRequest(func(r *colly.Request) {
fmt.Println("Visiting", r.URL.String())
}) // Start scraping on https://hackerspaces.org
c.Visit("https://hackerspaces.org/")
}
使用代理池
参考文档中的例子 http://go-colly.org/docs/examples/proxy_switcher/ 这里的例子要注意两个问题
1. 初始化时, 需要设置AllowURLRevisit, 否则在访问同一URL时会直接跳过返回之前的结果
c := colly.NewCollector(colly.AllowURLRevisit())
2. 还需要设置禁用KeepAlive, 否则在多次访问同一网址时, 只会调用一次GetProxy, 这样达不到轮询代理池的效果, 相关信息 #392, #366 , #339
c := colly.NewCollector(colly.AllowURLRevisit()) c.WithTransport(&http.Transport{
DisableKeepAlives: true,
})
Go 和 Colly笔记的更多相关文章
- golang学习笔记17 爬虫技术路线图,python,java,nodejs,go语言,scrapy主流框架介绍
golang学习笔记17 爬虫技术路线图,python,java,nodejs,go语言,scrapy主流框架介绍 go语言爬虫框架:gocolly/colly,goquery,colly,chrom ...
- git-简单流程(学习笔记)
这是阅读廖雪峰的官方网站的笔记,用于自己以后回看 1.进入项目文件夹 初始化一个Git仓库,使用git init命令. 添加文件到Git仓库,分两步: 第一步,使用命令git add <file ...
- js学习笔记:webpack基础入门(一)
之前听说过webpack,今天想正式的接触一下,先跟着webpack的官方用户指南走: 在这里有: 如何安装webpack 如何使用webpack 如何使用loader 如何使用webpack的开发者 ...
- SQL Server技术内幕笔记合集
SQL Server技术内幕笔记合集 发这一篇文章主要是方便大家找到我的笔记入口,方便大家o(∩_∩)o Microsoft SQL Server 6.5 技术内幕 笔记http://www.cnbl ...
- PHP-自定义模板-学习笔记
1. 开始 这几天,看了李炎恢老师的<PHP第二季度视频>中的“章节7:创建TPL自定义模板”,做一个学习笔记,通过绘制架构图.UML类图和思维导图,来对加深理解. 2. 整体架构图 ...
- PHP-会员登录与注册例子解析-学习笔记
1.开始 最近开始学习李炎恢老师的<PHP第二季度视频>中的“章节5:使用OOP注册会员”,做一个学习笔记,通过绘制基本页面流程和UML类图,来对加深理解. 2.基本页面流程 3.通过UM ...
- NET Core-学习笔记(三)
这里将要和大家分享的是学习总结第三篇:首先感慨一下这周跟随netcore官网学习是遇到的一些问题: a.官网的英文版教程使用的部分nuget包和我当时安装的最新包版本不一致,所以没法按照教材上给出的列 ...
- springMVC学习笔记--知识点总结1
以下是学习springmvc框架时的笔记整理: 结果跳转方式 1.设置ModelAndView,根据view的名称,和视图渲染器跳转到指定的页面. 比如jsp的视图渲染器是如下配置的: <!-- ...
- 读书笔记汇总 - SQL必知必会(第4版)
本系列记录并分享学习SQL的过程,主要内容为SQL的基础概念及练习过程. 书目信息 中文名:<SQL必知必会(第4版)> 英文名:<Sams Teach Yourself SQL i ...
- 2014年暑假c#学习笔记目录
2014年暑假c#学习笔记 一.C#编程基础 1. c#编程基础之枚举 2. c#编程基础之函数可变参数 3. c#编程基础之字符串基础 4. c#编程基础之字符串函数 5.c#编程基础之ref.ou ...
随机推荐
- VSCODE中GIT配置
1.问题:无法正常提交 问题描述 *使用vscode提交就会一直卡住**. 参考方案链接:VS CODE GIT 500 问题处理-pudn.com 根据这位博主的描述,应当是设置的这里选择的默认选项 ...
- [转帖]Elasticsearch8关闭安全认证功能
https://juejin.cn/post/7203637198120878137 Elasticsearch8在默认情况下是开启安全认证的.但在开发或者简单尝试时,希望关闭它. 关闭安全认证的方式 ...
- 【转帖】【ethtool】ethtool 网卡诊断、调整工具、网卡性能优化| 解决丢包严重
目录 即看即用 详细信息 软件简介 安装 ethtool的使用 输出详解 其他指令 将 ethtool 设置永久保存 如何使用 ethtool 优化 Linux 虚拟机网卡性能 ethtool 解决网 ...
- JVM内存配置的再次思考
JVM内存配置的再次思考 摘要 最近研究过不少内存分配相关的处理 今天晚上突然感觉还不是非常系统. 还是想能够细致的在学习一下. 希望能够慢慢的拾遗,提高自己 操作系统内存的使用情况 本文主要想思考l ...
- [转帖]019 Linux tcpdump 抓包案例入门可真简单啊?
https://my.oschina.net/u/3113381/blog/5477908 1 tcpdump 是什么? tcpdump 可以将网络中传送的数据包完全截获下来提供分析.它支持针对网 ...
- [转帖] Linux命令拾遗-文本处理篇
https://www.cnblogs.com/codelogs/p/16060413.html 简介# 这是Linux命令拾遗系列的第二篇,本篇主要介绍Linux中与文本处理相关的命令,如xargs ...
- 使用shell进行简单分析增量更新时间的方法
使用shell进行简单分析增量更新时间的方法 思路 产品里面更新增量时耗时较久, 想着能够简单分析下哪些补丁更新时间久 哪些相同前缀的补丁更新的时间累积较久. 本来想通过全shell的方式进行处理 但 ...
- ESXi查看底层存储磁盘厂商型号的方式与方法
ESXi查看底层存储磁盘厂商型号的方式与方法 背景 公司一台过保的服务器出现了磁盘告警 Vendor不太靠谱. 过保的机器就不管了 不买他们的服务器也不说一下是啥硬盘. 想自己替换,需要先获取磁盘的型 ...
- mysql8 CentOS7 简要安装说明
1. 卸载mariadb rpm -qa |grep mariadb |xargs yum remove -y比较简单的卸载办法. 2. 安装所有的rpm包. yum localinstall *.r ...
- Go复合类型之数组类型
Go复合类型之数组 @ 目录 Go复合类型之数组 一.数组(Array)介绍 1.1 基本介绍 1.2 数组的特点 二.数组的声明与初始化 2.1 数组声明 2.2 常见的数据类型声明方法 2.3 数 ...