一、写在前面

  其实早就该写这一篇博客了,为什么一直没有写呢?还不是因为忙不过来(实际上只是因为太懒了)。不过好了,现在终于要开始写这一篇博客了。在看这篇博客之前,可能需要你对 Go 这门语言有些基本的了解,比如基础语法之类的。话不多说,进入正题。

二、Go 环境配置

1.安装配置

  在学习一门语言时,第一步就是环境配置了,Go 也不例外,下面就是 Windows 下 Go 开发环境的配置过程了。

  首先你需要下载 Go 的安装包,可以打开 Go 语言中文网下载,地址为:https://studygolang.com/dl

  下载完成后打开安装(例如安装到 E:\Go 目录),然后配置环境变量,将安装目录下的 bin 目录路径加入环境变量中。这一步完成后打开命令行,输入 go version,若出现版本信息则表明配置成功。

2.配置 GOPATH 和 GOROOT

  除了要将 bin 目录加入到环境变量中,还要配置 GOPATH 和 GOROOT,步骤如下:

  在用户变量中新建变量 GOPATH:

  

  在系统变量中新建变量 GOROOT:

  

3. 选择 IDE

  在 IDE 的选择上,我比较推荐使用 jetbrains 家的 GoLand,功能强大,使用起来也很方便。

三、下载网页

  下载网页使用的是 Go 中原生的 http 库,在使用前需要导包,和 Python 一样用 import 导入即可。如果要发送 GET 请求,可以直接使用 http 中的 Get() 方法,例如:

 package main

 import (
"fmt"
"net/http"
) func main () {
html, err := http.Get("https://www.baidu.com/")
if err != nil {
fmt.Println(err)
}
fmt.Println(html)
}

  Get() 方法有两个返回值,html 表示请求的结果,err 表示错误,这里必须对 err 做判断,Go 语言的错误机制就是这样,这里不多做解释。

  这么用起来确实很简单,但是不能自己设置请求头,如果要构造请求头的话可以参考下面的例子:

 req, _ := http.NewRequest("GET", url, nil)
// Set User-Agent
req.Header.Add("UserAgent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36")
client := &http.Client{}
resp, err := client.Do(req)

四、解析网页

1.解析库选择

  Go 语言中可以用来解析网页的库也是很齐全的,XPath、CSS 选择器和正则表达式都能用。这里我用的是 htmlquery,这个库使用的是 Xpath 选择器。htmlquery 是用于 HTML 的 XPath 数据提取库,可通过 XPath 表达式从 HTML 文档中提取数据。Xpath 语法就不提了,毕竟用 Python 写爬虫的时候没少用。

  先说下 htmlquery 的安装吧,一般会推荐你使用如下命令安装:

go get github.com/antchfx/htmlquery

  但是你懂的,出于某些原因就下载不下来,怎么办呢?对于这种能在 GitHub 上找到的库直接 clone 到本地就行了,记得要复制到你的 GOAPTH 下

2.使用 htmlquery

  在使用 htmlquery 这个库的时候,可能会报错说缺少 golang.org\x\text,和上面的解决办法一样,去 GitHub 上找,然后 clone 下来。

  下面是 htmlquery 中经常使用的方法及相应含义:

func Parse(r io.Reader) (*html.Node, error):  返回给定 Reader 的 HTML 的解析树。

func Find(top *html.Node, expr string) []*html.Node: 搜索与指定 XPath 表达式匹配的 html.Node。

func FindOne(top *html.Node, expr string) *html.Node: 搜索与指定 XPath 表达式匹配的 html.Node,并返回匹配的第一个元素,可简单理解为 FindOne = Find[0]

func InnerText(n *html.Node) string: 返回对象的开始和结束标记之间的文本。
 
func SelectAttr(n *html.Node, name string) (val string): 返回指定名称的属性值。

func OutputHTML(n *html.Node, self bool) string: 返回包含标签名称的文本。

  下面是使用 htmlquery 解析网页的代码:

 // Used to parse html
func parse(html string) {
// Parse html
root, _ := htmlquery.Parse(strings.NewReader(html))
titleList := htmlquery.Find(root, `//*[@id="post_list"]/div/div[2]/h3/a/text()`)
hrefList := htmlquery.Find(root, `//*[@id="post_list"]/div/div[2]/h3/a/@href`)
authorList := htmlquery.Find(root, `//*[@id="post_list"]/div/div[2]/div/a/text()`) // Traverse the result
for i := range titleList {
blog := BlogInfo{}
blog.title = htmlquery.InnerText(titleList[i])
blog.href = htmlquery.InnerText(hrefList[i])
blog.author = htmlquery.InnerText(authorList[i])
fmt.Println(blog)
}
}

  需要注意的是由于在 Go 语言中不支持使用单引号来表示字符串,而要使用反引号“`”和双引号来表示字符串。然后因为 Find() 方法返回的是一个数组,因而需要遍历其中每一个元素,使用 for 循环遍历即可。在 for 循环中使用到的 BlogInfo 是一个结构体,表示一个博客的基本信息,定义如下:

 // Used to record blog information
type BlogInfo struct {
title string
href string
author string
}

五、Go 并发

    在 Go 语言中使用 go 关键字开启一个新的 go 程,也叫 goroutine,开启成功之后,go 关键字后的函数就将在开启的 goroutine 中运行,并不会阻塞当前进程的执行,所以要用 Go 来写并发还是很容易的。例如:

 baseUrl := "https://www.cnblogs.com/"
for i := 2; i < 4; i ++ {
url := baseUrl + "#p" + strconv.Itoa(i)
// fmt.Println(url)
go request(url)
} // Wait for goroutine
time.Sleep(2 * time.Second)
request(baseUrl)

  这里除了在主进程中有一个 request(),还开启了两个 go 程来执行 request()。不过要注意的是,一旦主进程结束,其余 Go 程也会结束,所以我这里加了一个两秒钟的等待时间,用于让 Go 程先结束。

六、体验总结

  由于我本身才刚开始学习 Go,就还有很多东西没有学到,所以这个初体验其实还有很多没写到的地方,比如数据保存,去重问题等等,后面会去多看看 Go 的官方文档。当然了,对我来说,要写爬虫的话还是会用 Python 来写的,不过还是得花时间学习新知识,比如使用 Go 做开发,熟悉掌握 Go 语言就是我的下一目标了。

  完整代码已上传到 GitHub

【Go 入门学习】第一篇关于 Go 的博客--Go 爬虫初体验的更多相关文章

  1. VHDL语法入门学习第一篇

    1. 现在先遇到一个VHDL的语法问题,以前没用过VHDL,现在要去研究下,进程(PROCESS) 进程内部经常使用IF,WAIT,CASE或LOOP语句.PROCESS具有敏感信号列表(sensit ...

  2. LAUNCHXL-28379D入门学习-第一篇

    1. 首先安装controlSUITE或者C2000ware软件,TI官网下载,安装后包括C2000的函数库和例程之类的,还可以和CCS搭配使用.controlSUITE安装完之后大约4个G,所以我安 ...

  3. Python入门学习笔记4:他人的博客及他人的学习思路

    看其他人的学习笔记,可以保证自己不走弯路.并且一举两得,即学知识又学方法! 廖雪峰:https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958 ...

  4. Entity Framework 6.0 入门系列 第一篇

    Entity Framework 6.0 入门系列 第一篇 好几年前接触过一些ef感觉不是很好用,废弃.但是 Entity Framework 6.0是经过几个版本优化过的产物,性能和功能不断完善,开 ...

  5. LINQ to XML LINQ学习第一篇

    LINQ to XML LINQ学习第一篇 1.LINQ to XML类 以下的代码演示了如何使用LINQ to XML来快速创建一个xml: public static void CreateDoc ...

  6. 从.Net到Java学习第一篇——开篇

    以前我常说,公司用什么技术我就学什么.可是对于java,我曾经一度以为“学java是不可能的,这辈子不可能学java的.”结果,一遇到公司转java,我就不得不跑路了,于是乎,回头一看N家公司交过社保 ...

  7. Elasticsearch7.X 入门学习第一课笔记----基本概念

    原文:Elasticsearch7.X 入门学习第一课笔记----基本概念 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https: ...

  8. Java并发包下锁学习第一篇:介绍及学习安排

    Java并发包下锁学习第一篇:介绍及学习安排 在Java并发编程中,实现锁的方式有两种,分别是:可以使用同步锁(synchronized关键字的锁),还有lock接口下的锁.从今天起,凯哥将带领大家一 ...

  9. JVM学习第一篇思考:一个Java代码是怎么运行起来的-上篇

    JVM学习第一篇思考:一个Java代码是怎么运行起来的-上篇 作为一个使用Java语言开发的程序员,我们都知道,要想运行Java程序至少需要安装JRE(安装JDK也没问题).我们也知道我们Java程序 ...

随机推荐

  1. 再谈Transaction——MySQL事务处理分析

    MySQL 事务基础概念/Definition of Transaction 事务(Transaction)是访问和更新数据库的程序执行单元;事务中可能包含一个或多个 sql 语句,这些语句要么都执行 ...

  2. Qt5教程: (1) Hello World 程序

    1. 新建工程 在Welcome界面选择New Project --> Application --> Qt Widgets Application --> Choose 输入工程名 ...

  3. Web前端助手-功能丰富的Chrome插件

    整合优秀的前端实用工具.免费,可配置的强大工具集 示例 安装 github仓库: https://github.com/zxlie/FeHelper 官网地址:https://www.baidufe. ...

  4. [Luogu3069][USACO13JAN]牛的阵容Cow Lineup

    题目描述 Farmer John's N cows (1 <= N <= 100,000) are lined up in a row. Each cow is identified by ...

  5. HDU 1506 Largest Rectangle in a Histogram(区间DP)

    题目网址:http://acm.hdu.edu.cn/showproblem.php?pid=1506 题目: Largest Rectangle in a Histogram Time Limit: ...

  6. docker-以安装软件的方式介绍docker部分命令的使用

    [root@ipha-dev71- docker]# docker search python # 搜索镜像 [root@ipha-dev71- docker]# docker pull centos ...

  7. Spring 基础知识学习

    Spring 总结 在Spring框架的发布版本中,共包含了20个不同的模块,可以划分为6类不同的功能. Spring整体架构图 为了降低Java开发的复杂性,Spring采取了以下4种关键策略: 基 ...

  8. Dubbo 在 K8s 下的思考

    作者 | 曹胜利  Apache Dubbo PMC 导读:Dubbo 作为高性能 Java RPC 框架的刻板印象早已深入人心,在 Cloud Native 的架构选型上,Spring Cloud ...

  9. Leetcode(9)回文数

    Leetcode(9)回文数 [题目表述]: 判断一个整数是否是回文数.回文数是指正序(从左向右)和倒序(从右向左)读都是一样的整数. 第一次:直接全部转 执行用时:148 ms: 内存消耗:13.4 ...

  10. Nmap渗透测试使用方法

    Nmap渗透测试使用方法 目标选择2 端口选择2 操作系统和服务检测2 Nmap输出格式2 用NSE脚本深入挖掘2 HTTP服务信息3 检测SSL漏洞问题的主机3 设备扫描3 按VNC扫描5 按SMB ...