学习地址：

https://www.bilibili.com/video/BV1Nt411H7sP?p=4

目录站：

https://tieba.baidu.com/f?kw=绝地求生&ie=utf-8&pn=0

https://tieba.baidu.com/f?kw=绝地求生&ie=utf-8&pn=50

https://tieba.baidu.com/f?kw=绝地求生&ie=utf-8&pn=100

爬虫概念：

访问ｗｅｂ服务器，获取指定数据信息的一段程序．

工作流程：

明确目标Url．
发送请求，获取应答数据包．
保存，过滤数据．提取有用信息．
使用，分析得到数据信息．

百度贴吧爬虫实现：

go实战代码

单进程

实现过程：

提示用户指定起始，终止页．创建working函数．
使用start,end循环爬取每一页数据．
获取第一页的ｕｒｌ--下一页＝前一页＋５０．
封闭实现HttpGet()函数，爬取一个网页的数据内容，通过result返回．

httpGet/resp.Body.Close/buf:=make(4096)/for
创建.html文件．使用循环因子i命名．
将result写入文件WriteString(result)．f.close() 不推荐使用defer.

package main

import (

	"fmt"

	"io"

	"net/http"

	"os"

	"strconv"

)

// HttpGet ...

func HttpGet(url string) (result string, err error) {

	resp, err1 := http.Get(url)

	if err1 != nil {

		err = err1

		return

	}

	defer resp.Body.Close()

	//循环读取网页数据，传出给调用者

	buf := make([]byte, 4096)

	for {

		n, err2 := resp.Body.Read(buf)

		if n == 0 {

			fmt.Println("读取网页完成")

			break

		}

		if err2 != nil && err2 != io.EOF {

			err = err2

			return

		}

		result += string(buf[:n])

	}

	return

}

func working(start, end int) {

	fmt.Printf("正在爬取第%d页到第%d页．．．\n", start, end)

	// 循环爬取第一页的数据

	for i := start; i <= end; i++ {

		url := "https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8&pn=" + strconv.Itoa((i-1)*50)

		result, err := HttpGet(url)

		if err != nil {

			fmt.Println("HttpGet err:", err)

			continue

		}

		// fmt.Println("result=", result)

		//将读到的整网页数据，保存为为文件

		f, err := os.Create("第 " + strconv.Itoa(i) + " 页.html")

		if err != nil {

			fmt.Println("Create err:", err)

			continue

		}

		f.WriteString(result)

		f.Close()

	}

}

func main() {

	var start, end int

	fmt.Print("请输入爬取的起始页（＞＝１）：")

	fmt.Scan(&start)

	fmt.Print("请输入爬取的终止页（＞＝start）：")

	fmt.Scan(&end)

	working(start, end)

}

并发爬取

实现过程：

package main

import (

	"fmt"

	"io"

	"net/http"

	"os"

	"strconv"

)

// HttpGet ...

func HttpGet(url string, i int) (result string, err error) {

	resp, err1 := http.Get(url)

	if err1 != nil {

		err = err1

		return

	}

	defer resp.Body.Close()

	//循环读取网页数据，传出给调用者

	buf := make([]byte, 4096)

	for {

		n, err2 := resp.Body.Read(buf)

		if n == 0 {

			fmt.Printf("正在读取第　%d 页\n", i)

			break

		}

		if err2 != nil && err2 != io.EOF {

			err = err2

			return

		}

		result += string(buf[:n])

	}

	return

}

//SpiderPage ...

func SpiderPage(i int, page chan int) {

	url := "https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8&pn=" + strconv.Itoa((i-1)*50)

	result, err := HttpGet(url, i)

	if err != nil {

		fmt.Println("HttpGet err:", err)

		return

	}

	// fmt.Println("result=", result)

	//将读到的整网页数据，保存为为文件

	f, err := os.Create("第 " + strconv.Itoa(i) + " 页．html")

	if err != nil {

		fmt.Println("Create err:", err)

		return

	}

	f.WriteString(result)

	f.Close()

	page <- i

}

func working(start, end int) {

	fmt.Printf("正在爬取第%d页到第%d页．．．\n", start, end)

	page := make(chan int)

	// 循环爬取第一页的数据

	for i := start; i <= end; i++ {

		go SpiderPage(i, page)

	}

	for i := start; i < end; i++ {

		fmt.Printf("第 %d 页都页面完成．．．\n", <-page)

	}

}

func main() {

	var start, end int

	fmt.Print("请输入爬取的起始页（＞＝１）：")

	fmt.Scan(&start)

	fmt.Print("请输入爬取的终止页（＞＝start）：")

	fmt.Scan(&end)

	working(start, end)

}

Golang 爬虫01的更多相关文章

Golang - 爬虫案例实践
目录 Golang - 爬虫案例实践 1. 爬虫步骤 2. 正则表达式 3. 并发爬取美图 Golang - 爬虫案例实践 1. 爬虫步骤明确目标(确定在哪个网址搜索) 爬(爬下数据) 取(去掉没用 ...
Golang爬虫示例包系列教程(一):pedaily.com投资界爬虫
Golang爬虫示例包文件结构自己用Golang原生包封装了一个爬虫库,源码见go get -u -v github.com/hunterhug/go_tool/spider ---- data ...
从别人的代码中学习golang系列--01
自己最近在思考一个问题,如何让自己的代码质量逐渐提高,于是想到整理这个系列,通过阅读别人的代码,从别人的代码中学习,来逐渐提高自己的代码质量.本篇是这个系列的第一篇,我也不知道自己会写多少篇,但是希望 ...
Python 开发轻量级爬虫01
Python 开发轻量级爬虫 (imooc总结01--课程目标) 课程目标:掌握开发轻量级爬虫为什么说是轻量级的呢?因为一个复杂的爬虫需要考虑的问题场景非常多,比如有些网页需要用户登录了以后才能够访 ...
Python爬虫01——第一个小爬虫
Python小爬虫——贴吧图片的爬取在对Python有了一定的基础学习后,进行贴吧图片抓取小程序的编写. 目标: 首先肯定要实现图片抓取这个基本功能然后实现对用户所给的链接进行抓取最后要有一定的 ...
Python爬虫-01：爬虫的概念及分类
目录 # 1. 为什么要爬虫? 2. 什么是爬虫? 3. 爬虫如何抓取网页数据? # 4. Python爬虫的优势? 5. 学习路线 6. 爬虫的分类 6.1 通用爬虫: 6.2 聚焦爬虫: # 1. ...
(Python爬虫01)-本想给随笔加个序号才发现这么不方便
本想给随机加个序号,才发现还得去返回看看文章的序号.好在cnblog能断点自动保存. 作为一个小程序员,点赞的同时还在想,谁知道咋实现这种实时保存呢?有知道的给个参考文档呗.太感激了! 重点在这里有 ...
之前写的关于chromedp的文章被别人转到CSDN，很受鼓励，再来一篇golang爬虫实例
示例说明:用chromedp操作chrome,导航到baidu,然后输入“美女”,然后再翻2页,在此过程中保存cookie和所有img标签内容,并保存第一页的baidu logo为png 注释已经比较 ...
爬虫01 /jupyter、爬虫概述、requests基本使用
爬虫02 /jupyter.爬虫概述.requests基本使用目录爬虫02 /jupyter.爬虫概述.requests基本使用 1. jupyter的基本使用 2. 爬虫概述 3. reques ...
python爬虫01在Chrome浏览器抓包
尽量不要用国产浏览器,很多是有后门的 chrome是首选百度按下F12 element标签下对应的HTML代码点击Network,可以看到很多请求 HTTP请求的方式有好几种,GET,POST, ...

随机推荐

KingbaseES数据目录结构
KingbaseES数据库结构 [kingbase@postgres V8]$ tree -LP 2 data/ . ├── data │ ├── base # 存储用户创建的数据库文件及隶属于用 ...
Linux——ssh登录很慢解决方法
1.背景在同一机房中,有多台安装了CentOS 7操作系统的服务器,它们的配置除了IP地址不同外基本相同.这些服务器的资源利用率都不高,但在使用SSH连接时,发现有几台服务器连接速度较慢,可能需要等 ...
C++判断操作系统位数
//判断当前系统是否为64位 BOOL Is64BitSystem() { #ifdef _WIN64 return true; #elif _WIN32 HMODULE hModule = Load ...
Python - 字典4
复制字典您不能简单地通过输入 dict2 = dict1 来复制一个字典,因为 dict2 只会成为 dict1 的引用,对 dict1 的更改也会自动应用于 dict2. 有多种方法可以复制字典, ...
CMakeLists.txt 编写模板
新建文件 CMakeLists.txt # 设置cmake的最低版本 cmake_minimum_required(VERSION 2.8) # 指定为C++11 版本 set(CMAKE_CXX ...
EZHTTP(一键安装Nginx Apache PHP MySQL Memcached Pureftpd)安装【测试ing】
EZHTTP(一键安装Nginx Apache PHP MySQL Memcached Pureftpd)安装 [复制链接] 本帖最后由梁国平于 2014-2-11 22:47 编辑简介 ...
apache 服务器配置常用知识点合集
前言因为当年周围同学都在学php,最为简单的就是学php 好就业啊,写个一些php,最后放弃了,apache也看了两眼吧.下面是我使用有记录的,没有记录的我后面会补上. 正文域名配置 1.取消 N ...
布匹瑕疵检测数据集EDA分析
分析数据集中 train 集的每个类别的 bboxes 数量分布情况.因为训练集分了两个:train1,train2.先根据两个数据集的 anno_train.json 文件分析类别分布.数据集:布匹 ...
记一次 Go 调用系统命令出现的问题分析
首先在程序中封装了下面一个函数用来执行系统命令: // 执行系统命令 func executeCommand(command string, output, outerr io.Writer) err ...
牛客网-SQL专项训练6
①要将employee 的表名更改为 employee_info,下面MySQL语句正确的是(A) 解析: RENAME用于表的重命名:RENAME <NAME>(修改表名或索引名) 或 ...

Golang 爬虫01

学习地址：

目录站：

爬虫概念：

工作流程：

百度贴吧爬虫实现：

go实战代码

单进程

实现过程：

并发爬取

实现过程：

Golang 爬虫01的更多相关文章

随机推荐

热门专题