Go语言之进阶篇爬捧腹网

1、爬捧腹网

网页规律：

https://www.pengfu.com/xiaohua_1.html 下一页 +1

https://www.pengfu.com/xiaohua_2.html

主页面规律：

<h1 class="dp-b"><a href=" 一个段子url连接 “

段子url:

<h1> 标题 </h1> 只取1个

2、爬捧腹网

示例：并发版本

package main

import (

	"fmt"

	"net/http"

	"os"

	"regexp"

	"strconv"

	"strings"

)

func HttpGet(url string) (result string, err error) {

	resp, err1 := http.Get(url) //发送get请求

	if err1 != nil {

		err = err1

		return

	}

	defer resp.Body.Close()

	//读取网页内容

	buf := make([]byte, 4*1024)

	for {

		n, _ := resp.Body.Read(buf)

		if n == 0 {

			break

		}

		result += string(buf[:n]) //累加读取的内容

	}

	return

}

//开始爬取每一个笑话，每一个段子 title, content, err := SpiderOneJoy(url)

func SpiderOneJoy(url string) (title, content string, err error) {

	//开始爬取页面内容

	result, err1 := HttpGet(url)

	if err1 != nil {

		//fmt.Println("HttpGet err = ", err)

		err = err1

		return

	}

	//取关键信息

	//取标题  <h1>  标题 </h1>  只取1个

	re1 := regexp.MustCompile(`<h1>(?s:(.*?))</h1>`)

	if re1 == nil {

		//fmt.Println("regexp.MustCompile err")

		err = fmt.Errorf("%s", "regexp.MustCompile err")

		return

	}

	//取内容

	tmpTitle := re1.FindAllStringSubmatch(result, 1) //最后一个参数为1，只过滤第一个

	for _, data := range tmpTitle {

		title = data[1]

		//		title = strings.Replace(title, "\r", "", -1)

		//		title = strings.Replace(title, "\n", "", -1)

		//		title = strings.Replace(title, " ", "", -1)

		title = strings.Replace(title, "\t", "", -1)

		break

	}

	//取内容 <div class="content-txt pt10"> 段子内容 <a id="prev" href="

	re2 := regexp.MustCompile(`<div class="content-txt pt10">(?s:(.*?))<a id="prev" href="`)

	if re2 == nil {

		//fmt.Println("regexp.MustCompile err")

		err = fmt.Errorf("%s", "regexp.MustCompile err2")

		return

	}

	//取内容

	tmpContent := re2.FindAllStringSubmatch(result, -1)

	for _, data := range tmpContent {

		content = data[1]

		content = strings.Replace(content, "\t", "", -1)

		content = strings.Replace(content, "\n", "", -1)

		content = strings.Replace(content, "\r", "", -1)

		content = strings.Replace(content, "<br />", "", -1)

		break

	}

	return

}

//把内容写入到文件

func StoreJoyToFile(i int, fileTitle, fileContent []string) {

	//新建文件

	f, err := os.Create(strconv.Itoa(i) + ".txt")

	if err != nil {

		fmt.Println("os.Create err = ", err)

		return

	}

	defer f.Close()

	//写内容

	n := len(fileTitle)

	for i := 0; i < n; i++ {

		//写标题

		f.WriteString(fileTitle[i] + "\n")

		//写内容

		f.WriteString(fileContent[i] + "\n")

		f.WriteString("\n=================================================================\n")

	}

}

func SpiderPape(i int, page chan int) {

	//明确爬取的url

	//https://www.pengfu.com/xiaohua_1.html

	url := "https://www.pengfu.com/xiaohua_" + strconv.Itoa(i) + ".html"

	fmt.Printf("正在爬取第%d个网页：%s\n", i, url)

	//开始爬取页面内容

	result, err := HttpGet(url)

	if err != nil {

		fmt.Println("HttpGet err = ", err)

		return

	}

	//fmt.Println("r = ", result)

	//取，<h1 class="dp-b"><a href=" 一个段子url连接   "

	//解释表达式

	re := regexp.MustCompile(`<h1 class="dp-b"><a href="(?s:(.*?))"`)

	if re == nil {

		fmt.Println("regexp.MustCompile err")

		return

	}

	//取关键信息

	joyUrls := re.FindAllStringSubmatch(result, -1)

	//fmt.Println("joyUrls = ", joyUrls)

	fileTitle := make([]string, 0)

	fileContent := make([]string, 0)

	//取网址

	//第一个返回下标，第二个返回内容

	for _, data := range joyUrls {

		//fmt.Println("url = ", data[1])

		//开始爬取每一个笑话，每一个段子

		title, content, err := SpiderOneJoy(data[1])

		if err != nil {

			fmt.Println("SpiderOneJoy err = ", err)

			continue

		}

		//fmt.Printf("title = #%v#", title)

		//fmt.Printf("content = #%v#", content)

		fileTitle = append(fileTitle, title)       //追加内容

		fileContent = append(fileContent, content) //追加内容

	}

	//fmt.Println("fileTitle= ", fileTitle)

	//fmt.Println("fileContent= ", fileContent)

	//把内容写入到文件

	StoreJoyToFile(i, fileTitle, fileContent)

	page <- i //写内容，写num

}

func DoWork(start, end int) {

	fmt.Printf("准备爬取第%d页到%d页的网址\n", start, end)

	page := make(chan int)

	for i := start; i <= end; i++ {

		//定义一个函数，爬主页面

		go SpiderPape(i, page)

	}

	for i := start; i <= end; i++ {

		fmt.Printf("第%d个页面爬取完成\n", <-page)

	}

}

func main() {

	var start, end int

	fmt.Printf("请输入起始页( >= 1) :")

	fmt.Scan(&start)

	fmt.Printf("请输入终止页( >= 起始页) :")

	fmt.Scan(&end)

	DoWork(start, end) //工作函数

}

执行结果：

D:\GoFiles\src\hello_01>go run get_pengfu.go

请输入起始页( >= 1) :1

请输入终止页( >= 起始页) :5

准备爬取第1页到5页的网址

正在爬取第5个网页：https://www.pengfu.com/xiaohua_5.html

正在爬取第2个网页：https://www.pengfu.com/xiaohua_2.html

正在爬取第3个网页：https://www.pengfu.com/xiaohua_3.html

正在爬取第4个网页：https://www.pengfu.com/xiaohua_4.html

正在爬取第1个网页：https://www.pengfu.com/xiaohua_1.html

第4个页面爬取完成

第3个页面爬取完成

第1个页面爬取完成

第5个页面爬取完成

第2个页面爬取完成

Go语言之进阶篇爬捧腹网的更多相关文章

Go语言之进阶篇爬百度贴吧并发版
1.爬百度贴吧并发版示例: package main import ( "fmt" "net/http" "os" "strco ...
python3制作捧腹网段子页爬虫
0x01 春节闲着没事(是有多闲),就写了个简单的程序,来爬点笑话看,顺带记录下写程序的过程.第一次接触爬虫是看了这么一个帖子,一个逗逼,爬取煎蛋网上妹子的照片,简直不要太方便.于是乎就自己照猫画虎, ...
Android实战：手把手实现“捧腹网”APP（三）-----UI实现，逻辑实现
Android实战:手把手实现"捧腹网"APP(一)-–捧腹网网页分析.数据获取 Android实战:手把手实现"捧腹网"APP(二)-–捧腹APP原型设计.实 ...
Android实战：手把手实现“捧腹网”APP（二）-----捧腹APP原型设计、实现框架选取
Android实战:手把手实现"捧腹网"APP(一)-–捧腹网网页分析.数据获取 Android实战:手把手实现"捧腹网"APP(二)-–捧腹APP原型设计.实 ...
Android实战：手把手实现“捧腹网”APP（一）-----捧腹网网页分析、数据获取
Android实战:手把手实现"捧腹网"APP(一)-–捧腹网网页分析.数据获取 Android实战:手把手实现"捧腹网"APP(二)-–捧腹APP原型设计.实 ...
go语言之进阶篇接口转换
1.go语音之进阶篇示例: package main import "fmt" type Humaner interface { //子集 sayhi() } type Pers ...
go语音之进阶篇爬百度贴吧单线程版本
一.爬什么? 1.明确目标 : 知道你准备在那个范围或者网站去搜索 2.爬: 将所有的网站的内容全部爬下来 3.取:去掉对我们没用处的数据 4.处理数据:按照我们想要的方式存储或使用二.百度贴吧小爬 ...
go语言之进阶篇通过select实现斐波那契数列
一.select作用 Go里面提供了一个关键字select,通过select可以监听channel上的数据流动. select的用法与switch语言非常类似,由select开始一个新的选择块,每个选 ...
go语言之进阶篇创建goroutine协程
1.goroutine是什么 goroutine是Go并行设计的核心.goroutine说到底其实就是协程,但是它比线程更小,十几个goroutine可能体现在底层就是五六个线程,Go语言内部帮你实现 ...

随机推荐

解决Windows10下无法对docker容器进行端口访问（端口映射的问题）
解决Windows10下无法对docker容器进行端口访问(端口映射的问题) 问题详情在Windows10系统服务器中安装了docker和docker-compose 并尝试在其中运行Nginx服务 ...
在VC++中怎样改变控件间的TAB切换顺序？
在编辑界面按下ctrl+D键,就会出现所有控件的Tab键顺序,按照自己想要的顺序依次点击控件,就可以重新安排顺序.
慎重使用volatile关键字
volatile关键字相信了解Java多线程的读者都很清楚它的作用.volatile关键字用于声明简单类型变量,如int.float.boolean等数据类型.如果这些简单数据类型声明为volatil ...
[ 转载 ] Http详解
HTTP简介 HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送 ...
android studio svn 创建分支
创建分支或标签从哪里复制工作副本用这个变体去创建分支,并带着当地的改变.通常,服务项将被添加带历史 , 不仅仅只有目标目录. 每个不同于根的版本文件 ,将被指定的复制.它推荐去更新工作副本 ...
5969 [AK]刻录光盘
题目描述 Description • 在FJOI2010夏令营快要结束的时候,很多营员提出来要把整个夏令营期间的资料刻录成一张光盘给大家,以便大家回去后继续学习.组委会觉得这个主意不错!可是组委会一时 ...
BZOJ2160: 拉拉队排练
Description 艾利斯顿商学院篮球队要参加一年一度的市篮球比赛了.拉拉队是篮球比赛的一个看点,好的拉拉队往往能帮助球队增加士气,赢得最终的比赛.所以作为拉拉队队长的楚雨荨同学知道,帮助篮球队训 ...
(69)Wangdao.com第十一天_JavaScript 指定函数对象的 this 上下文对象
指定函数对象的 this 上下文对象即调用函数对象的 .call() 或者 .apply() 方法指定 this 指向指定的对象. function myFun(){ document.write ...
国外IOS UI指南
国外IOS UI指南众所周知,IOS的界面设计,越来越流行,可以说都形成了一个标准,搜集了一些资料,供自己以后学习使用! iOS Human Interface Guidelines (中文翻译) ...
NodeJS下的Mongodb操作
今天用Node写一个小程序中需要用到数据库操作,试用了一下,发现官方的驱动已经非常好用了,也支持async. 一个简单的实例如下: const MongoClient = require('mongo ...

Go语言之进阶篇爬捧腹网

Go语言之进阶篇爬捧腹网的更多相关文章

随机推荐

热门专题