[GO]并的爬取捧腹的段子

package main

import (

    "fmt"

    "strconv"

    "net/http"

    "regexp"

    "strings"

    "os"

)

//地址的规律

//第一页：https://www.pengfu.com/xiaohua_1.html

//第二页：https://www.pengfu.com/xiaohua_2.html

//第三页：https://www.pengfu.com/xiaohua_3.html

//查看每个页面的源码，可以看到标题的“<h1 class="dp-b"><a href="”有10个,它的实际搜索条件为<h1 class="dp-b"><a href="段子的地址"

//进行到段子的地址后，有两个h1，就是标题，但是我在使用的时候发现网页里有两个地方使用了h1的标签，后面过滤一下，只

//可能过滤到两个，只取一个

//内容开头<div class="content-txt pt10"> 结尾<a id="prev" href="https://www.pengfu.com/content_1850587_1.html"></a>

func HttpGet(url string) (result string, err error) {

    resp, err1 := http.Get(url)

    if err1 != nil {

        err = err1

        return

    }

    defer resp.Body.Close()  //关闭

    //读取网络内容

    buf := make([]byte, *)

    for true {

        n, _ := resp.Body.Read(buf)

        if n ==  {

            break

        }

        result += string(buf[:n])//累加读取的内容

    }

    return

}

func SpiderOneJoy(url string) (title, content string, err error) {

    //爬取页面内容

    result, err1 := HttpGet(url)

    if err1 != nil {

        fmt.Println("SpiderOneJoy HttpGet err = ", err)

        err = err1

        return

    }

    //取关键信息，标题

    re1 := regexp.MustCompile(`<h1>(.*?)</h1>`)

    if re1 == nil {

        err = fmt.Errorf("%s", "SpiderOneJoy regexp.MustCompile err ")

        return

    }

    //取内容

    tmpTitle := re1.FindAllStringSubmatch(result, )//因为我只过滤第一个内容

    for _, data := range tmpTitle{

        title = data[]

        title = strings.Replace(title, "\r", "", -)

        title = strings.Replace(title, "\n", "", -)

        title = strings.Replace(title, " ", "", -)

        title = strings.Replace(title, "\t", "", -)

        break

    }

    //取关键信息，内容

    re2 := regexp.MustCompile(`<div class="content-txt pt10">(?s:(.*?))<a id="prev" href="`)

    if re2 == nil {

        err = fmt.Errorf("%s", "SpiderOneJoy regexp.MustCompile err ")

        return

    }

    //取内容

    tmpContent := re2.FindAllStringSubmatch(result, -)

    for _, data := range tmpContent{

        content = data[]

        content = strings.Replace(content, "\r", "", -)

        content = strings.Replace(content, "\n", "", -)

        content = strings.Replace(content, " ", "", -)

        content = strings.Replace(content, "\t", "", -)

        content = strings.Replace(content, "\t", "", -)

        content = strings.Replace(content, "<br>", "", -)

        content = strings.Replace(content, "<br/>", "", -) //这种方式不太好，肯定有更好的办法

        break

    }

    return

}

func StoreJoyToFile(i int, fileTitile, fileContent []string) {

    //新建文件

    f, err := os.Create(strconv.Itoa(i) + ".txt")

    if err != nil {

        fmt.Println("os.Create err = ", err)

        return

    }

    defer f.Close()

    //写内容

    n := len(fileTitile)

    for i := ; i < n; i++{

        //写标题

        f.WriteString(fileTitile[i] + "\n")

        //写内容

        f.WriteString(fileContent[i] + "\n")

        f.WriteString("--------------------------------------\n")

    }

}

func SpiderPage(i int, page chan <- int)  {

    url := "https://www.pengfu.com/xiaohua_" + strconv.Itoa(i) + ".html"

    fmt.Printf("正在爬取%s\n", url)

    //爬取页面内容

    result, err := HttpGet(url)

    if err != nil {

        fmt.Println("HttpGet err = ", err)

        return

    }

    //fmt.Println("r = ", result)

    //取内容<h1 class="dp-b"><a href="”有10个,它的实际搜索条件为<h1 class="dp-b"><a href="段子的地址"，这里只需要地址内容

    re := regexp.MustCompile(`<h1 class="dp-b"><a href="(.*?)"`)

    if re == nil {

        fmt.Println("regexp.MustCompile err ")

        return

    }

    //解析表达式、并取关键信息

    joyUrls := re.FindAllStringSubmatch(result, -)

    fileTitle := make([]string, )

    fileContent := make([]string, )

    //fmt.Println("url = ", joyUrls)

    //取网址,遍历后第一个返回下标，这里不要，第二个返回内容

    for _, data := range joyUrls{

        fmt.Println("data = ", data[])

        //爬取每一个段子

        title, content, err := SpiderOneJoy(data[])//它应该返回标题和内容，并可能会有报错，共三个返回值

        if err != nil {

            fmt.Println("SpiderOneJoy err ", err)

            continue

        }

        //fmt.Printf("title = #%v#\n", title)//使用这种方式打印就能看到结果里是否包含一些空格

        //fmt.Printf("content = #%v#\n", content)

        fileTitle = append(fileTitle, title) //将所有的标题放在一个切片里

        fileContent = append(fileContent, content) //将所有的内容放在一个内容里

    }

    //将内容写入到文件

    StoreJoyToFile(i, fileTitle, fileContent)

    page <- i //告诉程序是哪一页爬完了

}

func DoWork(start, end int)  {

    fmt.Printf("准备爬取第%d页到第%d页的网址\n", start, end)

    page := make(chan int)

    for i:=start; i<=end; i++ {

        //定义一个函数，爬主页面

        go SpiderPage(i, page)

    }

    for i:=start; i<=end; i++ {

        fmt.Printf("第%d个页面爬取完成", <-page)

    }

}

func main() {

    var start, end int

    fmt.Printf("请输入起始页>=1：> ")

    fmt.Scan(&start)

    fmt.Printf("请输入结束页：> ")

    fmt.Scan(&end)

    DoWork(start, end)

}

[GO]并的爬取捧腹的段子的更多相关文章

python3制作捧腹网段子页爬虫
0x01 春节闲着没事(是有多闲),就写了个简单的程序,来爬点笑话看,顺带记录下写程序的过程.第一次接触爬虫是看了这么一个帖子,一个逗逼,爬取煎蛋网上妹子的照片,简直不要太方便.于是乎就自己照猫画虎, ...
Python爬虫实战三之爬取嗅事百科段子
一.前言俗话说,上班时间是公司的,下班了时间才是自己的.搞点事情,写个爬虫程序,每天定期爬取点段子,看着自己爬的段子,也是一种乐趣. 二.Python爬取嗅事百科段子 1.确定爬取的目标网页首先我 ...
Python爬虫-爬取糗事百科段子
闲来无事,学学python爬虫. 在正式学爬虫前,简单学习了下HTML和CSS,了解了网页的基本结构后,更加快速入门. 1.获取糗事百科url http://www.qiushibaike.com/h ...
python学习（十六）写爬虫爬取糗事百科段子
原文链接:爬取糗事百科段子利用前面学到的文件.正则表达式.urllib的知识,综合运用,爬取糗事百科的段子先用urllib库获取糗事百科热帖第一页的数据.并打开文件进行保存,正好可以熟悉一下之前学过 ...
Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致 ...
8.Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
爬虫——URL模块爬取糗事百科段子
最简单的爬取网页找有用信息,难点应该是正则锁定有用信息部分,看了一些其他大神的正则,最后还是决定按照自己理解写一个,果然我头脑相对简单,写出来的粗糙而易理解,也完成了自己想要的需求,就这样了~ # - ...
python爬取糗事百科段子
初步爬取糗事百科第一页段子(发布人,发布内容,好笑数和评论数) #-*-coding:utf--*- import urllib import urllib2 import re page = url ...

随机推荐

spi驱动框架全面分析，从master驱动到设备驱动
内核版本:linux2.6.32.2 硬件资源:s3c2440 参考: 韦东山SPI视频教程内容概括: 1.I2C 驱动框架回顾 2.SPI 框架简单介绍 3.maste ...
canvas之画一条线段
var canvas=document.getElementById("canvas"); //设置绘图环境 var cxt=canvas.getContext('2d'); // ...
Java复习——枚举与注解
枚举枚举就是让某些变量的取值只能是若干固定值中的一个,否则编译器就会报错,枚举可以让编译器在编译阶段就控制程序的值,这一点是普通变量无法实现的.枚举是作为一种特殊的类存在的,使用的是enum关键字修 ...
JavaScript实现排序算法总结
<script type="text/javascript" src="js/laydate.js" > //插入排序 function inser ...
【转】BMR(Block Media Recovery)
关于RMAN的块恢复.Block是oracle数据库最小恢复单位.鉴于此,BMR可以大大缩短恢复的时间,另外,在进行BMR时不需要停掉数据库,可以直接在数据库open状态对数据文件进行恢复,只是需要恢 ...
判断和调整library cache,data dictionary cache,buffer cache性能
Oracle SGA是oracle的内存结构,存放着oracle通过oracle进程读写的内存数据.sga分为好多组件,比如shared pool,buffer cache,redo log buff ...
sql server xml 截断
c#读取 sql生成的xml时,发生阶段. 加,type 解决
SharePoint 事件 2137 / 2138 ：SharePoint 运行状况分析器检测到错误。驱动器的可用空间不足。
转自MSDN:http://technet.microsoft.com/zh-cn/library/ff805057.aspx 摘要:服务器场中的一个或多个服务器上的磁盘驱动器的可用空间不足. 注意: ...
在php中设置PHPSESSID的httponly属性
ThinkPHP3.0完全开发手册 19.1 Session: 支持默认情况下,初始化之后系统会自动启动session. 如果不希望系统自动启动session的话,可以设置SESSION_AUTO_S ...
17_java之Integer|System|Arrays|Math|BigInteger|BigDecimal
01基本数据类型对象包装类概述 *A:基本数据类型对象包装类概述 *a.基本类型包装类的产生在实际程序使用中,程序界面上用户输入的数据都是以字符串类型进行存储的.而程序开发中,我们需要把字符串数据, ...

[GO]并的爬取捧腹的段子

[GO]并的爬取捧腹的段子的更多相关文章

随机推荐

热门专题