[GO]百度贴吧的爬虫

package main

import (

    "fmt"

    "strconv"

    "net/http"

    "os"

    "io"

)

//百度贴吧的地址规律

//第一页:https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8(&pn=0)

//第二页:https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8&pn=50

//第三页:https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8&pn=100

//所以它的最后的数字每加50,代表着下一页

//整体提取的思路：

//1、先拿地址

//2、爬

//3、取

//4、存

func HttpGet(url string) (result string, err error) {

    resp, err1 := http.Get(url)

    if err != nil {

        err = err1

        return

    }

    defer resp.Body.Close()

    //读取网页的body内容

    buf := make([]byte, *)

    for true {

        n, err := resp.Body.Read(buf)

        if err != nil {

            if err == io.EOF{

                fmt.Println("文件读取完毕")

                break

            }else {

                fmt.Println("resp.Body.Read err = ", err)

                break

            }

        }

        result += string(buf[:n])

    }

    return

}

func DoWork(start, end int)  {

    fmt.Printf("正在爬取第%d页到%d页\n", start, end)

    for i:=start; i<=end; i++ {

        url := "https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8&pn=" + strconv.Itoa((i-)*)

        //爬,将所有的网页内容爬取下来

        result, err := HttpGet(url)

        if err != nil {

            fmt.Println("http.Get err = ", err)

            continue

        }

        //把内容写入到文件

        filename := strconv.Itoa((i-)*) + ".html"

        f, err1 := os.Create(filename)

        if err1 != nil{

            fmt.Println("os.Create err = ", err1)

            continue

        }

        //写内容

        f.WriteString(result)

        //关闭文件

        f.Close()

    }

}

func main() {

    var start, end int

    fmt.Printf("请输入起始页>=1：> ")

    fmt.Scan(&start)

    fmt.Printf("请输入结束页：> ")

    fmt.Scan(&end)

    DoWork(start, end)

}

[GO]百度贴吧的爬虫的更多相关文章

百度知道的php爬虫
原文地址:百度知道的php爬虫作者:好宏杰软件 <?php class spider { private $content ; private $contentlen ; p ...
“希希敬敬对”团队--‘百度贴吧小爬虫’Alpha版本展示博客
希希敬敬对的 Alpha阶段测试报告随笔链接地址 https://www.cnblogs.com/xiaoyoushang/p/10078826.html Alpha版本发布说明随笔链接地址 ...
百度图片爬虫-python版-如何爬取百度图片?
上一篇我写了如何爬取百度网盘的爬虫,在这里还是重温一下,把链接附上: http://www.cnblogs.com/huangxie/p/5473273.html 这一篇我想写写如何爬取百度图片的爬虫 ...
百度贴吧的网络爬虫（v0.4）源码及解析
更新:感谢评论中朋友的提醒,百度贴吧现在已经改成utf-8编码了吧,需要把代码中的decode('gbk')改成decode('utf-8'). 百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同,都 ...
百度翻译爬虫-Web版(自动生成sign)
# 面向对象 # 百度翻译 -- 网页版(自动获取token,sign) import requests import js2py import json import re class WebFan ...
[Python]网络爬虫（九）：百度贴吧的网络爬虫（v0.4）源码及解析
转自:http://blog.csdn.net/pleasecallmewhy/article/details/8934726 百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同,都是通过查看源码扣出关键 ...
Python爬虫教程-05-python爬虫实现百度翻译
使用python爬虫实现百度翻译功能 python爬虫实现百度翻译: python解释器[模拟浏览器],发送[post请求],传入待[翻译的内容]作为参数,获取[百度翻译的结果] 通过开发者工具,获取 ...
Python爬虫教程-实现百度翻译
使用python爬虫实现百度翻译功能python爬虫实现百度翻译: python解释器[模拟浏览器],发送[post请求],传入待[翻译的内容]作为参数,获取[百度翻译的结果] 通过开发者工具,获取发 ...
SuperSpider——打造功能强大的爬虫利器
SuperSpider——打造功能强大的爬虫利器 1.爬虫的介绍图1-1 爬虫(spider) 网络爬虫(web spider)是一个自动的通过网络抓取互联网上的网页的程序,在当今互联网中 ...

随机推荐

JS-用法
JavaScript 用法 HTML 中的脚本必须位于 <script> 与 </script> 标签之间. 脚本可被放置在 HTML 页面的 <body> 和 & ...
导入城市文件数据（csv）格式demo
页面: js: 后台:
poj 3518 Prime Gap
Prime Gap Time Limit: 5000MS Memory Limit: 65536K Total Submissions: 7392 Accepted: 4291 Descrip ...
数据库设计不推荐使用Bool类型
参见博文:http://blog.csdn.net/zhang_xinxiu/article/details/8521673
深入浅出 Java Concurrency (11): 锁机制 part 6 CyclicBarrier
如果说CountDownLatch是一次性的,那么CyclicBarrier正好可以循环使用.它允许一组线程互相等待,直到到达某个公共屏障点 (common barrier point).所谓屏障 ...
Python Tkinter参考资料之（通用控件属性）
大部分控件的共享选项: 选项(别名) 说明单位典型值没有此属性的控件 background(bg) 当控件显示时,给出的正常颜色 color 'gray25''#ff4400' border ...
django第一课大概了解
项目目录介绍: -------- manage.py : Django项目里面的工具,通过它可以调用django shell和数据库等. mysite/ 主要是项目配置的信息,通常一次生成后不需要其他 ...
Python 小知识点（6）--静态方法、类方法、属性方法
(1)静态方法-->-@staticmethod装饰类中方法只是名义上归类管理, 实际上在静态方法里访问不了类或实例中的任何属性 class Dog(object): def __init__ ...
EMMA 覆盖率工具
1. EMMA 介绍 EMMA 是一个开源.面向 Java 程序测试覆盖率收集和报告工具.它通过对编译后的 Java 字节码文件进行插装,在测试执行过程中收集覆盖率信息,并通过支持多种报表格式对覆盖率 ...
Rhythmk 一步一步学 JAVA (19) JAVA IO 文件常用操作
package com.rhythmk.filedemo; import java.io.BufferedReader; import java.io.File; import java.io.Fil ...

[GO]百度贴吧的爬虫

[GO]百度贴吧的爬虫的更多相关文章

随机推荐

热门专题