前两节我们获取到了城市的URL和城市名,今天我们来解析用户信息。

用go语言爬取珍爱网 | 第一回

用go语言爬取珍爱网 | 第二回

爬虫的算法:

我们要提取返回体中的城市列表,需要用到城市列表解析器;

需要把每个城市里的所有用户解析出来,需要用到城市解析器;

还需要把每个用户的个人信息解析出来,需要用到用户解析器。

爬虫整体架构:

Seed把需要爬的request送到engine,engine负责将request里的url送到fetcher去爬取数据,返回utf-8的信息,然后engine将返回信息送到解析器Parser里解析有用信息,返回更多待请求requests和有用信息items,任务队列用于存储待请求的request,engine驱动各模块处理数据,直到任务队列为空。

代码实现:

按照上面的思路,设计出城市列表解析器citylist.go代码如下:

package parser

import (
"crawler/engine"
"regexp"
"log"
) const (
//<a href="http://album.zhenai.com/u/1361133512" target="_blank">怎么会迷上你</a>
cityReg = `<a href="(http://album.zhenai.com/u/[0-9]+)"[^>]*>([^<]+)</a>`
) func ParseCity(contents []byte) engine.ParserResult {
compile := regexp.MustCompile(cityReg) submatch := compile.FindAllSubmatch(contents, -1) //这里要把解析到的每个URL都生成一个新的request result := engine.ParserResult{} for _, m := range submatch {
name := string(m[2])
log.Printf("UserName:%s URL:%s\n", string(m[2]), string(m[1])) //把用户信息人名加到item里
result.Items = append(result.Items, name) result.Requests = append(result.Requests,
engine.Request{
//用户信息对应的URL,用于之后的用户信息爬取
Url : string(m[1]),
//这个parser是对城市下面的用户的parse
ParserFunc : func(bytes []byte) engine.ParserResult {
//这里使用闭包的方式;这里不能用m[2],否则所有for循环里的用户都会共用一个名字
//需要拷贝m[2] ---- name := string(m[2])
return ParseProfile(bytes, name)
},
})
} return result
}

城市解析器city.go如下:

package parser

import (
"crawler/engine"
"regexp"
"log"
) const (
//<a href="http://album.zhenai.com/u/1361133512" target="_blank">怎么会迷上你</a>
cityReg = `<a href="(http://album.zhenai.com/u/[0-9]+)"[^>]*>([^<]+)</a>`
) func ParseCity(contents []byte) engine.ParserResult {
compile := regexp.MustCompile(cityReg) submatch := compile.FindAllSubmatch(contents, -1) //这里要把解析到的每个URL都生成一个新的request result := engine.ParserResult{} for _, m := range submatch {
name := string(m[2])
log.Printf("UserName:%s URL:%s\n", string(m[2]), string(m[1])) //把用户信息人名加到item里
result.Items = append(result.Items, name) result.Requests = append(result.Requests,
engine.Request{
//用户信息对应的URL,用于之后的用户信息爬取
Url : string(m[1]),
//这个parser是对城市下面的用户的parse
ParserFunc : func(bytes []byte) engine.ParserResult {
//这里使用闭包的方式;这里不能用m[2],否则所有for循环里的用户都会共用一个名字
//需要拷贝m[2] ---- name := string(m[2])
return ParseProfile(bytes, name)
},
})
} return result
}

用户解析器profile.go如下:

package parser

import (
"crawler/engine"
"crawler/model"
"regexp"
"strconv"
) var (
// <td><span class="label">年龄:</span>25岁</td>
ageReg = regexp.MustCompile(`<td><span class="label">年龄:</span>([\d]+)岁</td>`)
// <td><span class="label">身高:</span>182CM</td>
heightReg = regexp.MustCompile(`<td><span class="label">身高:</span>(.+)CM</td>`)
// <td><span class="label">月收入:</span>5001-8000元</td>
incomeReg = regexp.MustCompile(`<td><span class="label">月收入:</span>([0-9-]+)元</td>`)
//<td><span class="label">婚况:</span>未婚</td>
marriageReg = regexp.MustCompile(`<td><span class="label">婚况:</span>(.+)</td>`)
//<td><span class="label">学历:</span>大学本科</td>
educationReg = regexp.MustCompile(`<td><span class="label">学历:</span>(.+)</td>`)
//<td><span class="label">工作地:</span>安徽蚌埠</td>
workLocationReg = regexp.MustCompile(`<td><span class="label">工作地:</span>(.+)</td>`)
// <td><span class="label">职业: </span>--</td>
occupationReg = regexp.MustCompile(`<td><span class="label">职业: </span><span field="">(.+)</span></td>`)
// <td><span class="label">星座:</span>射手座</td>
xinzuoReg = regexp.MustCompile(`<td><span class="label">星座:</span><span field="">(.+)</span></td>`)
//<td><span class="label">籍贯:</span>安徽蚌埠</td>
hokouReg = regexp.MustCompile(`<td><span class="label">民族:</span><span field="">(.+)</span></td>`)
// <td><span class="label">住房条件:</span><span field="">--</span></td>
houseReg = regexp.MustCompile(`<td><span class="label">住房条件:</span><span field="">(.+)</span></td>`)
// <td width="150"><span class="grayL">性别:</span>男</td>
genderReg = regexp.MustCompile(`<td width="150"><span class="grayL">性别:</span>(.+)</td>`) // <td><span class="label">体重:</span><span field="">67KG</span></td>
weightReg = regexp.MustCompile(`<td><span class="label">体重:</span><span field="">(.+)KG</span></td>`)
//<h1 class="ceiling-name ib fl fs24 lh32 blue">怎么会迷上你</h1>
//nameReg = regexp.MustCompile(`<h1 class="ceiling-name ib fl fs24 lh32 blue">([^\d]+)</h1> `)
//<td><span class="label">是否购车:</span><span field="">未购车</span></td>
carReg = regexp.MustCompile(`<td><span class="label">是否购车:</span><span field="">(.+)</span></td>`)
) func ParseProfile(contents []byte, name string) engine.ParserResult { profile := model.Profile{} age, err := strconv.Atoi(extractString(contents, ageReg)) if err != nil {
profile.Age = 0
}else {
profile.Age = age
} height, err := strconv.Atoi(extractString(contents, heightReg))
if err != nil {
profile.Height = 0
}else {
profile.Height = height
} weight, err := strconv.Atoi(extractString(contents, weightReg))
if err != nil {
profile.Weight = 0
}else {
profile.Weight = weight
} profile.Income = extractString(contents, incomeReg) profile.Car = extractString(contents, carReg) profile.Education = extractString(contents, educationReg)
profile.Gender = extractString(contents, genderReg) profile.Hokou = extractString(contents, hokouReg)
profile.Income = extractString(contents, incomeReg)
profile.Marriage = extractString(contents, marriageReg)
profile.Name = name
profile.Occupation = extractString(contents, occupationReg)
profile.WorkLocation = extractString(contents, workLocationReg)
profile.Xinzuo = extractString(contents, xinzuoReg) result := engine.ParserResult{
Items: []interface{}{profile},
} return result
} //get value by reg from contents
func extractString(contents []byte, re *regexp.Regexp) string { m := re.FindSubmatch(contents) if len(m) > 0 {
return string(m[1])
} else {
return ""
}
}

engine代码如下:

package engine

import (
"crawler/fetcher"
"log"
) func Run(seeds ...Request){ //这里维持一个队列
var requestsQueue []Request requestsQueue = append(requestsQueue, seeds...) for len(requestsQueue) > 0 {
//取第一个
r := requestsQueue[0]
//只保留没处理的request
requestsQueue = requestsQueue[1:] log.Printf("fetching url:%s\n", r.Url)
//爬取数据
body, err := fetcher.Fetch(r.Url) if err != nil {
log.Printf("fetch url: %s; err: %v\n", r.Url, err)
//发生错误继续爬取下一个url
continue
} //解析爬取到的结果
result := r.ParserFunc(body) //把爬取结果里的request继续加到request队列
requestsQueue = append(requestsQueue, result.Requests...) //打印每个结果里的item,即打印城市名、城市下的人名...
for _, item := range result.Items {
log.Printf("get item is %v\n", item)
}
}
}

Fetcher用于发起http get请求,这里有一点注意的是:珍爱网可能做了反爬虫限制手段,所以直接用http.Get(url)方式发请求,会报403拒绝访问;故需要模拟浏览器方式:

client := &http.Client{}
req, err := http.NewRequest("GET", url, nil)
if err != nil {
log.Fatalln("NewRequest is err ", err)
return nil, fmt.Errorf("NewRequest is err %v\n", err)
} req.Header.Set("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36") //返送请求获取返回结果
resp, err := client.Do(req)

最终fetcher代码如下:

package fetcher

import (
"bufio"
"fmt"
"golang.org/x/net/html/charset"
"golang.org/x/text/encoding"
"golang.org/x/text/encoding/unicode"
"golang.org/x/text/transform"
"io/ioutil"
"log"
"net/http"
) /**
爬取网络资源函数
*/
func Fetch(url string) ([]byte, error) { client := &http.Client{}
req, err := http.NewRequest("GET", url, nil)
if err != nil {
log.Fatalln("NewRequest is err ", err)
return nil, fmt.Errorf("NewRequest is err %v\n", err)
} req.Header.Set("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36") //返送请求获取返回结果
resp, err := client.Do(req) //直接用http.Get(url)进行获取信息,爬取时可能返回403,禁止访问
//resp, err := http.Get(url) if err != nil {
return nil, fmt.Errorf("Error: http Get, err is %v\n", err)
} //关闭response body
defer resp.Body.Close() if resp.StatusCode != http.StatusOK {
return nil, fmt.Errorf("Error: StatusCode is %d\n", resp.StatusCode)
} //utf8Reader := transform.NewReader(resp.Body, simplifiedchinese.GBK.NewDecoder())
bodyReader := bufio.NewReader(resp.Body)
utf8Reader := transform.NewReader(bodyReader, determineEncoding(bodyReader).NewDecoder()) return ioutil.ReadAll(utf8Reader)
} /**
确认编码格式
*/
func determineEncoding(r *bufio.Reader) encoding.Encoding { //这里的r读取完得保证resp.Body还可读
body, err := r.Peek(1024) //如果解析编码类型时遇到错误,返回UTF-8
if err != nil {
log.Printf("determineEncoding error is %v", err)
return unicode.UTF8
} //这里简化,不取是否确认
e, _, _ := charset.DetermineEncoding(body, "")
return e
}

main方法如下:

package main

import (
"crawler/engine"
"crawler/zhenai/parser"
) func main() { request := engine.Request{
Url: "http://www.zhenai.com/zhenghun",
ParserFunc: parser.ParseCityList,
} engine.Run(request)
}

最终爬取到的用户信息如下,包括昵称、年龄、身高、体重、工资、婚姻状况等。

如果你想要哪个妹子的照片,可以点开url查看,然后打招呼进一步发展。

至此单任务版的爬虫就做完了,后面我们将对单任务版爬虫做性能分析,然后升级为多任务并发版,把爬取到的信息存到ElasticSearch中,在页面上查询



本公众号免费提供csdn下载服务,海量IT学习资源,如果你准备入IT坑,励志成为优秀的程序猿,那么这些资源很适合你,包括但不限于java、go、python、springcloud、elk、嵌入式 、大数据、面试资料、前端 等资源。同时我们组建了一个技术交流群,里面有很多大佬,会不定时分享技术文章,如果你想来一起学习提高,可以公众号后台回复【2】,免费邀请加技术交流群互相学习提高,会不定期分享编程IT相关资源。


扫码关注,精彩内容第一时间推给你



本公众号免费提供csdn下载服务,海量IT学习资源,如果你准备入IT坑,励志成为优秀的程序猿,那么这些资源很适合你,包括但不限于java、go、python、springcloud、elk、嵌入式 、大数据、面试资料、前端 等资源。同时我们组建了一个技术交流群,里面有很多大佬,会不定时分享技术文章,如果你想来一起学习提高,可以公众号后台回复【2】,免费邀请加技术交流群互相学习提高,会不定期分享编程IT相关资源。


扫码关注,精彩内容第一时间推给你

用go语言爬取珍爱网 | 第三回的更多相关文章

  1. 用go语言爬取珍爱网 | 第一回

    我们来用go语言爬取"珍爱网"用户信息. 首先分析到请求url为: http://www.zhenai.com/zhenghun 接下来用go请求该url,代码如下: packag ...

  2. 用go语言爬取珍爱网 | 第二回

    昨天我们一起爬取珍爱网首页,拿到了城市列表页面,接下来在返回体城市列表中提取城市和url,即下图中的a标签里的href的值和innerText值. 提取a标签,可以通过CSS选择器来选择,如下: $( ...

  3. Python爬虫之爬取慕课网课程评分

    BS是什么? BeautifulSoup是一个基于标签的文本解析工具.可以根据标签提取想要的内容,很适合处理html和xml这类语言文本.如果你希望了解更多关于BS的介绍和用法,请看Beautiful ...

  4. GoLang爬取花瓣网美女图片

    由于之前一直想爬取花瓣网(http://huaban.com/partner/uc/aimeinv/pins/) 的图片,又迫于没时间,所以拖了很久. 鉴于最近在学go语言,就刚好用这个练手了. 预览 ...

  5. 网络爬虫之定向爬虫:爬取当当网2015年图书销售排行榜信息(Crawler)

    做了个爬虫,爬取当当网--2015年图书销售排行榜 TOP500 爬取的基本思想是:通过浏览网页,列出你所想要获取的信息,然后通过浏览网页的源码和检查(这里用的是chrome)来获相关信息的节点,最后 ...

  6. 使用python爬取东方财富网机构调研数据

    最近有一个需求,需要爬取东方财富网的机构调研数据.数据所在的网页地址为: 机构调研 网页如下所示: 可见数据共有8464页,此处不能直接使用scrapy爬虫进行爬取,因为点击下一页时,浏览器只是发起了 ...

  7. Node.js爬虫-爬取慕课网课程信息

    第一次学习Node.js爬虫,所以这时一个简单的爬虫,Node.js的好处就是可以并发的执行 这个爬虫主要就是获取慕课网的课程信息,并把获得的信息存储到一个文件中,其中要用到cheerio库,它可以让 ...

  8. python 爬虫之爬取大街网(思路)

    由于需要,本人需要对大街网招聘信息进行分析,故写了个爬虫进行爬取.这里我将记录一下,本人爬取大街网的思路. 附:爬取得数据仅供自己分析所用,并未用作其它用途. 附:本篇适合有一定 爬虫基础 crawl ...

  9. 基于爬取百合网的数据,用matplotlib生成图表

    爬取百合网的数据链接:http://www.cnblogs.com/YuWeiXiF/p/8439552.html 总共爬了22779条数据.第一次接触matplotlib库,以下代码参考了matpl ...

随机推荐

  1. 为什么不建议使用Date,而是使用Java8新的时间和日期API?

    Java 8:新的时间和日期API 在Java 8之前,所有关于时间和日期的API都存在各种使用方面的缺陷,因此建议使用新的时间和日期API,分别从旧的时间和日期的API的缺点以及解决方法.Java ...

  2. 【LeetCode】5# 最长回文子串

    题目描述 给定一个字符串 s,找到 s 中最长的回文子串.你可以假设 s 的最大长度为 1000. 示例 1: 输入: "babad" 输出: "bab" 注意 ...

  3. java解决回文数

    递归解决palindrome问题 如果String仅仅只是一个或者0个字符,则它就是palindrome 否则比较字符串第一个和最后一个字符 如果第一个和最后一个字符不同,那么就不是palindrom ...

  4. 2019沈阳网络赛B.Dudu's maze

    https://www.cnblogs.com/31415926535x/p/11520088.html 啊,,不在状态啊,,自闭一下午,,都错题,,然后背锅,,,明明这个简单的题,,, 这题题面不容 ...

  5. apache ignite系列(九):使用ddl和dml脚本初始化ignite并使用mybatis查询缓存

    博客又断了一段时间,本篇将记录一下基于ignite对jdbc支持的特性在实际使用过程中的使用. 使用ddl和dml脚本初始化ignite 由于spring-boot中支持通过spring.dataso ...

  6. Java 教程 (Java 对象和类)

    Java 对象和类 Java作为一种面向对象语言.支持以下基本概念: 多态 继承 封装 抽象 类 对象 实例 方法 重载 本节我们重点研究对象和类的概念. 对象:对象是类的一个实例(对象不是找个女朋友 ...

  7. 松软科技课堂:Winform之TextBox

    松软科技文(www.sysoft.net.cn): 文本框的几种模式:Multiline(多行).PasswordChar(密码)将文本框的PasswordChar设为*就是密码框效果,将MultiL ...

  8. windows下docker与.net core 的简单示例

    一 windows 下安装docker 二 .net core 项目 新建一个空的ASP.NET Core Web 应用程序 在该项目的目录下执行dotnet publish,可以看到在bin\Deb ...

  9. Elastic Stack 笔记(四)Elasticsearch5.6 索引及文档管理

    博客地址:http://www.moonxy.com 一.前言 在 Elasticsearch 中,对文档进行索引等操作时,既可以通过 RESTful 接口进行操作,也可以通过 Java 也可以通过 ...

  10. 【Unity与Android】01-Unity与Android交互通信的简易实现

    前言 使用Unity也有不短的时间了,安卓包也打过不少,但是对Unity与Android的交互却知之甚少. 因工作需求,需要在Android平台接一些sdk(扩展功能).我就借此机会就了解了下Unit ...