爬虫（一）爬取鱼c淘贴信息

掏出了以前的小练习；

现在开始，每天复习下以前的爬虫练习，争取发现新的问题和可以优化的地方。

# -*- coding:utf-8 -*-

import requests

import chardet

import csv

from lxml import etree

import re

def get_page(url):

    user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0'

    header = {'User-Agent':user_agent}

    r = requests.get(url,headers=header)

    r.encoding = chardet.detect(r.content)['encoding']

    page = r.text

    return page

def parse_data(page):

    result = []

    html = etree.HTML(page)

    next_url = html.xpath('//a[@class="nxt"]/@href')

    if len(next_url) > 0:

        next_url = next_url[0]

        print(next_url)

    sites = html.xpath('//*[@class="xld xlda cl"]')

    for site in sites:

        title = site.xpath('.//a[@class="xi2"]/text()')[0]

        author = site.xpath('.//p[@class="xg1"]/a/text()')[0]

        theme = site.xpath('.//strong[@class="xi2"]/text()')[0]

        r = site.xpath('./dl/dd[2]/p[2]/text()')[0]

        sub_num,com_num =r.split(',')

        com_num = com_num.strip()

        sub_num = sub_num.strip()

        content = (title,author,theme,sub_num,com_num)

        result.append(content)

    return result,next_url

def main():

    url = 'http://bbs.fishc.org/forum.php?mod=collection'

    results = []

    page = get_page(url)

    result,next_url = parse_data(page)

    results.extend(result)

    q = True

    while q:

        if next_url:

            page = get_page(next_url)

            result,next_url = parse_data(page)

            results.extend(result)

        else:

            q = False

    headers = ['title','author','theme','sub_num','com_num']

    with open(r'taotie.csv','w',encoding = 'utf-8') as f:

        f_csv = csv.writer(f)

        f_csv.writerow(headers)

        try:

            f_csv.writerows(results)

        except UnicodeDecodeError as e:

            print(e)

if __name__ =="__main__":

    main()

爬虫（一）爬取鱼c淘贴信息的更多相关文章

零基础爬虫----python爬取豆瓣电影top250的信息（转）
今天利用xpath写了一个小爬虫,比较适合一些爬虫新手来学习.话不多说,开始今天的正题,我会利用一个案例来介绍下xpath如何对网页进行解析的,以及如何对信息进行提取的. python环境:pytho ...
开发记录_自学Python写爬虫程序爬取csdn个人博客信息
每天刷开csdn的博客,看到一整个页面,其实对我而言,我只想看看访问量有没有上涨而已... 于是萌生了一个想法: 想写一个爬虫程序把csdn博客上边的访问量和评论数都爬下来. 打算通过网络各种搜集资料 ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...
学习用java基于webMagic+selenium+phantomjs实现爬虫Demo爬取淘宝搜索页面
由于业务需要,老大要我研究一下爬虫. 团队的技术栈以java为主,并且我的主语言是Java,研究时间不到一周.基于以上原因固放弃python,选择java为语言来进行开发.等之后有时间再尝试pytho ...
Python爬虫开源项目代码，爬取微信、淘宝、豆瓣、知乎、新浪微博、QQ、去哪网等代码整理
作者:SFLYQ 今天为大家整理了32个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.WechatSogou [ ...
python爬虫爬取京东、淘宝、苏宁上华为P20购买评论
爬虫爬取京东.淘宝.苏宁上华为P20购买评论 1.使用软件 Anaconda3 2.代码截图三个网站代码大同小异,因此只展示一个 3.结果(部分) 京东淘宝苏宁 4.分析这三个网站上的评论数据 ...
23个Python爬虫开源项目代码：爬取微信、淘宝、豆瓣、知乎、微博等
来源:全球人工智能作者:SFLYQ 今天为大家整理了23个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.Wec ...
第三百三十节，web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解
第三百三十节,web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解封装模块 #!/usr/bin/env python # -*- coding: utf- ...
【Python】【爬虫】爬取酷狗TOP500
好啦好啦,那我们来拉开我们的爬虫之旅吧~~~ 这一只小爬虫是爬取酷狗TOP500的,使用的爬取手法简单粗暴,目的是帮大家初步窥探爬虫长啥样,后期会慢慢变得健壮起来的. 环境配置在此之前需要下载一个谷 ...

随机推荐

菜鸟cmake使用
cmake是用过把源码生成visual studio 工程的工具,也就是生成.sln文件.他会把相应的库依赖都自动添加上. cmake有个CMakeLists.txt (具体语法这里先不介绍) 我都是 ...
887A. Div. 64#模特的数学技巧（字符串处理）
问题出处:http://codeforces.com/problemset/problem/887/A 问题大意:对于给出的一串二进制数,能否通过去掉一些数字,使之成为十进制下64的倍数 #inclu ...
47）PHP，数据库多表连接
https://www.w3cschool.cn/mysql/56ik1sqv.html
吴裕雄--天生自然python学习笔记：python 用 Open CV通过人脸识别进行登录
人脸识别登录功能的基本原理是通过对比两张图片的差异度来判断两张图片是否是同一人的面部 . 对比图片差异度的算法有很多种,本例中使用“颜色直方图” 算法来实现对人脸图像的识别. 下面为比较 im ...
nutzboot 项目打包排除或指定配置文件（夹）
springboot 是一样的我这里就是从springboot哪里拿过来的 (nutzboot2.x已测试可以使用) 排除指定文件在pom 文件 build 标签内添加 resources < ...
如何查看Linux系统下程序运行时使用的库？
Linux系统下程序运行会实时的用到相关动态库,某些场景下,比如需要裁剪不必要的动态库时,就需要查看哪些动态库被用到了. 以运行VLC为例. VLC开始运行后,首先查看vlc的PID,比如这次查到的V ...
struts-dojo的使用
1.导入struts2-dojo-plugin-2.1.8.jar 2.在用使用dojo的页面引入 <span style="font-size:14px;">< ...
The file named error_log is too large
The file named errorlog is too large */--> The file named errorlog is too large 1 Problem One day ...
统计学方法（t-检验）
数据出来要做几件事:首先判断数据是否符合正态分布,如果符合的话,就要进行t-检验,那么进行t-检验的作用在哪呢? t-检验主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布 htt ...
STL中map的使用
知识点 C++中map提供的是一种键值对容器,里面的数据都是成对出现的.map内部自建一颗红黑树(一种非严格意义上的平衡二叉树),这颗树具有对数据自动排序的功能,所以在map内部所有的数据都是有序的. ...

爬虫（一）爬取鱼c淘贴信息

爬虫（一）爬取鱼c淘贴信息的更多相关文章

随机推荐

热门专题