爬虫 - 动态分页抓取游民星空的资讯

# coding=utf-8

# !/usr/bin/env python

'''

    author: dangxusheng

    desc  :  动态分页抓取 游民星空 的资讯

    date  : 2018-08-29

'''

import requests

from bs4 import BeautifulSoup

import json

import time

url = "https://www.gamersky.com/news/"

headers = {

    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.63 Safari/537.36 Qiyu/2.1.1.1",

    "Referer": "https://www.gamersky.com/news/"

}

# 获取每一页

def once_page_info(page_index=1):

    time_stramp = str(time.time()).replace('.', '')[0:13]

    time_stramp = str(time_stramp)

    # 分页提取

    url = "https://db2.gamersky.com/LabelJsonpAjax.aspx?callback=jQuery18308266280560965529_1541308409652&jsondata=%7B%22type%22%3A%22updatenodelabel%22%2C%22isCache%22%3Atrue%2C%22cacheTime%22%3A60%2C%22nodeId%22%3A%2211007%22%2C%22isNodeId%22%3A%22true%22%2C%22page%22%3A" + str(

        page_index) + "%7D&_=" + time_stramp

    r = requests.get(url, headers=headers)

    # 返回回来的数据,内部是json字符串格式,但是开头和结尾有一部分干扰字符串,去除即可

    now_page_html = json.loads(r.text[41:-2])['body']

    soup = BeautifulSoup(now_page_html, 'html.parser')

    # ul = soup.find('ul', attrs={"class": "pictxt contentpaging"})

    li_list = soup.find_all('li')

    ls = []

    for once_li in li_list:

        once_type = once_li.find('a', attrs={'class': 'dh'}).string

        once_type = once_type if once_type != None else "暂无类型"

        once_title = once_li.find('a', attrs={'class': 'tt'}).string

        once_title = once_title if once_title != None else "暂无标题"

        once_info = once_li.find('div', attrs={'class': 'txt'}).string

        once_info = once_info if once_info != None else "暂无简介"

        once_time = once_li.find('div', attrs={'class': 'time'}).string

        once_visited = once_li.find('div', attrs={'class': 'visit gshit'}).string

        once_comment = once_li.find('div', attrs={'class': 'pls cy_comment'}).string

        once_img_url = once_li.find('img', attrs={'class': 'pe_u_thumb'}).attrs['src']

        ls.append(

            {'type': once_type, 'title': once_title, 'info': once_info, 'time': once_time, 'visited': once_visited,

             'comment': once_comment, 'img_url': once_img_url})

    return ls

# 保存每一个的内容

def save_to_file(all_info):

    with open('./gemersky.txt', 'a', encoding='utf-8') as file:

        for o in all_info:

            # 按照指定格式保存

            file.write("%s::%s::%s::%s::%s::%s::%s\n"%(o['type'],o['title'],o['time'],o['visited'],o['comment'],o['img_url'],o['info']))

for i in range(1, 10):

    page_info = once_page_info(i)

    save_to_file(page_info)

    print('第%i页下载完成' % i)

爬虫 - 动态分页抓取游民星空的资讯 - bs4的更多相关文章

python网络爬虫-动态网页抓取（五）
动态抓取的实例在开始爬虫之前,我们需要了解一下Ajax(异步请求).它的价值在于在与后台进行少量的数据交换就可以使网页实现异步更新. 如果使用Ajax加载的动态网页抓取,有两种方法: 通过浏览器审查 ...
Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过Selenium模拟浏览器抓取
区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...
[Python]爬取游民星空网站每周精选壁纸（1080高清壁纸）网络爬虫
一.检查首先进入该网站的https://www.gamersky.com/robots.txt页面给出提示: 弹出错误页面注: 网络爬虫:自动或人工识别robots.txt,再进行内容爬取约束 ...
scrapy入门二(分页抓取文章入库)
分页抓取博客园新闻,先从列表里分析下一页按钮相关代码: # -*- coding: utf-8 -*- import scrapy from cnblogs.items import Article ...
python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容
python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容 Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖 ...
第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—meta属性返回指定值给回调函数—Scrapy内置图片下载器
第三百四十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—meta属性返回指定值给回调函数—Scrapy内置图片下载器编写spiders爬虫文件循环 ...
python实现一个栏目的分页抓取列表页抓取
python实现一个栏目的分页抓取列表页抓取 #!/usr/bin/env python # coding=utf-8 import requests from bs4 import Beautifu ...
二十 Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—meta属性返回指定值给回调函数—Scrapy内置图片下载器
编写spiders爬虫文件循环抓取内容 Request()方法,将指定的url地址添加到下载器下载页面,两个必须参数, 参数: url='url' callback=页面处理函数使用时需要yield ...
如何让Python爬虫一天抓取100万张网页
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 王平源自:猿人学Python PS:如有需要Python学习资料的 ...

随机推荐

iOS -- Effective Objective-C 阅读笔记 (6)
1: 在既有类中使用关联对象存放自定义数据有时候需要在对象中存放相关信息, 这是我们经常会从对象所属的类中继承一个子类, 然后改用这个子类对象, 然而并非所有的情况下都能这么做, 有时候类的实 ...
KNN与K-Means的区别
KNN(K-Nearest Neighbor)介绍 Wikipedia上的 KNN词条中有一个比较经典的图如下: KNN的算法过程是是这样的: 从上图中我们可以看到,图中的数据集是良好的数据,即都打 ...
UVA1513 Movie collection
传送门题意 KI先生有收集大量小电影的习惯, 他把他的珍藏理成一大摞.无论何时他想观看这一些电影的一部,他从这一摞电影中找出这一部电影,小心地将其拿出,以确保这一摞电影不会倒塌. 自从那一摞电影变得 ...
laravel whereDoesntHave
select * from `feeds` where not exists (select * from `black_lists` where `feeds`.`user_id` = `black ...
highcharts的dataLabels如何去处阴影
问题: 在使用highcharts生成的图标中dataLabels是有阴影的,通常是影响美观,那么如何去除阴影呢? 原因:是因为highcharts将dataLabels生成的标签是tspan,里面有 ...
CSS之文本
文本对齐方式 text-align left 把文本排列到左边. 默认值:由浏览器决定. right 把文本排列到右边. center 把文本排列到中间. justify 实现两端对齐文本效果. in ...
金蝶K3 WISE BOM多级展开_销售成本表
/****** Object: StoredProcedure [dbo].[pro_bobang_SaleCost] Script Date: 07/29/2015 16:13:43 ******/ ...
HTML 中的预留字符(如标签的小于号 < )必须被替换为字符实体( < )。不间断空格( )
1. 参考 HTML 字符实体 Python处理HTML转义字符比方说一个从网页中抓到的字符串 html = '<abc>' 用Python可以这样处理: import HTMLPars ...
mysql配置主从复制
1.原理: MySQL之间数据复制的基础是二进制日志文件(binary log file).一台MySQL数据库一旦启用二进制日志后,其作为master,它的数据库中所有操作都会以“事件”的方式记录在 ...
Python学习（四十一）—— Djago进阶
一.分页 Django的分页器(paginator) view from django.shortcuts import render,HttpResponse # Create your views ...

爬虫 - 动态分页抓取 游民星空 的资讯 - bs4

爬虫 - 动态分页抓取 游民星空 的资讯 - bs4的更多相关文章

随机推荐

热门专题

爬虫 - 动态分页抓取游民星空的资讯 - bs4

爬虫 - 动态分页抓取游民星空的资讯 - bs4的更多相关文章