项目代码

from bs4 import BeautifulSoup

import requests

url_prefix = 'https://knewone.com/discover?page='

infos = []

# 获取单个页面数据

def getAPage(url,data = None):

    web_data = requests.get(url)

    soup = BeautifulSoup(web_data.text,'lxml')

    # print(soup)

    images = soup.select('header > a > img')

    titles = soup.select('section > h4 > a')

    links = soup.select('a.cover-inner')

    likes = soup.select('span.fanciers_count')

    if data == None:

        for image,title,link,like in zip(images,titles,links,likes):

            data = {

                'image':image.get('src'),

                'title':title.get_text(),

                'link':'https://knewone.com' + link.get('href'),

                'like':int(like.get_text())

            }

            print(data)

            infos.append(data)

# 获取多个加载的数据

def getMorePages(start,end):

    for url_suffix in range(start,end):

        getAPage(url_prefix + str(url_suffix))

        print('---------------已经获取{}条数据---------------'.format(len(infos)), sep='\n')

# 获取点赞排名前几的数据

def getInfosByLikes(order,infos =infos):

    infos = sorted(infos,key= lambda info:info['like'],reverse = True)

    for info in infos[:order]:

        print(info['like'],info['title'],info['image'],info['link'])

getMorePages(1,4)

getInfosByLikes(5)

项目特点：

【转载】同步加载、异步加载、延迟加载

爬取的网站链接

KnewOne

-Web-Crawler-training 如果觉得可以，请给我颗star鼓励一下，谢谢！

Python 爬虫练习项目——异步加载爬取的更多相关文章

Python爬虫之JS异步加载
一.判断异步加载方式(常用的JS库) 1. jQuery(70%) # 搜索 jquery 茅塞顿开 <script src="http://ajax.googleapis.com/a ...
[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息
[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息 2018-07-21 23:53:02 larger5 阅读数 4123更多分类专栏: 网络爬虫版权声明: ...
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(人人网)（下）
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(下) 自动使用cookie的方法,告别手动拷贝cookie http模块包含一些关于cookie的模块,通过他们我们可以自动的使用co ...
python爬虫之图片懒加载、selenium和phantomJS
一.什么是图片懒加载在网页中,常常需要用到图片,而图片需要消耗较大的流量.正常情况下,浏览器会解析整个HTML代码,然后从上到下依次加载<img src="xxx"> ...
Python爬虫之图片懒加载技术、selenium和PhantomJS
一.引入 2.概要图片懒加载 selenium phantomJs 谷歌无头浏览器 3.回顾验证码处理流程一.今日详情动态数据加载处理 1.图片懒加载什么是图片懒加载? 案例分析:抓取站长素 ...
Python爬虫-05：Ajax加载的动态页面内容
1. 获取AJAX加载动态页面的内容 1.1. Introduction 如果所爬取的网址是通过Ajax方式加载的,就直接抓包,拿他后面传输数据的文件有些网页内容使用AJAX加载,只要记得,AJAX ...
PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_pag ...
Python爬虫实战（2）：爬取京东商品列表
1,引言在上一篇<Python爬虫实战:爬取Drupal论坛帖子列表>,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容.相反 ...
Python爬虫小白入门（六）爬取披头士乐队历年专辑封面-网易云音乐
一.前言前文说过我的设计师小伙伴的设计需求,他想做一个披头士乐队历年专辑的瀑布图. 通过搜索,发现网易云音乐上有比较全的历年专辑信息加配图,图片质量还可以,虽然有大有小. 我的例子怎么都是爬取图片? ...

随机推荐

MySQL在创建数据表的时候创建索引
转载:http://www.baike369.com/content/?id=5478 MySQL在创建数据表的时候创建索引在MySQL中创建表的时候,可以直接创建索引.基本的语法格式如下: CRE ...
Thread -- Request
Servlet容器应该绝大部分(有可能全部)是Thread per Request,每个请求一个线程.此外有Thread per Connection,应该不是用于Servlet容器.请见 How a ...
Idea中找不到xml配置文件问题研究以及classpath设置（转载）
问题: 在用Idea建立一个Java Application工程的时候,应用了Spring框架,可是Spring的xml配置文件找不到.检查表明不是代码的问题.费了我好长时间才解决. 出现问题,我 ...
<数据挖掘导论>读书笔记11异常检测
异常检测的目标是发现与大部分其他对象不同的对象.通常,异常对象被称作离群点(Outlier). 异常检测也称偏差检测(Deviation detection),因为异常对象的属性值明显偏离期望的或者常 ...
MongoDB 从入门到精通
1,安装并启动数据库从官网(www.mongodb.org/downloads)下载一个适合你平台的版本,我的系统是win7 64位的,下载文件也就10几M,将下载的文件解压放到任何目录 ...
总结：Python学习和 Python与C/C++交互
本篇仅仅是Python的学习和Python和C++数据对接过程中的一些总结. 由于工作的需要,用一周的时间学习 Python. Python是基于C实现的一门解释型语言,由于其易用性,俘获了不少开发者 ...
System.Web.HttpException: 请求在此上下文中不可用
转自:https://www.cnblogs.com/wangguowen27/archive/2013/05/12/IIS_itcast_win7.html 问题:Web应用程序池配置错误造成的,这 ...
按照拼音排序的SQL语句条件
ORDER BY nlssort(NAME, 'NLS_SORT=SCHINESE_PINYIN_M')
hdu 1075 What Are You Talking About 字典树模板
What Are You Talking About Time Limit: 10000/5000 MS (Java/Others) Memory Limit: 102400/204800 K ...
Spring与MyBatis整合上_Mapper动态代理方式
将MyBatis与Spring进行整合,主要解决的问题就是将SqlSessionFactory对象交由Spring来管理..所以该整合,只需将SQLSessionFactory的对象生成器S ...

Python 爬虫练习项目——异步加载爬取

需要下载代码的可以到我的GitHub上下载 https://github.com/FightingBob/-Web-Crawler-training 如果觉得可以，请给我颗star鼓励一下，谢谢！

Python 爬虫练习项目——异步加载爬取的更多相关文章

随机推荐

热门专题