sanic+aiohttp爬虫demo(爬图片，新闻，数据)

直接上代码，都是很简单的一些demo,爬取的网站，都没有什么加密措施，所以应该不涉及违法数据，哈哈

１.爬取网页数据（aiohttp+sanic+scrapy+xpath解析html）

from sanic import Sanic

import aiohttp  # 导入aiohttp

from sanic.response import text

from scrapy import Selector  # 导入html解析模块

app = Sanic(__name__)

headers = {

    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36(KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"}

async def getsource(url):

    conn = aiohttp.TCPConnector(verify_ssl=False)  # 防止ssl报错

    async with aiohttp.ClientSession(connector=conn) as session:  # 创建session

        async with session.get(url, headers=headers, timeout=0) as req:  # 获得请求

            if req.status == 200:  # 判断请求码

                source = await req.text()  # 使用await关键字获取返回结果

                print('爬取的文章')

                sel = Selector(text=source)

                l = []

                a = sel.xpath('//ol[@class="breadcrumb"]/li[@class="active"]/text()').extract_first()

                b = sel.xpath('//ul[@class="nav nav-tabs"]/li[@class="active"]/a/text()').extract_first()

                c = sel.xpath('//span[@class="course-view"]/text()').extract_first()

                l.append((a, b, c))

                print(l)

            else:

                print("访问失败")

@app.route('/')

async def sanic_hello(request):

    myloop = request.app.loop  # 创建事件循环

    # == event_loop = asyncio.get_event_loop()

    for i in range(1, 10):

        url = "https://edu.hellobi.com/course/{}"

        try:

            myloop.create_task(getsource(url.format(i)))  # 添加任务到事件循环

        except Exception as e:

            pass

    return text('爬取成功')

if __name__ == "__main__":

    #用gunicorn部署命令

    # gunicorn api_pachong:app --bind 0.0.0.0:8090 --workers=4 --worker-class sanic.worker.GunicornWorker

    app.run(host='127.0.0.1', port=8090, workers=8)

#""

爬取的文章

[('微软 BI 实战入门系列【持续更新中】', '课程概览', '1742 人学习')]

爬取的文章

[('MS SQL数据库入门及初级BI教程', '课程概览', '1667 人学习')]

爬取的文章

[('IBM Cognos 中级视频教程 【模型和报表教程】', '课程概览', '1227 人学习')]

爬取的文章

[('咖啡姐 BIEE 11G 精品入门视频教程【新手必看】', '课程概览', '2626 人学习')]

爬取的文章

[('BI基础知识漫谈【献给所以热爱商业智能的朋友】', '课程概览', '2398 人学习')]

爬取的文章

[('数据仓库精品教程【特点，数据仓库和ETL设计思想、架构(自上而下、自下而上)、常用概念】', '课程概览', '3856 人学习')]

爬取的文章

[('IBM Cognos 初级教程 【入门必学】', '课程概览', '2520 人学习')]

爬取的文章

[('Oracle BIEE 提高视频教程【时间序列函数，多表头制作，数据同步】', '课程概览', '1151 人学习')]

爬取的文章

[('微软商业智能实战入门及提高视频教程', '课程概览', '249 人学习')]

"""

翻页爬去简单网页

2.爬取网页图片，并下载到本地（aiohttp+sanic+BeautifulSoup解析html）

import aiohttp

import requests

from sanic import Sanic

from bs4 import BeautifulSoup

from sanic.response import text

app = Sanic(__name__)

@app.route('/')

async def pars(request):

    async with aiohttp.ClientSession() as set:

        count = 0

        url = 'http://www.moko.cc/channels/post/151/{}.html'

        for i in range(1, 2):

            try:

                async with set.get(url.format(i))as respon:  # 异步发送请求

                    res = await respon.read()

                    soup = BeautifulSoup(res, 'html.parser')  # 解析网页

                    div_list = soup.find_all(name='div', attrs={'class': "cover"})  # 找到div标签所属的所有标签

                    for div in div_list:  # 循环读取div标签内容

                        img_l = div.find(name='img')  # 找到img标签

                        src2 = img_l.attrs.get('src2')  # 获取src图片链接

                        if src2:

                            count += 1

                            img_path = 'img/' + str(count) + ".jpg"  # 拼接图片存储路径以及文件名称

                            re_img = requests.get(src2)  # 下载图片

                            with open(img_path, 'wb')as f:  # 打开图片，存储

                                f.write(re_img.content)  # 获取图片内容

                    print('完成第{}页'.format(i))

            except Exception as e:

                print(e)

        return text('爬取成功')

if __name__ == '__main__':

    app.run(host="127.0.0.1", port=8811, workers=8)

翻页爬取网页图片并下载

３.爬取新闻,信息存储到本地txt文件中(aiohttp+sanic+BeautifulSoup解析html)

import aiohttp

from sanic import Sanic

from bs4 import BeautifulSoup

from sanic import response

app = Sanic(__name__)

async def get_content(url):

    async with aiohttp.ClientSession() as session:

        # for i in range(1,4):

        async with session.get(url) as ret:

            res = await ret.text()

            # print(url)

            # print(res)

            soup = BeautifulSoup(res, 'html.parser')

            div = soup.find(name="div", attrs={"id": "auto-channel-lazyload-article"})

            li_list = div.find_all(name="li")

            for li in li_list:

                title = li.find(name="h3")

                if not title:

                    continue

                p = li.find(name="p")

                a = li.find(name="a")

                # print(title.text)

                # print(a.attrs.get("href"))

                # print(p.text)

                with open('sanic_log.txt', 'a')as f:  # 把信息存储到sanic_log文本中

                    f.write('标题：' + title.text + '\n')

                    f.write('链接：' + a.attrs.get("href") + '\n')

                    f.write('文本：' + p.text)

@app.route('/index')

async def index(request):

    url = 'https://www.autohome.com.cn/news/'

    Loop = request.app.loop

    Loop.create_task(get_content(url))

    return response.text('hello sprider')

if __name__ == '__main__':

    app.run(host="127.0.0.1", port=8811, workers=8)

#"""

标题：10月27日预售 新款瑞虎5x更多信息曝光

链接：//www.autohome.com.cn/news/201810/923880.html#pvareaid=102624

文本：[汽车之家 新闻]  日前，我们从官方渠道获悉，新款奇瑞瑞虎5x 1.5L款将在10月27日全面开启预售。作为奇瑞汽车的核心车型，新车除了将搭载1.5...标题：广汽古惠南：未来或推方形/球形的汽车

链接：//www.autohome.com.cn/news/201810/923883.html#pvareaid=102624

文本：[汽车之家 新闻]  在10月19日举行的世界智能网联汽车大会上，广汽新能源总经理古惠南分享了他对未来汽车形态上的构想，他表示，未来汽车将不会只有轿车...标题：售19.28万起 长安福特蒙迪欧智控版上市

"""

爬取新闻

sanic+aiohttp爬虫demo(爬图片，新闻，数据)的更多相关文章

python爬虫——对爬到的数据进行清洗的一些姿势（5）
做爬虫,当然就要用数据.想拿数据进行分析,首先清洗数据.这个清洗数据包括清除无用数据列和维度,删除相同数据,对数据进行勘误之类的. 从各大不同新闻网站可以爬到重复新闻...这个可以有.之前为了对爬到的 ...
学习用java基于webMagic+selenium+phantomjs实现爬虫Demo爬取淘宝搜索页面
由于业务需要,老大要我研究一下爬虫. 团队的技术栈以java为主,并且我的主语言是Java,研究时间不到一周.基于以上原因固放弃python,选择java为语言来进行开发.等之后有时间再尝试pytho ...
Scrapy爬虫Demo 爬取资讯分类
爬取新浪网导航页所有下所有大类.小类.小类里的子链接,以及子链接页面的新闻内容. 效果演示图: items.py import scrapy import sys reload(sys) sys.se ...
Python3.x爬虫教程：爬网页、爬图片、自己主动登录
林炳文Evankaka原创作品. 转载请注明出处http://blog.csdn.net/evankaka 摘要:本文将使用Python3.4爬网页.爬图片.自己主动登录.并对HTTP协议做了一个简单 ...
一个月入门Python爬虫，轻松爬取大规模数据
Python爬虫为什么受欢迎如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样的编程语言提供越来越多的优秀工具,让爬虫变得 ...
第一个nodejs爬虫：爬取豆瓣电影图片
第一个nodejs爬虫:爬取豆瓣电影图片存入本地: 首先在命令行下 npm install request cheerio express -save; 代码: var http = require( ...
python爬虫——爬取网页数据和解析数据
1.网络爬虫的基本概念网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序.只要浏览器能够做的事情,原则上,爬虫都能够做到. 2 ...
爬虫07 /scrapy图片爬取、中间件、selenium在scrapy中的应用、CrawlSpider、分布式、增量式
爬虫07 /scrapy图片爬取.中间件.selenium在scrapy中的应用.CrawlSpider.分布式.增量式目录爬虫07 /scrapy图片爬取.中间件.selenium在scrapy ...
一起学爬虫——如何爬取通过ajax加载数据的网站
目前很多网站都使用ajax技术动态加载数据,和常规的网站不一样,数据时动态加载的,如果我们使用常规的方法爬取网页,得到的只是一堆html代码,没有任何的数据. 请看下面的代码: url = 'http ...

随机推荐

Tomcat启动脚本（2）catalina.bat
@echo off rem Licensed to the Apache Software Foundation (ASF) under one or more rem contributor lic ...
Scala 槽点 - require
require def this(name: String, age: Int) = { this() require(name != null && !name.isEmpty, & ...
在已有QT项目中添加多个UI布局界面
1.在工程中右键->添加新文件,按图选择 2.选择窗口部件 3.创建UI控制类注意上图红框中命名按实际需要定义,否则后期改动要修改UI文件参数 4.修改UI文件,框1是窗口部件父类,框2是UI ...
Linux下JDK1.6升级1.8版本
先不管是否已安装JDK1.6还是JDK1.7,先下载 jdk-8u45-linux-x64.rpm 然后上传到 /usr/local/src 去.当然其他目录也可以.这里是默认位置给所有用户 ...
JsonSchema 启蒙
jsonSchema 的应用场景有很多,毕竟现在各个接口传输数据基本都是json,比如你做测试想对部分json字段进行校验或者统计你该如何写?解析json获取字段然后if else?不是说不可以但是也 ...
4、服务注册&服务提供者
1.什么是服务提供者服务提供者(Service Provider):是指服务的被调用方(即:为其它服务提供服务的服务):服务提供者,作为一个Eureka Client,向Eureka Server做 ...
Cobalt Strike特征修改
一.Teamserver模块端口信息 vim teamserver修改Cobalt Strike默认服务端50500端口为其他任意端口二.SSL默认证书信息 Cobalt Strike默认SSL证书 ...
ubuntu:beyond compare 4 This license key has been revoked 解决办法
错误如图所示: 解决办法: (1)先用find命令找到bcompare所在位置:sudo find /home/ -name '*bcompare' ()进入 /home/whf/.config,删除 ...
Tomcat启动后中文乱码，怎么解决这个问题
今天很疑惑这个问题,于是去网上找了答案,结果是需要修改Tomcat根目录下面的"logging.properties"文件,把所有的encoding=UTF-8的改成encodng ...
js中如何避免动态引入重复资源
创建存储数据的数组或者对象: 每次调用方法的时候,往里面添加资源对象,包括路径: 每次调用的时候遍历此路劲是否存在,如存在,就调用此资源对象的promise进行操作. 可避免资源未加载完成就执行的情况 ...

sanic+aiohttp爬虫demo(爬图片，新闻，数据)

sanic+aiohttp爬虫demo(爬图片，新闻，数据)的更多相关文章

随机推荐

热门专题