python 火车票爬取代码

1、根据搜索词下载百度图片：

# -*- coding: utf-8 -*-

"""根据搜索词下载百度图片"""

import re

import sys

import urllib

import requests

def get_onepage_urls(onepageurl):

    """获取单个翻页的所有图片的urls+当前翻页的下一翻页的url"""

    if not onepageurl:

        print('已到最后一页, 结束')

        return [], ''

    try:

        html = requests.get(onepageurl)

        html.encoding = 'utf-8'

        html = html.text

    except Exception as e:

        print(e)

        pic_urls = []

        fanye_url = ''

        return pic_urls, fanye_url

    pic_urls = re.findall('"objURL":"(.*?)",', html, re.S)

    fanye_urls = re.findall(re.compile(r'<a href="(.*)" class="n">下一页</a>'), html, flags=0)

    fanye_url = 'http://image.baidu.com' + fanye_urls[0] if fanye_urls else ''

    return pic_urls, fanye_url

def down_pic(pic_urls):

    """给出图片链接列表, 下载所有图片"""

    for i, pic_url in enumerate(pic_urls):

        try:

            pic = requests.get(pic_url, timeout=15)

            string = str(i + 1) + '.jpg'

            with open(string, 'wb') as f:

                f.write(pic.content)

                print('成功下载第%s张图片: %s' % (str(i + 1), str(pic_url)))

        except Exception as e:

            print('下载第%s张图片时失败: %s' % (str(i + 1), str(pic_url)))

            print(e)

            continue

if __name__ == '__main__':

    keyword = '火车票'  # 关键词, 改为你想输入的词即可, 相当于在百度图片里搜索一样

    url_init_first = r'http://image.baidu.com/search/flip?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=1497491098685_R&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&ctd=1497491098685%5E00_1519X735&word='

    url_init = url_init_first + urllib.parse.quote(keyword, safe='/')

    all_pic_urls = []

    onepage_urls, fanye_url = get_onepage_urls(url_init)

    all_pic_urls.extend(onepage_urls)

    fanye_count = 0  # 累计翻页数

    while 1:

        onepage_urls, fanye_url = get_onepage_urls(fanye_url)

        fanye_count += 1

        # print('第页' % str(fanye_count))

        if fanye_url == '' and onepage_urls == []:

            break

        all_pic_urls.extend(onepage_urls)

    down_pic(list(set(all_pic_urls)))

链接：https://blog.csdn.net/xiligey1/article/details/73321152　　

2、根据搜索词下载谷歌、必应、百度图片

# coding:utf-8

# 基于icrawler第三方库同时爬取google，baidu，bing图片，并对名称进行重写，数据进行分类

# 图片存放路径为：base_dir='F:/文档/text'

import logging

import sys

import base64

from datetime import date

from icrawler.builtin import BaiduImageCrawler, BingImageCrawler, GoogleImageCrawler

from icrawler import ImageDownloader

from icrawler.builtin import GoogleImageCrawler

from six.moves.urllib.parse import urlparse

class PrefixNameDownloader(ImageDownloader):

    def get_filename(self, task, default_ext):

        filename = super(PrefixNameDownloader, self).get_filename(

            task, default_ext)

        return 'prefix_' + filename

class Base64NameDownloader(ImageDownloader):

    def get_filename(self, task, default_ext):

        url_path = urlparse(task['file_url'])[2]

        if '.' in url_path:

            extension = url_path.split('.')[-1]

            if extension.lower() not in [

                    'jpg', 'jpeg', 'png', 'bmp', 'tiff', 'gif', 'ppm', 'pgm'

            ]:

                extension = default_ext

        else:

            extension = default_ext

        filename = base64.b64encode(url_path.encode()).decode()

        return '{}.{}'.format(filename, extension)

def test_google(dir,keyword):

    print('启用google爬虫')

    google_crawler = GoogleImageCrawler(parser_threads=20,

                                        downloader_threads=20,

                                        downloader_cls=Base64NameDownloader,

                                        storage={'root_dir': dir},

                                        log_level = logging.INFO)

    google_crawler.crawl(keyword=keyword, offset=0, max_num=1000,min_size=(200,200), max_size=None)

def test_bing(dir,keyword):

    keyword = keyword.replace(': flickr.com', '')

    print('启用bing爬虫',keyword)

    bing_crawler = BingImageCrawler(

                                    # parser_threads=16,

                                    downloader_cls=Base64NameDownloader,

                                    downloader_threads=16,

                                    storage={'root_dir': dir},

                                    log_level=logging.DEBUG)

    bing_crawler.crawl(keyword=keyword,offset=0, max_num=1000,min_size=None,max_size=None)

def test_baidu(dir,keyword):

    keyword = keyword.replace(': flickr.com', '')

    print('启用百度爬虫',keyword)

    baidu_crawler = BaiduImageCrawler(

                                    # parser_threads=16,

                                    # downloader_threads=16,

                                    downloader_cls=Base64NameDownloader,

                                    storage={'root_dir': dir},

                                    log_level = logging.DEBUG)

    baidu_crawler.crawl(keyword=keyword, offset=0,max_num=1000,min_size=None,max_size=None)

def main():

##################################################################

            keyword='火车票'

            base_dir='F:/文档/text'

            if len(sys.argv) == 1:

                dst = 'all'

            else:

                dst = sys.argv[1:]

            if 'all' in dst:

                dst = ['google', 'bing', 'baidu',]

            if 'google' in dst:

                test_google(base_dir,keyword)

            if 'bing' in dst:

                test_bing(base_dir,keyword)

            if 'baidu' in dst:

                test_baidu(base_dir,keyword)

if __name__ == '__main__':

    main()

链接：https://github.com/Crawler-y/Image_crawl-

3、github 搜索爬虫，有许多有趣的项目。

python 火车票爬取代码的更多相关文章

使用python scrapy爬取知乎提问信息
前文介绍了python的scrapy爬虫框架和登录知乎的方法. 这里介绍如何爬取知乎的问题信息,并保存到mysql数据库中. 首先,看一下我要爬取哪些内容: 如下图所示,我要爬取一个问题的6个信息: ...
大神：python怎么爬取js的页面
大神:python怎么爬取js的页面可以试试抓包看看它请求了哪些东西, 很多时候可以绕过网页直接请求后面的API 实在不行就上 selenium (selenium大法好) selenium和pha ...
python连续爬取多个网页的图片分别保存到不同的文件夹
python连续爬取多个网页的图片分别保存到不同的文件夹作者:vpoet mail:vpoet_sir@163.com #coding:utf-8 import urllib import ur ...
python定时器爬取豆瓣音乐Top榜歌名
python定时器爬取豆瓣音乐Top榜歌名作者:vpoet mail:vpoet_sir@163.com 注:这些小demo都是前段时间为了学python写的,现在贴出来纯粹是为了和大家分享一下 # ...
python大规模爬取京东
python大规模爬取京东主要工具 scrapy BeautifulSoup requests 分析步骤打开京东首页,输入裤子将会看到页面跳转到了这里,这就是我们要分析的起点我们可以看到这个页面 ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
python scrapy爬取知乎问题和收藏夹下所有答案的内容和图片
上文介绍了爬取知乎问题信息的整个过程,这里介绍下爬取问题下所有答案的内容和图片,大致过程相同,部分核心代码不同. 爬取一个问题的所有内容流程大致如下: 一个问题url 请求url,获取问题下的答案个数 ...
Python+Selenium爬取动态加载页面（2）
注: 上一篇<Python+Selenium爬取动态加载页面(1)>讲了基本地如何获取动态页面的数据,这里再讲一个稍微复杂一点的数据获取全国水雨情网.数据的获取过程跟人手动获取过程类似,所 ...
Python+Selenium爬取动态加载页面（1）
注: 最近有一小任务,需要收集水质和水雨信息,找了两个网站:国家地表水水质自动监测实时数据发布系统和全国水雨情网.由于这两个网站的数据都是动态加载出来的,所以我用了Selenium来完成我的数据获取. ...

随机推荐

windows及linux下安装django simple captcha 遇到的各种问题及解决的方法
转载自http://www.cnblogs.com/descusr/p/3225874.html 全部程序写完之后,验证码图片不显示,点击图片地址会提演示样例如以下错误,而且在linux下的纠正办法 ...
spingBoot-自定义过滤器
package com.cx.springboot.filters; import java.io.IOException; import javax.servlet.Filter; import j ...
JavaScript程序员必备的5个debug技巧
1. debugger:我以前也说过,你可以在JavaScript代码中加入一句debugger;来手工造成一个断点效果.需要带有条件的断点吗?你只需要用if语句包围它: if (somethingH ...
python 将有序list打乱
利用random模块下的shuffle函数就能够实现. 关于官网对于shuffle,我感觉说法上有一定的误解. 上面是官网的解释,他说会返回打乱的list,事实上什么也没有返回. 能够看到返回的是No ...
ASP.NET MVC：看 MVC 源码，学习：如何将 Area 中的 Controller 放到独立的程序集？
背景本文假设您已经熟悉了 ASP.NET MVC 的常规开发方式.执行模型和关键扩展点,这里主要说一下如何使用 ASP.NET MVC 的源代码解决一些问题. 如何将 Area 中的 Control ...
(转)找回vss超级管理员密码
原文:http://www.cnblogs.com/446557021/archive/2011/01/05/1926213.html 如果忘记了VSS管理员密码,打开vss数据库所在的文件夹,打开d ...
[Android Pro] Android 必知必会-使用 supportV4 的 RoundedBitmapDrawable 实现圆角
RoundedBitmapDrawable 是 supportV4 下的一个类,有了它,显示圆角和圆形图片的情况下就不需要额外的第三方类库了,还能和各种图片加载库配合使用. 背景今天无意间看到一段实 ...
[Compose] 9. Delay Evaluation with LazyBox
We rewrite the Box example using lazy evaulation. Here is Box example: const Box = (x) => ({ map: ...
docker桥接
Ifconfig docker0 down Brctl delvr docker0 进入到网卡配置文件修改eth0网卡参数加入BIRDGE=br0 创建一个br0 其中ip为真实机的ip 更改do ...
Python网络爬虫 - 1. 准备工作
1. 安装Beautiful Soup 下载地址 http://www.crummy.com/software/BeautifulSoup/bs4/download/4.4/ 解压后,进入根目录控制 ...

python 火车票爬取代码

python 火车票爬取代码的更多相关文章

随机推荐

热门专题