Python 爬虫-抓取中小企业股份转让系统公司公告的链接并下载

系统运行系统:MAC

用到的python库：selenium、phantomjs等

由于中小企业股份转让系统网页使用了javasvript，无法用传统的requests、BeautifulSoup库获取想要的下载链接，所以这次使用selenium、phantomjs库，这两个库的安装方法百度搜索就可以找到。本次代码只抓取一页的下载链接并下载pdf文档。

抓取源代码如下：

from selenium import webdriver

from urllib.request import urlretrieve

import os, time

class DownloadFiles():

    def __init__(self):

        self.url = 'http://www.neeq.com.cn/disclosure/announcement.html'

        self.basePath = os.path.dirname(__file__)

    def makedir(self, name):

        path = os.path.join(self.basePath, name)

        isExist = os.path.exists(path)

        if not isExist:

            os.makedirs(path)

            print('File has been created.')

        else:

            print('The file is existed.')

        # 切换到该目录下

        os.chdir(path)

    def connect(self, url):

        driver = webdriver.PhantomJS()

        driver.get(url)

        return driver

    def getFiles(self):

        driver = self.connect(self.url)

        self.makedir('Files')

        aList = driver.find_elements_by_tag_name('a')

        for r in aList:

            try:

                link = r.get_attribute('href')

                if link.endswith('pdf'):

                    print(r.text)

                    print(link)

                    fileName = r.text + '.pdf'

                    urlretrieve(link, fileName)

            except:

                pass

if __name__ == '__main__':

    obj = DownloadFiles()

    obj.getFiles()

抓取单页javascript中的链接并下载

Python 爬虫-抓取中小企业股份转让系统公司公告的链接并下载的更多相关文章

python爬虫抓取一个网站的所有网址链接
sklearn实战-乳腺癌细胞数据挖掘 https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campai ...
python 爬虫抓取心得
quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quo ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...
python爬虫抓取哈尔滨天气信息（静态爬虫）
python 爬虫爬取哈尔滨天气信息 - http://www.weather.com.cn/weather/101050101.shtml 环境: windows7 python3.4(pip i ...
Python爬虫抓取某音乐网站MP3（下载歌曲、存入Sqlite）
最近右胳膊受伤,打了石膏在家休息.为了实现之前的想法,就用左手打字.写代码,查资料完成了这个资源小爬虫.网页爬虫, 最主要的是协议分析(必须要弄清楚自己的目的),另外就是要考虑对爬取的数据归类,存储. ...
Python爬虫 -- 抓取电影天堂8分以上电影
看了几天的python语法,还是应该写个东西练练手.刚好假期里面看电影,找不到很好的影片,于是有个想法,何不搞个爬虫把电影天堂里面8分以上的电影爬出来.做完花了两三个小时,撸了这么一个程序.反正蛮简单 ...
Python 爬虫: 抓取花瓣网图片
接触Python也好长时间了,一直没什么机会使用,没有机会那就自己创造机会!呐,就先从爬虫开始吧,抓点美女图片下来. 废话不多说了,讲讲我是怎么做的. 1. 分析网站想要下载图片,只要知道图片的地址 ...

随机推荐

Jmeter-【If控制器】-__jexl3函数&__groovy函数
一.使用场景根据请求返回结果中某一字段的取值判断往下走的流程.例如: 二.__jexl3函数实现格式:${__jexl3(,)} 三.__groovy函数实现格式:${__groovy(,)}
SQL 删除
SQL Delete 语句(删除表中的记录) DELETE语句用于删除表中现有记录. SQL DELETE 语句 DELETE 语句用于删除表中的行. SQL DELETE 语法 DELETE FRO ...
Read Uncommitted
Read Uncommitted是隔离级别最低的一种事务级别.在这种隔离级别下,一个事务会读到另一个事务更新后但未提交的数据,如果另一个事务回滚,那么当前事务读到的数据就是脏数据,这就是脏读(Dirt ...
luoguP2148 [SDOI2009]E&D [sg函数][组合游戏]
题目描述小E 与小W 进行一项名为“E&D”游戏. 游戏的规则如下: 桌子上有2n 堆石子,编号为1..2n.其中,为了方便起见,我们将第2k-1 堆与第2k 堆 (1 ≤ k ≤ n)视为 ...
C++ STL(一)介绍及string
STL: C++标准模板库的简称,它是C++的一部份.标准C++库的所有的标识符都是在一个名为std的命名空间中定义的在使用STL中相关模板时,需要包含相关头文件,然后using namespace ...
随机生成一串字符串（java）
该随笔为开发笔记今天在公司接手了一个项目,在看该项目老代码时,发现上一位大佬写的随机取一串字符串还不错,在此做一次开发笔记在他的基础上我做了点改动,但是原理一样 /** * 随机取一段字符串方法1 ...
SpringBoot项目框架下ThreadPoolExecutor线程池+Queue缓冲队列实现高并发中进行下单业务
主要是自己在项目中(中小型项目) 有支付下单业务(只是办理VIP,没有涉及到商品库存),目前用户量还没有上来,目前没有出现问题,但是想到如果用户量变大,下单并发量变大,可能会出现一系列的问题,趁着空闲 ...
TFS 中如何将项目加入已有的源代码管理器中？
Visual Studio 的某解决方案已经加入 Team Foundation Server,现在再将已经存在的项目加入到解决方案中,可是签入时,并没有把新加入的项目签入,怎么办呢? 在团队资源管理 ...
CentOS 搭建dns服务器解析任意域名
DNS服务器IP地址:192.168.1.219 服务器版本:centos6.6一:软件安装 [root@localhost ~]# yum -y install bind* 二:修改主配置文件 [r ...
C# 中如何输出双引号（转义字符的使用）
实现效果: 输出这样的一个含有双引号的字符串 "hello" 方式一: 不用 @ 时转义 System.Console.WriteLine("\"he ...

Python 爬虫-抓取中小企业股份转让系统公司公告的链接并下载

Python 爬虫-抓取中小企业股份转让系统公司公告的链接并下载的更多相关文章

随机推荐

热门专题