python3 爬取深圳主板公司名称，公司网址

需要阅读的文档：

Requests：http://cn.python-requests.org/zh_CN/latest/user/quickstart.html

BeautifulSoup：https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
说明：

爬虫入口网址：http://www.cninfo.com.cn/cninfo-new/information/companylist

抓取目标：公司代码公司名称、公司公告地址
python3.5完整代码如下：

import codecs                    #内置自然语言编码转换库

import csv                       #内置csv模块

import requests                  #网页下载器模块

from bs4 import BeautifulSoup    #网页解析器模块

def getHTML(url):                #定义下载网页内容的函数

    r = requests.get(url)        #返回一个响应

    return r.text                #响应的内容

def parseHTML(html):             #定义解析网页内容（抓取目标）的函数

    soup = BeautifulSoup(html, 'html.parser')   #使用html.parser这个python内置解析器解析html这个页面的源代码

    body = soup.body                #返回页面body信息

    company_middle = body.find('div', attrs={'class': 'middle'})       #返回body里面class为middle的div标签

    company_list_ct = company_middle.find('div', attrs={'class': 'list-ct'}) #返回middle里面class为list-ct的div标签

    company_list = []  #将公司数据先设为空列表

    for company_ul in company_list_ct.find_all('ul', attrs={'class': 'company-list'}):   # 在list-ct里面搜索class为company-list的ul标签

        for company_li in company_ul.find_all('li'):  #在ul里面搜索li标签

            company_url = company_li.a['href'] #公司url就是li里面标签为a，属性为href的值

            company_info = company_li.get_text()#公司名字用这个方法来获取

            company_list.append([company_info, company_url]) #把公司名称和网址添加到那个空列表里面

    return company_list #然后返回出来

def writeCSV(file_name,data_list):          #定义一个scv文件的函数，两个参数，一个是文件名字，一个文件内容

    with codecs.open(file_name, 'w') as f:  #打开一个文件

        writer = csv.writer(f)              #把空文件转为csv文件？

        for data in data_list:          #循环data_list里面的每一条数据

            writer.writerow(data)       #把data_list里面的数据写进csv文件

URL = 'http://www.cninfo.com.cn/cninfo-    new/information/companylist'        #设变量

html = getHTML(URL)                  #调取函数

data_list = parseHTML(html)          #调取函数

writeCSV('test.csv', data_list)      #调取函数

运行结果为在当前代码文件所在的文件夹生成一个test.csv文件，内容不完整截图如下：

原文地址：https://zhuanlan.zhihu.com/p/21452812

python3 爬取深圳主板公司名称，公司网址的更多相关文章

Python3爬取人人网（校内网）个人照片及朋友照片，并一键下载到本地~~~附源代码
题记: 11月14日早晨8点,人人网发布公告,宣布人人公司将人人网社交平台业务相关资产以2000万美元的现金加4000万美元的股票对价出售予北京多牛传媒,自此,人人公司将专注于境内的二手车业务和在美国 ...
python3爬取女神图片，破解盗链问题
title: python3爬取女神图片,破解盗链问题 date: 2018-04-22 08:26:00 tags: [python3,美女,图片抓取,爬虫, 盗链] comments: true ...
python3爬取微博评论并存为xlsx
python3爬取微博评论并存为xlsx**由于微博电脑端的网页版页面比较复杂,我们可以访问手机端的微博网站,网址为:https://m.weibo.cn/一.访问微博网站,找到热门推荐链接我们打开微 ...
python3爬取网页
爬虫 python3爬取网页资源方式(1.最简单: import'http://www.baidu.com/'print2.通过request import'http://www.baidu.com' ...
Python3 爬取微信好友基本信息，并进行数据清洗
Python3 爬取微信好友基本信息,并进行数据清洗 1,登录获取好友基础信息: 好友的获取方法为get_friends,将会返回完整的好友列表. 其中每个好友为一个字典列表的第一项为本人的账号信息 ...
python3爬取全民K歌
Python3爬取全民k歌环境 python3.5 + requests 1.通过歌曲主页链接爬取首先打开歌曲主页,打开开发者工具(F12). 选择Network,点击播放,会发现有一个请求返回的 ...
Python3爬取猫眼电影信息
Python3爬取猫眼电影信息 import json import requests from requests.exceptions import RequestException import ...
python3 爬虫爬取深圳公租房轮候库（深圳房网）
深圳公租房轮候库已经朝着几十万人的规模前进了,这是截至16年10月之前的数据了,贴上来大家体会下所以17年已更新妥妥的10W+ 今天就拿这个作为爬虫的练手项目 1.环境准备: 操作系统:win10 ...
Python3爬取中文网址
本以为Python3的中文兼容性无比友好,结果还是会有一点问题的. 解决方案如下,就以爬取我自己的一个网页极简翻译为例 #coding:utf8 import urllib.request impor ...

随机推荐

【九度OJ】题目1074：对称平方数解题报告
[九度OJ]题目1074:对称平方数解题报告标签(空格分隔): 九度OJ 原题地址:http://ac.jobdu.com/problem.php?pid=1074 题目描述: 打印所有不超过n( ...
【LeetCode】846. Hand of Straights 解题报告（Python & C+）
作者: 负雪明烛 id: fuxuemingzhu 个人博客: http://fuxuemingzhu.cn/ 目录题目描述题目大意解题方法日期题目地址:https://leetcode.c ...
【剑指Offer】10- I. 斐波那契数列解题报告（Python & C++）
作者: 负雪明烛 id: fuxuemingzhu 个人博客:http://fuxuemingzhu.cn/ 个人微信公众号:负雪明烛目录题目描述解题方法递归动态规划日期题目地址:htt ...
【LeetCode】709. To Lower Case 解题报告（Python）
作者: 负雪明烛 id: fuxuemingzhu 个人博客: http://fuxuemingzhu.cn/ 目录题目描述: 题目大意解题方法 ASIIC码操作日期题目地址:https:// ...
[炼丹术]UNet图像分割模型相关总结
UNet图像分割模型相关总结 1.制作图像分割数据集 1.1使用labelme进行标注 (注:labelme与labelImg类似,都属于对图像数据集进行标注的软件.但不同的是,labelme更关心对 ...
[opencv]Rect集合象限法分类聚合　函数
/** * 矩形拟合 * @param mats * @return */ vector<Rect> PublicCardFrameDetection::RectContainFit(ve ...
C语言string操作
创建方式字符数组:空间已定字符指针:未分配空间初始化字符数组: 创建与赋值必须在同一行指定大小:未填满部分用'\0'填充用字符串初始化:末尾自动添加'\0' 不初始化赋值则乱值字符指针: ...
【MySQL作业】分组查询 group by 子句——美和易思分组查询应用习题
点击打开所使用到的数据库>>> 1.按照商品类型分组统计商品数量和平均单价,并按平均单价升序显示. -- 按照商品类型分组统计商品数量和平均单价,并按平均单价升序显示: select ...
编写Java程序，定义一个类似于ArrayList集合类
返回本章节返回作业目录需求说明: 设计一个类似于ArrayList的集合类ListArray. ListArray类模拟实现动态数组,在该类定义一个方法用于实现元素的添加功能,以及用于获取List ...
docker学习：docker---centos安装
查看目标镜像 docker search centos 拉取镜像 docker pull centos 查看镜像 docker images 启动镜像 docker run -itd --privil ...

python3 爬取深圳主板公司名称，公司网址

python3 爬取深圳主板公司名称，公司网址的更多相关文章

随机推荐

热门专题