Python转页爬取某铝业网站上的数据

天行健，君子以自强不息；地势坤，君子以厚德载物！

好了废话不多说，正式进入主题，前段时间应朋友的请求，爬取了某铝业网站上的数据。刚开始呢，还是挺不愿意的（主要是自己没有完整的爬取过网上的数据哎，即是不自信），但是在兄弟伙的面前不能丢脸卅，硬起头皮都要上，于是乎答应了他，好吧~~~~

我们的爬取目标：

http://www.chalco.com.cn/chalco/ywycp/cpbj/A120401web_1.htm

1、总共63页，每页有十几条的链接

2、爬取连接里面的数据（主要有产品名称、规格、合同、华东市场、华南市场、西南市场、中原市场、产品报价时间）

3、爬取的数据存为CSV格式

一、网页源代码分析:

1、分析网站每页的网址

第一页的网址：http://www.chalco.com.cn/chalco/ywycp/cpbj/A120401web_1.html

第二页的网址：http://www.chalco.com.cn/chalco/ywycp/cpbj/A120401web_2.html

第三页的网址：http://www.chalco.com.cn/chalco/ywycp/cpbj/A120401web_3.html

依次类推

咱们可以发现第63页的网址是：http://www.chalco.com.cn/chalco/ywycp/cpbj/A120401web_63.html

2、分析每页网页的源代码

通过查看第一页的网页的源代码，可以发现，第一页上的每天的产品报价的链接。

则，整体思路为：

（1）拼接所有页的网址（http://www.chalco.com.cn/chalco/ywycp/cpbj/A120401web_1.html）；

（2）解析出每页中的数据链接（<A href=/chalco/ywycp/cpbj/webinfo/2018/08/1533256568236442.htm target=_blank>中国铝业2018年8月3日产品报价</A>）；

（3）通过链接正则匹配出所需要的数据。

二、Python源码

此次爬取，使用的是request和re包！

 __Author__ = "MEET Shen"

 import requests

 import re

 import pandas as pd

 def get_allpage_url(n):

     '''

     得到所有页的连接

     '''

     totalpage_urls=[]

     for i in range(n):

         i=i+1

         url_change_page="http://www.chalco.com.cn/chalco/ywycp/cpbj/A120401web_{0}.htm".format(str(i))

         totalpage_urls.append(url_change_page)

     return totalpage_urls

 url=get_allpage_url(20)

 def get_datapage_url(data):

     '''

     http://www.chalco.com.cn/chalco/ywycp/cpbj/webinfo/2018/06/1530058323659676.htm

                             /chalco/ywycp/cpbj/webinfo/2018/06/1530058323659676.htm

     :return:

     '''

     #正则表达式进行解析出所有的数据连接

     pattern=re.compile('.*?</DIV><DIV class=cpbj-item-xz><A href=(.*?) target=_blank>.*?',re.S)

     items=re.findall(pattern,data)

     del items[0]

     result_url=[]

     for i in items:

         joint="http://www.chalco.com.cn{0}".format(i)

         result_url.append(joint)

     items_len=len(items)

     return result_url,items_len

 headers={"User-Agent":'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36'

                       ' (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 '

                       'Core/1.53.4482.400 QQBrowser/9.7.13001.400'}

 def get_everypage_data(result_url):

     response = requests.get(url=result_url, headers=headers)

     data = response.text

     pattern=re.compile('.*?<P><STRONG>日历时间：</STRONG>(.*?)</P>.*?'

                        '<TD bgColor=#ffffff>(.*?)</TD>.*?'

                        '<TD bgColor=#ffffff>(.*?) </TD>.*?'

                        '<TD bgColor=#ffffff>(.*?)</TD>.*?'

                        '<TD bgColor=#ffffff>(.*?)</TD>.*?'

                        '<TD bgColor=#ffffff>(.*?)</TD>.*?'

                        '<TD bgColor=#ffffff>(.*?)</TD>.*?'

                        '<TD bgColor=#ffffff>(.*?)</TD>.*?'

                        '<TD bgColor=#ffffff>(.*?)</TD>.*?'

                        ,re.S)

     items=re.findall(pattern,data)

     items1=list(items[0])

     items1[7] = items1[7].replace('<p>','')

     items1[7] = items1[7].replace('</p>','')

     items1[8] = items1[8].replace('<p>','')

     items1[8] = items1[8].replace('</p>','')

     items1[8] = items1[8].replace('&nbsp;</P>', '')

     items1[5] = items1[5].replace('<FONT size=3 face="Times New Roman">', '')

     items1[5] = items1[5].replace('</FONT>', '')

     items1[6] = items1[6].replace('<FONT size=3 face="Times New Roman">', '')

     items1[6] = items1[6].replace('</FONT>', '')

     items1[7] = items1[7].replace('<FONT size=3 face="Times New Roman">', '')

     items1[7] = items1[7].replace('</FONT>', '')

     items1[8] = items1[8].replace('<FONT size=3 face="Times New Roman">', '')

     items1[8] = items1[8].replace('</FONT>', '')

     return items1

 def get_asignpage_data():

     items = []

     for i in range(len(url)):

         response = requests.get(url=url[i], headers=headers)

         data = response.text

         result_url,items_len = get_datapage_url(data)

         for i in range(items_len):

             item=get_everypage_data(result_url[i])

             items.append(item)

     return items

 items=get_asignpage_data()

 #存为CSV格式

 import pandas as pd

 data=pd.DataFrame(items,columns={'time','产品名称','规格','合同','中铝企业','华东市场','华南市场','西南市场','中原市场'})

 print(data)

 data.to_csv('C:/Users/Administrator/PycharmProjects/untitled/data/lvye1.csv',sep=',')

三、爬取的最终结果

由于数据不很大，爬取的速度还是能够接受的，最终爬取的数据，且形成的CSV文件如下所示：

笔者还处于学习的状态，如有写得不够专业或有错误的地方，真心希望各位读者前来探讨！！！！！

Python转页爬取某铝业网站上的数据的更多相关文章

Python开发爬虫之BeautifulSoup解析网页篇：爬取安居客网站上北京二手房数据
目标:爬取安居客网站上前10页北京二手房的数据,包括二手房源的名称.价格.几室几厅.大小.建造年份.联系人.地址.标签等. 网址为:https://beijing.anjuke.com/sale/ B ...
04 Python网络爬虫 <<爬取get/post请求的页面数据>>之requests模块
一. urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib ...
Scrapy实战篇（七）之爬取爱基金网站基金业绩数据
本篇我们以scrapy+selelum的方式来爬取爱基金网站(http://fund.10jqka.com.cn/datacenter/jz/)的基金业绩数据. 思路:我们以http://fund.1 ...
利用python实现爬虫爬取某招聘网站，北京地区岗位名称包含某关键字的所有岗位平均月薪
#通过输入的关键字,爬取北京地区某岗位的平均月薪 # -*- coding: utf-8 -*- import re import requests import time import lxml.h ...
Python 2.7_爬取妹子图网站单页测试图片_20170114
1.url= http://www.mzitu.com/74100/x,2为1到23的值 2.用到模块 os 创建文件目录; re模块正则匹配目录名图片下载地址; time模块限制下载时间;req ...
python+xpath+requests爬取维基百科历史上的今天
import requests import urllib.parse import datetime from lxml import etree fhout = open("result ...
[代码]--python爬虫联系--爬取成语
闲来无事,玩了个成语接龙,于是就想用python爬取下成语网站上的成语,直接上代码: #coding=utf-8 import requests from bs4 import BeautifulSo ...
Python爬虫《爬取get请求的页面数据》
一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib. ...
[Python]爬取游民星空网站每周精选壁纸（1080高清壁纸）网络爬虫
一.检查首先进入该网站的https://www.gamersky.com/robots.txt页面给出提示: 弹出错误页面注: 网络爬虫:自动或人工识别robots.txt,再进行内容爬取约束 ...

随机推荐

Fiddler-设置取消自动更新
fiddler 启动时老弹出要更新,但不想更新,可以这样设置 Tools-Optons->General 把第一个√去掉
《代码不朽：编写可维护软件的10大要则(C#版)》读后感
本书作者Joost Visser,译者张若飞.本书讲解了编写可维护代码的10个要则,从目录就可以看出这10点分别是: 编写短小的代码单元(15行以内,在大部分情况下还是能实现的,但是当我们使用Linq ...
html基础知识梳理
1.浏览器内核补充:blink为Google与Opera共同开发. 2.web标准 web标准为w3c和其他标准化组织制定的一系列标准的集合.(标签闭合.小写.不乱嵌套,使用外链css/js;结构行 ...
apache与tomcat负载集群集成方法配置
apache与tomcat负载集群集成方法有3种jk.jk_proxy.http_proxy apache:httpd-2.2.17-win32-x86-no_ssl.msi tomcat:apach ...
PYTHON黑帽编程 4.1 SNIFFER(嗅探器)之数据捕获--补充
荒废了一个多月了,重新捡起来,手生了不少.发现在<4.1下>的文章里没有提到pcap库,实在是不应该. 在网络数据分析的工具中,tcpdump绝对是大名鼎鼎,tcpdump底层是libp ...
ECShop全系列版本远程代码执行高危漏洞分析+实战提权
漏洞概述 ECShop的user.php文件中的display函数的模版变量可控,导致注入,配合注入可达到远程代码执行.攻击者无需登录站点等操作,可以直接远程写入webshell,危害严重. 漏洞评级 ...
组合拳出击-Self型XSS变废为宝
前言作者:米斯特安全攻防实验室-Vulkey_Chen 博客:gh0st.cn 这是一个鸡肋性质的研究,也许有些标题党,请见谅- 本文启发于一些讨论,和自己脑子里冒出来的想法. 组合拳搭配 Self ...
win10怎么查看激活到期时间如何看是否永久激活
win10怎么查看激活到期时间如何看是否永久激活我们知道Windows系统需要激活后才可以使用全部功能,那么你的Windows10激活了吗?如何查看激活时间呢?是不是永久激活的?带着这些问题 ...
canvas转图片中的文字自动换行
概述最近项目用到了canvas转图片,但是由于canvas对文字排版的支持非常弱,一般我们在canvas上画不同排版的文字(比如竖排文字)都是利用js计算横纵坐标,然后一个字一个字地画出来,今天无意 ...
[Swift]在Swift项目中创建桥接头文件，Swift文件和Objective-C文件相互调用
创建一个Swift项目[demo],以下内容Swift文件和Objective-C文件相互调用都是在Swift项目中. 一.Swift文件调用Objective-C文件新建文件夹[SupportFi ...

Python转页爬取某铝业网站上的数据

Python转页爬取某铝业网站上的数据的更多相关文章

随机推荐

热门专题