python爬虫踩坑教程

我们的目标是爬取下面这个个网址上的2010~2018年的数据

http://stockdata.stock.hexun.com/zrbg/Plate.aspx?date=2015-12-31

获取我们需要的表格中的某些列的数据

（这是我从我的微信公众号帮过来的文章）

第一步，我们首先用谷歌浏览器查看网页源码，但是可以说现在的数据都是js动态传输不可能会在原始网页上显示，所以这一步其实是没用的。

第二步，我们分析网页元素，ctrl+shift+c

依然没有多大用，因为每一页只显示20条数据，而且我们发现点下一页的时候，网页网址并没有跳转或改变

这时只能看network元素了

我们知道了数据都是通过这个链接去获取的http://stockdata.stock.hexun.com/zrbg/data/zrbList.aspx?date=2016-12-31&count=20&pname=20&titType=null&page=1&callback=hxbase_json11556366554151

通过尝试发现，有用的参数只有page和count

page表示第几页，count表示每页采集多少条数据

第三步，现在我们开始写代码

第一次我们遇到了403错误，因为我们直接发送url，没有对头部进行代理设置，所以被反爬了。

第二次，纠结urllib2和urllib和requests用哪个

1）下面是urllib的使用

import urllib.request

req = urllib.Request(url)

req = urllib.request.Request(url)

req.add_header("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36")

req.add_header("GET",url)

req.add_header("Host","stockdata.stock.hexun.com")

#使用read()方法才能读取到字节而不是httpresopnse

#同时out必须是写入str而不是字节

content = urllib.request.urlopen(req).read()

发现read方法得到的只是字节而不是字符串，然后我就不知道怎么办了，放弃。，使用requests

2）Requests

requests模块的介绍：能够帮助我们发起请求获取响应

response常见的属性：

response.text 响应体 str类型

respones.content 响应体 bytes类型

response.status_code 响应状态码

response.request.headers 响应对应的请求头

response.headers 响应头

response.request._cookies 响应对应请求的cookie

response.cookies 响应的cookie（经过了set-cookie动作）

解决网页的解码问题：

response.content.decode()

response.content.decode("GBK")

基本使用:

1.requests.get(url,headers,params,cookies,proxies)

headers:字典请求头

cookies: 字典携带的cookie

params: 字典 url地址的参数

proxies: 字典代理ip

2.requests.post(url,data,headers)

data: 字典请求体

requests发送post请求使用requests.post方法，带上请求体，其中请求体需要时字典的形式，传递给data参数接收

在requests中使用代理，需要准备字典形式的代理，传递给proxies参数接收

第三次，试了一下post方法，除了200，什么都没返回，说明和network上显示的一样，只能get方法。

第四次，得到的json数据，想要用load方法去解析json，可惜网页得到的json格式不是正宗的，比如key没有双引号，只能用正则表达式去处理

JSON到字典转化：

》》》dictinfo = json.loads(json_str) 输出dict类型

字典到JSON转化：

》》》jsoninfo = json.dumps(dict)输出str类型

比如：

info = {'name' : 'jay', 'sex' : 'male', 'age': 22}

jsoninfo = simplejson.dumps(info)

print jsoninfo 

Unicode到字典的转化：

》》》 json.loads()

比如：

import json

str = '{"params":{"id":222,"offset":0},{"nodename":"topic"}'

params = json.loads(str)

print params['params']['id']

原始json数据

hxbase_json1(

{

  sum:3591,

  list:[

  {

  Number:'21',

  StockNameLink:'stock_bg.aspx?code=002498&amp;date=2016-12-31',

  industry:'���¹ɷ�(002498)',

  stockNumber:'20.98',

  industryrate:'76.92',

  Pricelimit:'B',

  lootingchips:'10.93',

  Scramble:'15.00',

  rscramble:'23.00',

  Strongstock:'7.01',

  Hstock:' <a href="http://www.cninfo.com.cn/finalpage/2017-04-27/1203402047.PDF" target="_blank"><img alt="" src="img/table_btn1.gif"/></a>',

  Wstock:'<a href="http://stockdata.stock.hexun.com/002498.shtml" target="_blank"><img alt="" src="img/icon_02.gif"/></a>',

  Tstock:'<img "="" alt="" code="" codetype="" onclick="addIStock(\'002498\',\'1\');" src="img/icon_03.gif"/>'

  },

  {Number:'22',

  StockNameLink:'stock_bg.aspx?code=002543&amp;date=2016-12-31',

  industry:'��͵���(002543)',

  ....}

  ]

 })

正则表达式

p1 = re.compile(r'[{](.*)[}]', re.S) #最大匹配

p2 = re.compile(r'[{](.*?)[}]', re.S) #最小匹配

res = re.findall(p1, r.text)

得到的是一个len为1 的list，是最外层{}里面的内容

res = re.findall(p2, res[0])

得到的是一个len为最里层{}数目的list，是最里层{}里面的内容

第五次，编码问题

outfile = open(filename, 'w', encoding='utf-8')

打开的时候指定编码方式，解决

代码

#coding=utf-8

import requests

from bs4 import BeautifulSoup

import json

import re

date=["","","","","","","","",""]

#url = r'http://stockdata.stock.hexun.com/zrbg/data/zrbList.aspx?date=2016-12-31&count=20&pname=20&titType=null&page=2'

firsturl = r'http://stockdata.stock.hexun.com/zrbg/data/zrbList.aspx?date='

dayurl ="-12-31"

num = 0

header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36",

"Host":"stockdata.stock.hexun.com"}

for num in range(2,6):

    print("start year :",date[num])

    filename = 'D:\\company'+date[num]+'.txt'

    print("store file is:", filename)

    outfile = open(filename, 'w', encoding='utf-8')

    pagenum = 1

    content = ""

    for pagenum in range(1,40):

        url = firsturl + date[num] + dayurl + "&count=100&page=" + str(pagenum)

        print(url)

        r = requests.get(url, headers=header)

        p1 = re.compile(r'[{](.*)[}]', re.S)

        p2 = re.compile(r'[{](.*?)[}]', re.S)

        res = re.findall(p1, r.text)

        # print("len:",len(res))

        # print(res)

        res = re.findall(p2, res[0])

        print("len:",len(res))

        if (len(res) == 0):

            print("this page had not enough 100 datas, proving this year fininshed")

            break

        for i in res:

            content += date[num] + "\t"

            para = i.split(",")

            for j in para:

                #print(j)

                attr = j.split(":")

                #print(attr[1])

                if ((attr[0] == 'Number') | (attr[0] == "industry")|(attr[0] == "industryrate")\

                    |(attr[0] =="Pricelimit") | (attr[0] == "stockNumber")\

                    |(attr[0] =="lootingchips") | (attr[0] == "Scramble") \

                    |(attr[0] =="rscramble") | (attr[0] == "Strongstock")):

                    content += attr[1][1:-1] + "\t"

            content+="\n"

    #print(content)

    print(date[num],"done")

    outfile.write(content)

    outfile.close()

python爬虫踩坑教程的更多相关文章

《Python爬虫学习系列教程》学习笔记
http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把一些学习的笔记总结下来,还记录了一些自己 ...
Python爬虫框架Scrapy教程(1)—入门
最近实验室的项目中有一个需求是这样的,需要爬取若干个(数目不小)网站发布的文章元数据(标题.时间.正文等).问题是这些网站都很老旧和小众,当然也不可能遵守 Microdata 这类标准.这时候所有网页 ...
[转]《Python爬虫学习系列教程》
<Python爬虫学习系列教程>学习笔记 http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多. ...
Python爬虫学习系列教程
最近想学一下Python爬虫与检索相关的知识,在网上看到这个教程,觉得挺不错的,分享给大家. 来源:http://cuiqingcai.com/1052.html 一.Python入门 1. Pyth ...
python 爬虫新手入门教程
python 爬虫新手教程一.什么是爬虫爬虫就是把一个网站里的内容读取下来这里我们就要学习一个知识我们看到的网页是有一种叫HTML的语言编写的他可以给文字显示不同的样式如:<p> ...
python爬虫-爬坑之路
背景简介爬取外国的某两个网站的数据,网站都没有被墙,爬取三种数据. A: 爬取页面并存储到数据库 B: 爬取页面内的表格内数据并存储到数据库 C: 爬取页面,分析页面并将页面的所有数据分类存入数据库 ...
利用树莓派跑python爬虫的简单教程——从无到有
因为学校项目的原因入手了树莓派,到手先折腾了两天,发现网上的教程大都是拿他搭建服务器,mail,或者媒体服务器之类,对于在学校限时的宽带来说有点不太现实,不过低功耗适合一直开着的确启发了我.所以想到拿 ...
Windows+Apache+Python+Django 踩坑记录
摘要使用Python进行Web项目开发:相对于主流三大Web端解决方案(Java/.NET/PHP) Python在某些方面具有一定的优势,相对 Java/.NET 有更轻量级的部署方案,相对PHP ...
Python爬虫快速上手教程
1 这个是什么整理Python中requests常用的API 2 代码 from bs4 import BeautifulSoup import requests import re ...

随机推荐

HTML学习笔记5：修饰符和特殊标签
①修饰符: 作用:修饰显示的方式,并不改变网页的结构,需要修饰的内容写在修饰标签内常用文字和段落修饰符: 文字斜体:<i></i> 或 <em> ...
mysql学习第二章数据库的基本操作
3.1 创建数据库 MySQL安装好之后,首先需要创建数据库,这是使用MySQL各种功能的前提.本章将详细介绍数据的基本操作,主要内容包括:创建数据库.删除数据库.不同类型的数据存储引擎和存储引擎 ...
Netty 笔记
1.Netty 是一款异步的事件驱动的网络应用程序框架,支持快速地开发可维护的高性能的面向协议的服务器和客户端. 2.早期Java API 使用的阻塞函数 // 创建一个新的ServerSocket, ...
Maven学习（七）-- 使用Maven构建多模块项目
摘自:http://www.cnblogs.com/xdp-gacl/p/4242221.html 在平时的Javaweb项目开发中为了便于后期的维护,我们一般会进行分层开发,最常见的就是分为doma ...
CSS position(定位)属性
关于CSS position,来自MDN的描述: CSS position属性用于指定一个元素在文档中的定位方式.top.right.bottom.left 属性则决定了该元素的最终位置. 然后来看看 ...
敏捷方法之极限编程(XP)和 Scrum
区别之一: 迭代长度的不同 XP的一个Sprint的迭代长度大致为1~2周, 而Scrum的迭代长度一般为 2~ 4周. 区别之二: 在迭代中, 是否允许修改需求 XP在一个迭代中,如果一个User ...
DropZone（文件上传插件）
1. html文件 dropzone的原理是模拟表单来上传文件,html中的元素有多重形式. 可以建立一个form表单: <form id="dropz" action=&q ...
对try-catch-finally异常处理的最新理解
try{ ...... }catch(......){ }finally{ ...... } 这个结构是用来处理Java所有可能出现的异常的,这个我很早其实就已经学过,不过最近看了个视频,感觉自己虽然 ...
我珍藏的神兵利器 - 效率工具for Win[转]
工欲善其事必先利其器. 我一直都在不断挑选和优化自己的兵器,以追求着最高效率. 此篇分享下我的私家珍藏的各种神兵利器.如果有朋友能推荐更好的,那就不枉此篇. 分为Windows软件和开发工具两 ...
Lsyncd - 实时文件同步工具（精译）
原文: http://axkibe.github.io/lsyncd/ 描述 Lsyncd监视本地目录树事件监视器接口(inotify或fsevents).它聚集并组合事件几秒钟,然后生成一个(或多个 ...

python爬虫踩坑教程

python爬虫踩坑教程的更多相关文章

随机推荐

热门专题