关键词:爬虫、python、request、接口、excel处理、正则

思路:

1、首先准备好excel文档,把股票代码事先编辑进去。

2、脚本读取文档,依次读出股票代码到指定站点发起请求获取股票信息

3、将获取的股票信息简单处理,依次写入到指定的文档单元格中,完成整个实例过程

用到的python库:xlrd(读取excel)、requests(获取网页数据)、lxml(处理网页数据)、openpyyxl(对excel进行写入编辑)、re(正则)

具体步骤:

一,导入相关库

import xlrd  #引入读取excel库
import requests #倒入requests库
from lxml import etree #倒入lxml 库(没有这个库,pip install lxml安装)
import os
import sys
import openpyxl
import re

二,读取excel内的股票代码,写入数组(共后面的函数调用)

#读取excel文档内的股票代码
def code():
wb = xlrd.open_workbook(path+'\\stock.xlsx')# 打开Excel文件
data = wb.sheet_by_name('Sheet1')#通过excel表格名称(rank)获取工作表
b=data.col_values(0)#获取第一列数据(数组)
list=[]
for c in b[1:]:#for循环,排除第一行数据
d=int(c)
s="%06d" % d#股票代码一共有6位,常规打印无法打印出首位带0的代码的0部分,补齐缺失的0
#print(s)
list.append(s)
return(list)
code=code()

三、循环读取股票代码查询股票信息,写入同一类数据的数组内(共后面写入excel)

#code函数获取的代码,循环爬取代码对应的股票数据,将股票数据写入对应的数组(同一类)中
def get(code):
list_name=[]#股票名称
list_score=[]#综合评分
list_Short=[]#短期趋势
list_Metaphase=[]#中期趋势
list_Long=[]#长期趋势
list_comprehensive=[]#综合评判
list_day=[]#5日涨幅
list_mouth=[]#3个月涨幅
list_year=[]#1年涨幅
for num in code:
url='http://stockpage.10jqka.com.cn/'+num+'/'
headers = {
'Accept-Encoding': 'gzip, deflate',
'Accept-Language': 'zh-CN,zh;q=0.9',
'Upgrade-Insecure-Requests': '',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
'Referer': 'http://doctor.10jqka.com.cn/603160/',
'Connection': 'keep-alive',
'Cache-Control': 'max-age=0',
} response = requests.get(url, headers=headers).text
html = etree.HTML(response)
b = html.xpath('//h1[@class = "m_logo fl"]/a/strong/text()')
#print(b[0])#股票名称
c = html.xpath('//span[@class = "analyze-tips mt7"]/text()')
#print(c[0])#综合评分
d = html.xpath('//div[@class = "analyze-txt fr"]/div/div[2]/text()')
#print("短期趋势:",d[0])#短期趋势
e = html.xpath('//div[@class = "analyze-txt fr"]/div[2]/div[2]/text()')
#print("中期趋势:",e[0])#中期趋势
f = html.xpath('//div[@class = "analyze-txt fr"]/div[3]/div[2]/text()')
#print("远期趋势:",f[0])#远期趋势
g = html.xpath('//div[@class = "txt-phra"]/text()')
h = html.xpath('//div[@class = "txt-phra"]/strong/text()')
i = html.xpath('//div[@class = "txt-phra"]/text()[2]')
#print(g[0],h[0],i[0])#综合评判
m=g[0]+h[0]+i[0]
#j = html.xpath('//tr[@class = "even hot_cont"]/td[2]/text()')
#k = html.xpath('//tr[@class = "even hot_cont"]/td[3]/text()')
#l = html.xpath('//tr[@class = "even hot_cont"]/td[4]/text()')
tr_content = re.findall('<tr class="even hot_cont">(.*?)</tr', response, re.S)[0]
td_content = re.findall('<td.*?>(.*?)</td', tr_content, re.S)#正则获取周期涨幅
#print("5日涨幅:",j[0])#5日涨幅
#print("3个月涨幅:",k[0])#3个月涨幅
#print("1年涨幅:",l[0])#1年涨幅
list_name.append(b[0])#股票名称数组
list_score.append(c[0])#综合评分
list_Short.append(d[0])#短期趋势
list_Metaphase.append(e[0])#中期趋势
list_Long.append(f[0])#长期趋势
list_comprehensive.append(m)#综合评判
list_day.append(td_content[1])#5日涨幅
list_mouth.append(td_content[2])#3个月涨幅
list_year.append(td_content[3])#1年涨幅 return(list_name,list_score,list_Short,list_Metaphase,
list_Long,list_comprehensive,list_day,list_mouth,list_year)
get=get(code)

四、将写入数组的股票数据,依次写入到对应股票代码后的单元格中

#读取get函数生成的股票数据,依次写入到excel文档中
xfile = openpyxl.load_workbook(path+'\\stock.xlsx')#加载文件
sheet1 = xfile.worksheets[0]
#excel中单元格为B2开始,即第2列,第2行
for i in range(len(get[0])):#股票名称
sheet1.cell(i+2, 2).value=get[0][i] for i in range(len(baidu[0])):#当前价格
sheet1.cell(i+2, 3).value=baidu[0][i] for i in range(len(baidu[1])):#当前市值
sheet1.cell(i+2, 4).value=baidu[1][i] for i in range(len(get[1])):#综合评分
sheet1.cell(i+2, 5).value=get[1][i] for i in range(len(get[2])):#短期趋势
sheet1.cell(i+2, 6).value=get[2][i] for i in range(len(get[3])):#中期趋势
sheet1.cell(i+2, 7).value=get[3][i] for i in range(len(get[4])):#长期趋势
sheet1.cell(i+2, 8).value=get[4][i] for i in range(len(get[5])):#综合评判
sheet1.cell(i+2, 9).value=get[5][i] for i in range(len(get[6])):#5日涨幅
sheet1.cell(i+2, 10).value=get[6][i] for i in range(len(get[7])):#3个月涨幅
sheet1.cell(i+2, 11).value=get[7][i] for i in range(len(get[8])):#1年涨幅
sheet1.cell(i+2, 12).value=get[8][i]
xfile.save(path+'\\stock.xlsx')

直接后的文档内容

全部代码

#本脚本主要实现循环爬取数据后:
# 1、同一类数据统一写入到同一个数组中,
# 2、读取数组数据写入指定的excel列中,实现最终数据爬取
import xlrd #引入读取excel库
import requests #倒入requests库
from lxml import etree #倒入lxml 库(没有这个库,pip install lxml安装)
import os
import sys
import openpyxl
import re path = os.path.abspath(os.path.dirname(sys.argv[0])) #读取excel文档内的股票代码
def code():
wb = xlrd.open_workbook(path+'\\stock.xlsx')# 打开Excel文件
data = wb.sheet_by_name('Sheet1')#通过excel表格名称(rank)获取工作表
b=data.col_values(0)#获取第一列数据(数组)
list=[]
for c in b[1:]:#for循环,排除第一行数据
d=int(c)
s="%06d" % d#股票代码一共有6位,常规打印无法打印出首位带0的代码的0部分,补齐缺失的0
#print(s)
list.append(s)
return(list)
code=code() #code函数获取的代码,循环爬取代码对应的股票数据,将股票数据写入对应的数组(同一类)中
def get(code):
list_name=[]#股票名称
list_score=[]#综合评分
list_Short=[]#短期趋势
list_Metaphase=[]#中期趋势
list_Long=[]#长期趋势
list_comprehensive=[]#综合评判
list_day=[]#5日涨幅
list_mouth=[]#3个月涨幅
list_year=[]#1年涨幅
for num in code:
url='http://stockpage.10jqka.com.cn/'+num+'/'
headers = {
'Accept-Encoding': 'gzip, deflate',
'Accept-Language': 'zh-CN,zh;q=0.9',
'Upgrade-Insecure-Requests': '',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
'Referer': 'http://doctor.10jqka.com.cn/603160/',
'Connection': 'keep-alive',
'Cache-Control': 'max-age=0',
} response = requests.get(url, headers=headers).text
html = etree.HTML(response)
b = html.xpath('//h1[@class = "m_logo fl"]/a/strong/text()')
#print(b[0])#股票名称
c = html.xpath('//span[@class = "analyze-tips mt7"]/text()')
#print(c[0])#综合评分
d = html.xpath('//div[@class = "analyze-txt fr"]/div/div[2]/text()')
#print("短期趋势:",d[0])#短期趋势
e = html.xpath('//div[@class = "analyze-txt fr"]/div[2]/div[2]/text()')
#print("中期趋势:",e[0])#中期趋势
f = html.xpath('//div[@class = "analyze-txt fr"]/div[3]/div[2]/text()')
#print("远期趋势:",f[0])#远期趋势
g = html.xpath('//div[@class = "txt-phra"]/text()')
h = html.xpath('//div[@class = "txt-phra"]/strong/text()')
i = html.xpath('//div[@class = "txt-phra"]/text()[2]')
#print(g[0],h[0],i[0])#综合评判
m=g[0]+h[0]+i[0]
#j = html.xpath('//tr[@class = "even hot_cont"]/td[2]/text()')
#k = html.xpath('//tr[@class = "even hot_cont"]/td[3]/text()')
#l = html.xpath('//tr[@class = "even hot_cont"]/td[4]/text()')
tr_content = re.findall('<tr class="even hot_cont">(.*?)</tr', response, re.S)[0]
td_content = re.findall('<td.*?>(.*?)</td', tr_content, re.S)#正则获取周期涨幅
#print("5日涨幅:",j[0])#5日涨幅
#print("3个月涨幅:",k[0])#3个月涨幅
#print("1年涨幅:",l[0])#1年涨幅
list_name.append(b[0])#股票名称数组
list_score.append(c[0])#综合评分
list_Short.append(d[0])#短期趋势
list_Metaphase.append(e[0])#中期趋势
list_Long.append(f[0])#长期趋势
list_comprehensive.append(m)#综合评判
list_day.append(td_content[1])#5日涨幅
list_mouth.append(td_content[2])#3个月涨幅
list_year.append(td_content[3])#1年涨幅 return(list_name,list_score,list_Short,list_Metaphase,
list_Long,list_comprehensive,list_day,list_mouth,list_year)
get=get(code) def baidu(code):
list_Price=[]
list_market=[]
for num in code:
cookies = {
'BIDUPSID': '90EF3BD78F53BC8C96DF84CD3854CA2D',
'PSTM': '',
'BD_UPN': '',
'BAIDUID': '885754C8E6BD7B1A771802631815CC6D:FG=1',
'BDORZ': 'B490B5EBF6F3CD402E515D22BCDA1598',
'BDUSS': 'mxYdVpwOEx0eGJsT3VUYTJXbkZJYWhKSGpQWnlqaVBwMlExTWNNRkR4cWtabHRlSVFBQUFBJCQAAAAAAAAAAAEAAACRJsY-cGlwacnxu7AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAKTZM16k2TNeV',
'COOKIE_SESSION': '7_0_5_3_11_3_0_0_4_2_1_0_73199_0_169_0_1580456363_0_1580456194%7C9%23622712_32_1580376248%7C6',
'cflag': '13%3A3',
'BD_HOME': '',
'BDRCVFR[feWj1Vr5u3D]': 'I67x6TjHwwYf0',
'delPer': '',
'BD_CK_SAM': '',
'PSINO': '',
'H_PS_PSSID': '1438_21104_26350',
'H_PS_645EC': '29b8ZVy4WP7OUTz6%2FjeON9IexqLhOnMXkLTzhD5NfPu4fH%2FPZmThFknleY0LwzNQZ8j8',
'BDSVRTM': '',
'WWW_ST': '',
} headers = {
'is_xhr': '',
'Accept-Encoding': 'gzip, deflate, br',
'Accept-Language': 'zh-CN,zh;q=0.9',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
'is_pbs': num,
'Accept': '*/*',
'Referer': 'https://www.baidu.com/s?wd='+num+'&rsv_spt=1&rsv_iqid=0xa5a17c8700013159&issp=1&f=8&rsv_bp=1&rsv_idx=2&ie=utf-8&rqlang=cn&tn=baiduhome_pg&rsv_enter=0&rsv_dl=tb&oq='+num+'&rsv_t=29b8ZVy4WP7OUTz6%2FjeON9IexqLhOnMXkLTzhD5NfPu4fH%2FPZmThFknleY0LwzNQZ8j8&rsv_pq=b379448d00013935',
'X-Requested-With': 'XMLHttpRequest',
'Connection': 'keep-alive',
'is_referer': 'https://www.baidu.com/s?wd='+num+'&rsv_spt=1&rsv_iqid=0xa5a17c8700013159&issp=1&f=8&rsv_bp=1&rsv_idx=2&ie=utf-8&tn=baiduhome_pg&rsv_enter=1&rsv_dl=tb&rsv_n=2&rsv_sug3=1&rsv_sug1=1&rsv_sug7=100&rsv_sug2=0&inputT=359&rsv_sug4=359',
} params = (
('ie', ['utf-8', 'utf-8']),
('newi', ''),
('mod', ''),
('isbd', ''),
('isid', 'b379448d00013935'),
('wd', num),
('rsv_spt', ''),
('rsv_iqid', '0xa5a17c8700013159'),
('issp', ''),
('f', ''),
('rsv_bp', ''),
('rsv_idx', ''),
('rqlang', 'cn'),
('tn', 'baiduhome_pg'),
('rsv_enter', ''),
('rsv_dl', 'tb'),
('oq', num),
('rsv_t', '29b8ZVy4WP7OUTz6/jeON9IexqLhOnMXkLTzhD5NfPu4fH/PZmThFknleY0LwzNQZ8j8'),
('rsv_pq', 'b379448d00013935'),
('bs', num),
('rsv_sid', '1438_21104_26350'),
('_ss', ''),
('clist', ''),
('hsug', ''),
('f4s', ''),
('csor', ''),
('_cr1', ''),
) response = requests.get('https://www.baidu.com/s', headers=headers, params=params, cookies=cookies).text
html = etree.HTML(response)
a = html.xpath('//span[@class = "op-stockdynamic-moretab-cur-num c-gap-right-small"]/text()')
#print('当前价格:',a[0])#当前价格
b = html.xpath('//ul[@class = "op-stockdynamic-moretab-info"]/li[8]/span[2]/text()')
#print('当前市值:',b[0])#当前市值 list_Price.append(a[0])#当前价格
list_market.append(b[0])#当前市值 return(list_Price,list_market) baidu=baidu(code) #读取get函数生成的股票数据,依次写入到excel文档中
xfile = openpyxl.load_workbook(path+'\\stock.xlsx')#加载文件
sheet1 = xfile.worksheets[0]
#excel中单元格为B2开始,即第2列,第2行
for i in range(len(get[0])):#股票名称
sheet1.cell(i+2, 2).value=get[0][i] for i in range(len(baidu[0])):#当前价格
sheet1.cell(i+2, 3).value=baidu[0][i] for i in range(len(baidu[1])):#当前市值
sheet1.cell(i+2, 4).value=baidu[1][i] for i in range(len(get[1])):#综合评分
sheet1.cell(i+2, 5).value=get[1][i] for i in range(len(get[2])):#短期趋势
sheet1.cell(i+2, 6).value=get[2][i] for i in range(len(get[3])):#中期趋势
sheet1.cell(i+2, 7).value=get[3][i] for i in range(len(get[4])):#长期趋势
sheet1.cell(i+2, 8).value=get[4][i] for i in range(len(get[5])):#综合评判
sheet1.cell(i+2, 9).value=get[5][i] for i in range(len(get[6])):#5日涨幅
sheet1.cell(i+2, 10).value=get[6][i] for i in range(len(get[7])):#3个月涨幅
sheet1.cell(i+2, 11).value=get[7][i] for i in range(len(get[8])):#1年涨幅
sheet1.cell(i+2, 12).value=get[8][i]
xfile.save(path+'\\stock.xlsx') print("爬取完成")
 
 

python实例:从excel读取股票代码,爬取股票信息写到代码后面的单元格中的更多相关文章

  1. 小白学 Python 爬虫(25):爬取股票信息

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

  2. Python爬虫学习(6): 爬取MM图片

    为了有趣我们今天就主要去爬取以下MM的图片,并将其按名保存在本地.要爬取的网站为: 大秀台模特网 1. 分析网站 进入官网后我们发现有很多分类: 而我们要爬取的模特中的女模内容,点进入之后其网址为:h ...

  3. python爬取网页的通用代码框架

    python爬取网页的通用代码框架: def getHTMLText(url):#参数code缺省值为‘utf-8’(编码方式) try: r=requests.get(url,timeout=30) ...

  4. Python爬取招聘信息,并且存储到MySQL数据库中

    前面一篇文章主要讲述,如何通过Python爬取招聘信息,且爬取的日期为前一天的,同时将爬取的内容保存到数据库中:这篇文章主要讲述如何将python文件压缩成exe可执行文件,供后面的操作. 这系列文章 ...

  5. Python——初识网络爬虫(网页爬取)

    网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟程序或者蠕虫 ...

  6. Python爬虫学习三------requests+BeautifulSoup爬取简单网页

    第一次第一次用MarkDown来写博客,先试试效果吧! 昨天2018俄罗斯世界杯拉开了大幕,作为一个伪球迷,当然也得为世界杯做出一点贡献啦. 于是今天就编写了一个爬虫程序将腾讯新闻下世界杯专题的相关新 ...

  7. 初识python 之 爬虫:使用正则表达式爬取“糗事百科 - 文字版”网页数据

    初识python 之 爬虫:使用正则表达式爬取"古诗文"网页数据 的兄弟篇. 详细代码如下: #!/user/bin env python # author:Simple-Sir ...

  8. python爬虫---实现项目(一) Requests爬取HTML信息

    上面的博客把基本的HTML解析库已经说完了,这次我们来给予几个实战的项目. 这次主要用Requests库+正则表达式来解析HTML. 项目一:爬取猫眼电影TOP100信息 代码地址:https://g ...

  9. python爬虫构建代理ip池抓取数据库的示例代码

    爬虫的小伙伴,肯定经常遇到ip被封的情况,而现在网络上的代理ip免费的已经很难找了,那么现在就用python的requests库从爬取代理ip,创建一个ip代理池,以备使用. 本代码包括ip的爬取,检 ...

随机推荐

  1. 【49.23%】【hdu 1828】Picture

    Time Limit: 6000/2000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) Total Submission(s) ...

  2. lumen简单使用exel组件

    1.首先打开命令行,进入到lumen项目的根目录中,然后用composer下载excel组件 composer require maatwebsite/excel ~2.1.0 2.安装成功后,在bo ...

  3. 027.MFC_映射消息

    映射消息MFC中的消息映射宏 DECLARE_MESSAGE_MAP BEGIN_MEASSAGE_MAP END_MESSAGE_MAP向导自动映射消息手动添加映射消息 MFC会帮我们自动映射大部分 ...

  4. 第二阶段:4.商业需求文档MRD:4.PRD-用例和规则

    类似之前的泳道图 可以在下面添加一些描述 有时候用图还是会有一些限制 不能够很好的表达

  5. docker常用命令(不包括run和build)

    docekr 常用命令 :ls 列出容器 $ docker image ls REPOSITORY TAG IMAGE ID CREATED SIZE jdk fec5236a803b seconds ...

  6. Zabbix监控web

    1.1 创建主机 1.2 应用集 1.3 创建web场景 1.4 创建触发器

  7. 不仅仅是双11大屏—Flink应用场景介绍

    双11大屏 每年天猫双十一购物节,都会有一块巨大的实时作战大屏,展现当前的销售情况. 这种炫酷的页面背后,其实有着非常强大的技术支撑,而这种场景其实就是实时报表分析. 实时报表分析是近年来很多公司采用 ...

  8. $Noip2014/Luogu2312$ 解方程

    $Luogu$ $Sol$ 枚举解+秦九韶公式计算+取模. $Code$ #include<iostream> #include<cstdio> #include<cst ...

  9. $POJ1015\ Jury\ Compromise\ Dp$/背包

    洛谷传送门 $Sol$ 这是一道具有多个“体积维度”的$0/1$背包问题. 把$N$个候选人看做$N$个物品,那么每个物品有如下三种体积: 1.“人数”,每个候选人的“人数”都是$1$,最终要填满容积 ...

  10. Linux 学习笔记 5 文件的下载、压缩、解压、初步认识yum

    写在前面 上节我们通过简单的几组命令,已经完全的实现了文件的移动.删除.更名.以及复制,我们最常用的基本玩法,本节将带着大家学习压缩.解压的相关步骤. Linux 学习笔记 4 创建.复制.移动.文件 ...