python爬虫从入门到放弃（一）——试用bs4, request爬百度股票

文章实践主要来自于：https://mp.weixin.qq.com/s/FiKqb06nz0K0AD9VUWJapw

爬虫流程：

明确目的（哪些数据），确认网页可爬，查看源网页是否有需要的数据。

bs4简介

Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。

python

with方法－－

with语句执行的解析：

　　with context_expr() as var:

　　　　doSomething()

当with语句执行时，便执行上下文表达式（context_expr）(一般为某个方法)来获得一个上下文管理器对象，上下文管理器的职责是提供一个上下文对象，用于在with语句块中处理细节：
一旦获得了上下文对象，就会调用它的__enter__()方法，将完成with语句块执行前的所有准备工作，如果with语句后面跟了as语句，则用__enter__()方法的返回值来赋值；
当with语句块结束时，无论是正常结束，还是由于异常，都会调用上下文对象的__exit__()方法，__exit__()方法有3个参数，如果with语句正常结束，三个参数全部都是 None；如果发生异常，三个参数的值分别等于调用sys.exc_info()函数返回的三个值：类型（异常类）、值（异常实例）和跟踪记录（traceback），相应的跟踪记录对象。
因为上下文管理器主要作用于共享资源，__enter__()和__exit__()方法基本是完成的是分配和释放资源的低层次工作，比如：数据库连接、锁分配、信号量加/减、状态管理、文件打开/关闭、异常处理等。

　　3、自定义类使用with来管理

完整代码示例：

 # -*- coding: utf-8 -*-

 # Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag , NavigableString , BeautifulSoup , Comment .

 import requests

 from bs4 import BeautifulSoup

 import traceback

 import re

 def getHTMLText(url):

     try:

         r = requests.get(url)

         r.raise_for_status()

         r.encoding = r.apparent_encoding

         return r.text

     except:

         return ""

 def getStockList(lst, stockURL):

     html = getHTMLText(stockURL)

     # 返回的是BeautifulSoup对象

     soup = BeautifulSoup(html, 'html.parser')

     a = soup.find_all('a')

     for i in a:

         try:

             href = i.attrs['href']

             lst.append(re.findall(r"[s][hz]\d{6}", href)[0])

         except:

             continue

 def getStockInfo(lst, stockURL, fpath):

     count = 0

     for stock in lst:

         url = stockURL + stock + ".html"

         html_doc = getHTMLText(url)

         try:

             if html_doc == "":

                 continue

             infoDict = {}

             soup = BeautifulSoup(html_doc, 'html.parser')

             # 寻找所有属性为stock-bets的div标签，构成一个list

             stockInfo = soup.find('div', attrs={'class': 'stock-bets'})

             # 找到所有class==bets-name的标签

             # 使用find方法返回的同样是bs4对象，find返回的是由bs4对象构成的list

             name = stockInfo.find(attrs={'class': 'bets-name'})

             # .text方法以list对象的方式返回tag的内容

             infoDict.update({'股票名称': name.text.split[0]})

             # 每个股票中每个key正好对应一个值，这里恰好不用数据处理

             keyList = stockInfo.find_all('dt')

             valueList = stockInfo.find_all('dd')

             for i in range(len(keyList)):

                 key = keyList[i].text

                 val = valueList[i].text

                 infoDict[key] = val

                 # 内置open()函数，打开一个文件用于追加。

                 # 如果该文件已存在，文件指针将会放在文件的结尾。也就是说，新的内容将会被写入到已有内容之后。如果该文件不存在，创建新文件进行写入。

             # 使用with语句时，如文件打开发生异常，可记录跟踪调查

             with open(fpath, 'a', encoding='utf-8') as f:

                 f.write(str(infoDict) + '\n')

                 count = count + 1

                 # 通过\r使得每次打印的时候光标换行到上一行开头，使得看起来进度条是连续的

                 print("\r当前进度: {:.2f}%".format(count * 100 / len(lst)), end="")

         except:

             count = count + 1

             print("\r当前进度: {:.2f}%".format(count * 100 / len(lst)), end="")

             continue

 def main():

     stock_list_url = 'http://quote.eastmoney.com/stocklist.html'

     stock_info_url = 'https://gupiao.baidu.com/stock/'

     output_file = '/home/icarus/code/pachong_stock/BaiduStockInfo.txt'

     slist = []

     getStockList(slist, stock_list_url)

     getStockInfo(slist, stock_info_url, output_file)

 main()

python爬虫从入门到放弃（一）——试用bs4, request爬百度股票的更多相关文章

python爬虫从入门到放弃前奏之学习方法
首谈方法最近在整理爬虫系列的博客,但是当整理几篇之后,发现一个问题,不管学习任何内容,其实方法是最重要的,按照我之前写的博客内容,其实学起来还是很点枯燥不能解决传统学习过程中的几个问题: 这个是普通 ...
Python爬虫从入门到放弃（二十）之 Scrapy分布式原理
关于Scrapy工作流程回顾 Scrapy单机架构上图的架构其实就是一种单机架构,只在本机维护一个爬取队列,Scheduler进行调度,而要实现多态服务器共同爬取数据关键就是共享爬取队列. 分布式架 ...
python爬虫从入门到放弃（三）之 Urllib库的基本使用
官方文档地址:https://docs.python.org/3/library/urllib.html 什么是Urllib Urllib是python内置的HTTP请求库包括以下模块urllib.r ...
python爬虫从入门到放弃（四）之 Requests库的基本使用
什么是Requests Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库如果你看过上篇文章关于urllib库的使用,你会发现,其 ...
python爬虫从入门到放弃（六）之 BeautifulSoup库的使用
上一篇文章的正则,其实对很多人来说用起来是不方便的,加上需要记很多规则,所以用起来不是特别熟练,而这节我们提到的beautifulsoup就是一个非常强大的工具,爬虫利器. beautifulSoup ...
python爬虫从入门到放弃（八）之 Selenium库的使用
一.什么是Selenium selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行 ...
Python爬虫从入门到放弃（十一）之 Scrapy框架整体的一个了解
这里是通过爬取伯乐在线的全部文章为例子,让自己先对scrapy进行一个整理的理解该例子中的详细代码会放到我的github地址:https://github.com/pythonsite/spider ...
Python爬虫从入门到放弃（十二）之 Scrapy框架的架构和原理
这一篇文章主要是为了对scrapy框架的工作流程以及各个组件功能的介绍 Scrapy目前已经可以很好的在python3上运行Scrapy使用了Twisted作为框架,Twisted有些特殊的地方是它是 ...
Python爬虫从入门到放弃（十三）之 Scrapy框架的命令行详解
这篇文章主要是对的scrapy命令行使用的一个介绍创建爬虫项目 scrapy startproject 项目名例子如下: localhost:spider zhaofan$ scrapy start ...

随机推荐

tp中引入js、css、img的问题
方法一: 直接把js.css.img放到网站公共目录/Public/下. 然后直接在模板文件中使用__PUBLIC__进行替换. 方法二: 在模块配置文件config.php中配置指定的路径,如下: ...
680C. Bear and Prime 100 数学
C. Bear and Prime 100 time limit per test:1 second memory limit per test:256 megabytes input:standar ...
laravel使用$errors提取错误信息
1.控制器 2.模板
StartServiceCtrlDispatcher
服务程序通常编写成控制台类型的应用程序,总的来说,一个遵守服务控制管理程序接口要求的程序包含下面三个函数: 1.服务程序主函数(main):调用系统函数 StartServiceCtrlDispat ...
CSV 文件
CSV 文件 CSV(Comma Separated Values 逗号分隔值) 是一种文件格式(如.txt..doc等),也可理解 .csv 文件就是一种特殊格式的纯文本文件.即是一组字符序列,字符 ...
使用nmon来按频率采集数据
# nmon -s1 -c60 -f -m /home/nmon # ll /home/nmon/ total 15220 -rw-r--r-- 1 root root 23923 Oct 14 ...
c++编程思想里面的错误（可能c++标准变了，所以以前的东西没有更新）
第一卷第五章 5.3友元下面的代码是<c++编程思想>里面的代码, struct X; struct Y{ void f(X*); }; struct X{ private: int ...
hdu-1181（bfs）
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1181 思路:bfs,就是每次找到匹配麻烦一点,注意如果结尾和开头相同,就不算. #include< ...
Scrapy学习篇（十三）之scrapy-splash
之前我们学习的内容都是抓取静态页面,每次请求,它的网页全部信息将会一次呈现出来. 但是,像比如一些购物网站,他们的商品信息都是js加载出来的,并且会有ajax异步加载.像这样的情况,直接使用scrap ...
Linux下一个简单sniffer的实现
Sniffer(嗅探器)是一种基于被动侦听原理的网络分析方式.将网络接口设置在监听模式,便可以将网上传输的源源不断的信息截获.对于网络监听的基本原理我们不在赘述,我们也不开启网卡的混杂模式,因为现在的 ...

python爬虫从入门到放弃（一）——试用bs4, request爬百度股票

python爬虫从入门到放弃（一）——试用bs4, request爬百度股票的更多相关文章

随机推荐

热门专题