python-爬虫技能升级记录

====== python-爬虫技能升级记录 ======

===== （一）感知爬虫及爬取流程 =====
<code>
从简单存取一个页面到爬取到大量的定量数据，对技术要求更高，以百度百科数据爬取为入门练手项目.历时一个月,经历很多问题.

爬取流程:分析目标网页、得到url、拿url抓取、解析抓到的页面、存取数据和解析出的url、去重继续迭代抓。

通过扩大关键词范围、从页面提取更多相关url源来覆盖更多可抓页，提升抓取数据量。
chrome浏览器F12是个好工具，把网页解析过程看的一目了然。
练好正则表达式，用好用熟python的各个爬虫工具库。
爬虫这个活，很锻炼分析he提取信息能力。

提高抓取速度,速度,速度.

</code>
===== （二）那些问题 =====

<code>
2.1 沟通上的问题：爬和存最终是要百度百科某个词条的完整页面，我误以为是要进一步析取页面某个部分的结果，浪费了点时间去练没用到的正则表达式；
2.2 爬取过程中发现问题的能力：
爬取的前2天，数据从大量快速增长到突然降到很小，爬取很突然变慢，结果是缺数据库索引数据查询操作变慢拖累了爬取速度，
--------> 需要随时观察数据量变化及时把握住趋势提早解决问题；

每天评估抓取速度he目标数据量差距，提前开源--找新的关键词或者新的抓取方式抓取源头；

2.3 爬虫背景知识欠缺：http_status， 200 301,302，代理，并发

2.4 数据上的问题
   1) 遇到多义词的特殊页面 : https://baike.baidu.com/item/%E6%88%BF%E4%BA%A7 ;
   2) 拼接关键词错误 : https://baike.baidu.com/item/https://baike.baidu.com/error.html ;
   3) 不存在的页面处理问题: https://baike.baidu.com/error.html

</code>

==== [0001] url解析问题 ====结果

<code>
抓数据过程中，要从抓来的网页内容提取url和所需关键字，用 urllib.parse.urlparse提取路径，urllib.parse.unquote解码
比如提取到url https://baike.baidu.com/item/%E5%86%8D%E7%94%9F%E4%B9%8B%E7%8E%8B%E6%9C%9D --> /item/再生之王朝

</code>

==== [0002] mysql crash了 ====
<code>
[问题]：数据 20G时，db crash，200w的数据 int类型的字段上 index 重建花了 1.5小时，追查无果
[解决]：是内存耗尽，导致mysql的数据库索引文件损坏。
mysql修复命令：
myisamchk --force --update-state --sort_buffer_size=2G /data/mysql/data/baidu/baidu_baike
</code>
==== [0003] 302是啥？allow_redirects的作用 ====

<code>
302是一种重定向状态码,表明,要取得最终结果需要进一步请求.

301   （永久移动）请求的网页已永久移动到新位置。服务器返回此响应（对 GET 或 HEAD 请求的响应）时，会自动将请求者转到新位置。
302   （临时移动）服务器目前从不同位置的网页响应请求，但请求者应继续使用原有位置来进行以后的请求。
303   （查看其他位置）请求者应当对不同的位置使用单独的 GET 请求来检索响应时，服务器返回此代码。
304   （未修改）自从上次请求后，请求的网页未修改过。服务器返回此响应时，不会返回网页内容。
305   （使用代理）请求者只能使用代理访问请求的网页。如果服务器返回此响应，还表示请求者应使用代理。
307   （临时重定向）服务器目前从不同位置的网页响应请求，但请求者应继续使用原有位置来进行以后的请求。

url = 'https://pan.baidu.com/s/1c0rjnbi'
tml = requests.get(url, headers=headers, allow_redirects=False)
return html.headers['Location']
allow_redirects=False的意义为拒绝默认的301/302重定向从而可以通过html.headers[‘Location’]拿到重定向的URL

https://baike.baidu.com/view/38072.html
urllib.error.HTTPError: HTTP Error 302: The HTTP server returned a redirect error that would lead to an infinite loop

</code>

==== [0004] 多thread的段错误问题 ====

起多个抓取thread ，运行一段时间报段错误抓取程序崩溃--> mysql-connector.x86_64的包问题,换 mysql-connector_2.1.4 或者 pymysql后解决。

<code>[115686.825855] python3.5[112899]: segfault at 50 ip 00007f506bc70ba1 sp 00007f506a823f40 error 4 in _mysql_connector.cpython-35m-x86_64-linux-gnu.so[7f506bc1a000+3b9000]
[116821.355924] python3.5[122287]: segfault at 50 ip 00007fb8aedfeba1 sp 00007fb8ad9b1f40 error 4 in _mysql_connector.cpython-35m-x86_64-linux-gnu.so[7fb8aeda8000+3b9000]
[117432.277293] python3.5[124563]: segfault at 50 ip 00007f3e80cebba1 sp 00007f3e7f89ef40 error 4 in _mysql_connector.cpython-35m-x86_64-linux-gnu.so[7f3e80c95000+3b9000]
[117682.160350] python3.5[129646]: segfault at 50 ip 00007feea0327ba1 sp 00007fee9ef1af40 error 4 in _mysql_connector.cpython-35m-x86_64-linux-gnu.so[7feea02d1000+3b9000]
[117891.158342] python3.5[633]: segfault at 50 ip 00007ff5d0581ba1 sp 00007ff5cf174f40 error 4 in _mysql_connector.cpython-35m-x86_64-linux-gnu.so[7ff5d052b000+3b9000]
</code>

==== [0005] XHR是啥? ====
XMLHttpRequest,动态异步请求。
[[https://www.cnblogs.com/syfwhu/p/6116323.html| XHR简介 ]]
[[https://blog.csdn.net/zhiruchen/article/details/50983371|观察数据-分析-构造请求-结果]]
[[https://blog.csdn.net/zwq912318834/article/details/78364710|XHR-寻找参数来源]]

[[https://blog.jamespan.me/2016/02/28/mysql-select-from-update|mysql-select-from-update]]

==== [0006] 遇到cookie了 ====

<code>
url = "https://baike.baidu.com/wikiui/api/getcertifyinfo?lemma={0}".format("%E5%8C%97%E4%BA%AC%E5%85%AB%E5%8F%8B%E7%A7%91%E6%8A%80%E6%9C%89%E9%99%90%E5%85%AC%E5%8F%B8")
    headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36',
            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,/;q=0.8',
            'X-Requested-With': 'XMLHttpRequest',
        }

    session = requests.Session()
    respn = session.post(url, verify = False, headers = headers, allow_redirects=False)

# https://baike.qixin.com/?eid=ea2b58fa-0b3f-440c-9076-d8735fdcc882&token=6018b5609a2c2ccf4cb8e4915ffcc4a7
sec_url = eval(respn.text)['data']['iframe'].replace('\/','/')
print('--sec_url--:' , sec_url)

cookie_jar = RequestsCookieJar()
    cookie = respn.cookies.get_dict()
    for k, v in cookie.items():
        cookie_jar.set(k, v, domain="baidu.com")
    print('cookie---', cookie, '\n--',str(cookie_jar))

rtext2 = session.post(sec_url, verify = False, headers = headers, cookies=cookie_jar, allow_redirects=False).text

print('rtext2--:\n' , rtext2)
</code>

[[https://blog.csdn.net/hpulfc/article/details/80084398| python--获取和设置cookie]]

==== [0007] 再探requests库 ====

python的变量引用原理, requests的post和get, requests的session的文档和用途;

==== [0098] 爬取速度可能慢的因素 ====

1. 多线程处理到同样任务,造成浪费;

2. 涉及到db操作的, 抓取队列长度和 db队列处理长度的最佳匹配;

==== [0099] 爬虫的调试 ====
<code>
python的开发技能上:

1. 一定要了解整个抓取处理的流程;
2. 每个流程的环节打日志看消耗的时长;
3. 对目标数据量和程序的处理能力有清晰的感知;
4. 别瞎猜, 打日志看.

Linux系统有关:
1. 段错误出现后及时看dmesg ,能看到是mysql连接器的包报出异常;

</code>
===== （三）欠缺之处和待提升的技能 =====
欠缺之处：

梳理问题能力要锻炼he提升，进入状态慢，在开发进度把控上欠缺节奏感。

爬虫技术待提升技能：
并发，异步， cookie，登录，验证码

----

[[https://github.com/davisking/dlib/issues/1104|段错误-参考资料 (the most important rule when writing multithreaded applications is that you can't have two threads modifying the same thing at the same time)]]

python-爬虫技能升级记录的更多相关文章

【Python】【爬虫】如何学习Python爬虫？
如何学习Python爬虫[入门篇]? 路人甲 1 年前想写这么一篇文章,但是知乎社区爬虫大神很多,光是整理他们的答案就够我这篇文章的内容了.对于我个人来说我更喜欢那种非常实用的教程,这种教程对于想直 ...
Python爬虫与数据分析之爬虫技能：urlib库、xpath选择器、正则表达式
专栏目录: Python爬虫与数据分析之python教学视频.python源码分享,python Python爬虫与数据分析之基础教程:Python的语法.字典.元组.列表 Python爬虫与数据分析 ...
python爬虫工程师各个阶段需要掌握的技能和知识介绍
本文主要介绍,想做一个python爬虫工程师,或者也可以说是,如何从零开始,从初级到高级,一步一步,需要掌握哪些知识和技能. 初级爬虫工程师: Web前端的知识:HTML, CSS, JavaScri ...
Python爬虫个人记录（三）爬取妹子图
这此教程可能会比较简洁,具体细节可参考我的第一篇教程: Python爬虫个人记录(一)豆瓣250 Python爬虫个人记录(二)fishc爬虫一.目的分析获取煎蛋妹子图并下载 http://jan ...
Python爬虫个人记录（二）获取fishc 课件下载链接
参考: Python爬虫个人记录(一)豆瓣250 (2017.9.6更新,通过cookie模拟登陆方法,已成功实现下载文件功能!!) 一.目的分析获取http://bbs.fishc.com/for ...
Python爬虫之记录一次下载验证码的尝试
好久没有写过爬虫的文章了,今天在尝试着做验证码相关的研究时,遇到了验证码的收集问题. 一般,验证码的加载都有着比较复杂的算法和加密在里边,但是笔者今天碰到的验证码却比较幸运,有迹可循.在此,给 ...
2019应届生，用python爬虫记录自己求职经历，分享求职中的一些坑
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http ...
[Python爬虫] 在Windows下安装PIP+Phantomjs+Selenium
最近准备深入学习Python相关的爬虫知识了,如果说在使用Python爬取相对正规的网页使用"urllib2 + BeautifulSoup + 正则表达式"就能搞定的话:那么动态 ...
【Python爬虫】入门知识
爬虫基本知识这阵子需要用爬虫做点事情,于是系统的学习了一下python爬虫,觉得还挺有意思的,比我想象中的能干更多的事情,这里记录下学习的经历. 网上有关爬虫的资料特别多,写的都挺复杂的,我这里不打 ...

随机推荐

2015/9/22 Python基础(18)：组合、派生和继承
一个类被定义后,目标就是把它当成一个模块来使用,并把这些对象嵌入到你的代码中去,同其他数据类型及逻辑执行流混合使用.有两种方法可以在你的代码中利用类.第一种是组合,就是让不同的类混合并加入到其他类中, ...
dotnet core 实践——日志组件Serilog
前几天把基于quartz.net的部分项目代码移植到了dotnet core ,但是没增加日志功能,原因是没找到合适的组件. 今天终于找到了Serilog: https://github.com/s ...
json属性名为什么要双引号？
原因一: 更加规范,利于解析原因二: 避免class等关键字引起的不兼容问题原因三: 可能也是最隐晦的: var a = 00; var b = {00: 12}; a in b; --> ...
[数据库中间件]将用户添加到DB2组授权
1.将用户oracle添加到db2的用户组中,命令如下: usermod -a -G db2iam #将用户添加到组中并不改变当前所属组注:以下与主题无关,只是列举一些关于用户的命令 id user ...
关于HttpWebRequest发生服务器协议冲突的解决办法
WinForm下的app.config文件中添加: <system.net> <settings> <httpWebRequest useUnsafeHe ...
MFC CListCtrl 将一个列表的选中项添加到另一个列表
MFC CListCtrl 将一个列表的选中项添加到另一个列表, 用VC6.0实现: 简单记录一下自己的学习历程, 和大家分享,如果对你有用,我很高兴. 1.新建一个基于对话框的工程(Dialog-B ...
L - Looking for Taste Gym - 101991L 二进制枚举/思维
方法一:因为最多是10的六次方,所以可以直接枚举二进制上的每一位来得到最优结果. AC代码: #include<iostream> #include<stack> #inclu ...
PHP对象1: 创建对象与 $this
<?php class perl{ public $name; function __construct($name){ echo '一个对象造好了<br/>'; $this-> ...
离线部署ELK+kafka日志管理系统【转】
转自离线部署ELK+kafka日志管理系统 - xiaoxiaozhou - 51CTO技术博客http://xiaoxiaozhou.blog.51cto.com/4681537/1854684 ...
pip安装使用详解【转】
转自:pip安装使用详解 – 运维生存时间http://www.ttlsa.com/python/how-to-install-and-use-pip-ttlsa/ pip类似RedHat里面的yum ...

python-爬虫技能升级记录

python-爬虫技能升级记录的更多相关文章

随机推荐

热门专题