python中掉过又爬出来的那些坑】的更多相关文章

一.中文是不是“字母”? 当然,看到标题你肯定想这答案是显而易见的,但是.but.问题就在这里,我也是这么想的!!!然后就被python打脸了 看下面的例子: s = '你说我是字母吗' print(s.isalpha()) 你以为他是False?不,答案是: 这个问题真是困扰了我一晚上,自己一开始使用正则去匹配的,匹配了半天发现我正则虽然只是略知皮毛,但是,这么简单的东西不会错啊,“\w”怎么就能匹配中文呢?如下: import re pattern = re.compile('^\w+$')…
之前一直有使用python 正则表达式来做中文字符串或者中英文数字混合的字符串的匹配,发现有不少情况下会匹配失灵或者结果混乱,并且在不同操作系统上匹配结果也不一致,查了很久都不知道是什么原因.今天终于彻底弄懂了,原来还是python中对中文的编码问题造成的. 解决办法: step1 在设置默认编码为UTF8之后,将正则表达式和待匹配字符串都decode("utf8")统一成 unicode再进行匹配: step2 正则表达式前面一定要加 r : 示例代码: kw_regexp = r'…
版权声明:本文为sam的原创文章,转载请添加出处:http://blog.csdn.net/samed https://blog.csdn.net/samed/article/details/50555663 首先,findall有两种用法: findall(string[, pos[, endpos]]) re.findall(pattern, string[, flags]) 这里讲的是第二种,里面有一个坑. 直接上一段代码看看坑在哪里: 看到差异了吗? 这里findall如果使用了分组,则…
Tabula是专门用来提取PDF表格数据的,同时支持PDF导出CSV.Excel格式. 首先安装tabula-py: tabula-py依赖库包括Java.pandas.numpy所以需要保证运行环境中安装了这些库. 在Python中配置好Java后看能否正常运行 把PDF中爬取出来的数据制成表格,需要加载openpyxl: 需要读取平均页数有二三百多页的PDF文件数据,爬取出需求数据,以及按需求格式制成不同的sheet表,PDF样式如下: 把写好的Python文件放在和PDF文件放在同一目录下…
开始进公司实习的一个任务是整理一个网页页面上二级链接的内容整理到EXCEL中,这项工作把我头都搞大了,整理了好几天,实习生就是端茶送水的.前段时间学了爬虫,于是我想能不能用python写一个爬虫一个个页面抓取然后自动存到EXCEL中.今天完成了第一个页面的处理,抓取到了所有的二级链接. 要爬取初始网页:http://www.zizzs.com/zt/zzzsjz2017/### 任务:将招生简章中2017对应的二级页面的招生计划整理到EXCEL 初始目标:爬取http://www.zizzs.c…
目录 什么是网页抓取? 为什么我们要从互联网上抓取数据? 网站采集合法吗? HTTP请求/响应模型 创建网络爬虫 步骤1:浏览并检查网站/网页 步骤2:创建用户代理 步骤3:导入请求库 检查状态码 步骤4:使用 BeautifulSoup 库解析HTML 步骤5:使用for循环请求多个页面 步骤6:使用 select() 方法,快速找到标签元素 步骤7:数据清洗,删除字符串"None" 最终的解决方案 输出: 最后 简介:Web抓取是从Internet提取数据的过程.这也称为网络收集或…
python 的PIL安装是一件很蛋痛的事, 如果你要在python 中使用图型程序那怕只是将个图片从二进制流中存盘(例如使用Scrapy 爬网存图),那么都会使用到 PIL 这库,而这个库是出名的难安装. 它的表现为,如果你使用 Scrapy 的ImagePipeline 它就会默认使用PIL,如果没有正确安装图型解码器那会都会出现以下的错误: IOError: decoder jpeg not available 在网上找过很多方法都还是不行,也不明究竟,开始以为是 PIL 这个库的安装有问…
正则表达式与Python中re模块的使用 最近做了点爬虫,正则表达式使用的非常多,用Python做的话会用到re模块. 本文总结一下正则表达式与re模块的基础与使用. 另外,给大家介绍一个在线测试正则表达式的神器网站:http://tool.chinaz.com/regex 大家可以去这里练习正则表达式 正则表达式 使用场景 关于正则表达式的基本概念这里就不赘述了,大家可以去各种百科里查找它的定义.正则的使用场景主要分为两个: 一是:检测某一段字符串是否符合规则,也就是我们常说的"校验"…
1 协程 1.1协程的概念 协程,又称微线程,纤程.英文名Coroutine.一句话说明什么是线程:协程是一种用户态的轻量级线程.(其实并没有说明白~) 我觉得单说协程,比较抽象,如果对线程有一定了解的话,应该就比较好理解了. 那么这么来理解协程比较容易: 线程是系统级别的,它们是由操作系统调度:协程是程序级别的,由程序员根据需要自己调度.我们把一个线程中的一个个函数叫做子程序,那么子程序在执行过程中可以中断去执行别的子程序:别的子程序也可以中断回来继续执行之前的子程序,这就是协程.也就是说同一…
1.re模块和基础方法 2.在python中使用正则表达式的特点和问题 3.使用正则表达式的技巧 4.简单爬虫例子 一.re模块 模块引入; import re 相关知识: 1.查找: (1)findall: 匹配所有 每一项都是列表中的一个元素 例: ret = re.findall('\d+','sjkhk172按实际花费928') # 格式:正则表达式,带匹配的字符串,flag # 结果: ['172', '928'] ret = re.findall('\d','sjkhk172按实际花…