前言 上一篇文章讲了爬虫的概念,本篇文章主要来讲述一下如何来解析爬虫请求的网页内容. 一个简单的爬虫程序主要分为两个部分,请求部分和解析部分.请求部分基本一行代码就可以搞定,所以主要来讲述一下解析部分.对于解析,最常用的就是xpath和css选择器,偶尔也会使用正则表达式. 不论是xpah还是css,都是通过html元素或者其中某些属性来选中符合条件的元素节点. 以斗罗大陆的部分html为例. <div class="detail_video"> <div class…
php从入门到放弃系列-02.php基础语法 一.学习语法,从hello world开始 PHP(全称:PHP:Hypertext Preprocessor,即"PHP:超文本预处理器")是一种通用开源脚本语言. <!DOCTYPE html> <html> <body> <?php echo "hello world!";//输出 ?> </body> </html> php是一种服务端脚本语…
前言 如果再说IP请求次数检测.验证码这种最常见的反爬虫技术,可能大家听得耳朵都出茧子了.当然,也有的同学写了了几天的爬虫,觉得爬虫太简单.没有啥挑战性.所以特地找了三个有一定难度的网站,希望可以有兴趣的手动实践一下. 此篇文章只作知识扩展和思路引导,其中涉及的网站反爬技术,仅做技术学习探讨. 字体加密 字体加密总结成一句话:你看到的不是你看到的. 地址 猫眼电影:https://maoyan.com/films/343568 问题还原 最近的哥斯拉大战金刚看了没啊,好看不,评分高不高,票房多少…
前言 上篇文章吧啦吧啦讲了一些有的没的,现在还是回到主题写点技术相关的.本篇文章作为基础爬虫知识的最后一篇,将以爬虫程序的模块设计来完结. 在我漫(liang)长(nian)的爬虫开发生涯中,我通常将爬虫程序分为四大模块. 如图,除了代理模块是根据所需引入程序,请求.解析.储存模块是必不可少的. 代理模块 代理模块主要是构建代理IP池.在第三篇中讲过为什么需要代理IP,因为很多网站是通过请求频率来识别爬虫,即记录一个IP在一段时间内的请求次数,所以可以通过更换代理IP来提高爬取效率. 概念 什么…
php从入门到放弃系列-01.php环境的搭建 一.为什么要学习php 1.php语言适用于中小型网站的快速开发: 2.并且有非常成熟的开源框架,例如yii,thinkphp等: 3.几乎全部的CMS内容管理系统,例如织梦,discuz,帝国,江湖等,采用php语言,而CMS内容管理系统,发展势头良好,使用与多数门户网站,电商网站的开发: 二.什么是php语言 PHP(外文名:PHP: Hypertext Preprocessor,中文名:“超文本预处理器”)是一种通用开源脚本语言.语法吸收了C…
[大数据从入门到放弃系列教程]第一个spark分析程序 原文链接:http://www.cnblogs.com/blog5277/p/8580007.html 原文作者:博客园--曲高终和寡 *********************分割线********************** 由于新入职了一家公司,准备把我放进大数据的组里面 我此前对大数据,仅仅停留在听说过这个名词上,那么这次很快就要进入项目,一边我自己在学习,一边也把教程分享出来,避免后来之人踩我所踩过的坑 *************…
[大数据从入门到放弃系列教程]在IDEA的Java项目里,配置并加入Scala,写出并运行scala的hello world 原文链接:http://www.cnblogs.com/blog5277/p/8615984.html 原文作者:博客园--曲高终和寡 点击下面菜单查看大数据入门全部教程 大数据从入门到放弃 网址: http://www.cnblogs.com/blog5277/category/1179528.html *********************************…
php从入门到放弃系列-04.php页面间值传递和保持 一.目录结构 二.两次页面间传递值 在两次页面之间传递少量数据,可以使用get提交,也可以使用post提交,二者的区别恕不赘述. 1.get提交 使用get提交来传递数据,在链接地址中修改发送到服务器的 URL 如下所示http://www.cnblogs.com/MarkRao/p/php01.html?gName=mark&gAge=26 ,当然也可以在表单中设置method="get",php中接收get提交过来的数…
php从入门到放弃系列-03.php函数和面向对象 一.函数 php真正的威力源自它的函数,内置了1000个函数,可以参考PHP 参考手册. 自定义函数: function functionName() { 要执行的代码; } 函数命名的准则: 函数的名称应该提示出它的功能 函数名称以字母或下划线开头(不能以数字开头) 二.面向对象 1.类基础语法: <?php class Site { /* 成员变量 */ var $url; var $title; /* 成员函数 */ function s…
Prometheus Operator不同于Prometheus,Prometheus Operator是 CoreOS 开源的一套用于管理在 Kubernetes 集群上的 Prometheus 控制器,它是为了简化在 Kubernetes 上部署.管理和运行 Prometheus 和 Alertmanager 集群. 官方提供的架构图: kubernetes也在官方的github上关于使用prometheus监控的建议: 地址:https://github.com/kubernetes/ku…