spider（一）

此爬虫内容无架构：

1.URL管理器：用集合，mysql表，缓存等

2.网页下载器：实现网页下载，

　　urllib2：官方基础模块

　　requests：三方的（更强）：伪装成浏览器访问，代理登录，https加密访问等

3.页面解析器：

　　正则

　　html.parser解析器模块

　　lxml 解析器

 soup = BeautifulSoup(html,"lxml")

 print soup.a

 print "+++"

 print soup.a.string

 print "+++"

 print type(soup.a.string)   # <class 'bs4.element.NavigableString'>

第一行：将 html.text 用 lxml 解析，后赋值给soup变量

第三行：打印出搜索到的第一个 a 标签（即a节点）

第五行：打印出 a 标签内的文字。

获取标签 dl 所有的直接子节点：
1 for i in soup.dl.contents:

     print i

     print "++++++++++++++++"

# soup.dl.contents  ：返回其下所有节点（列表方式）

# soup.dl.children  ：遍历才能获得内容

获取节点的内容：用 soup.dl.strings

 for string in soup.dl.strings:

       print repr(string)

查找内容：

 print soup.find_all('dt')  #返回列表，里面包括了所有的 dt 标签

 print soup.select("dt")    #同上，，[<dt>Mutation ID</dt>, <dt>Gene name</dt>, <dt>Remark</dt>, <dt>Recurrent</dt>, <dt>Drug resistance</dt>]

 print soup.select(".inline > dd")  #精准定位，查找 dd 标签

print soup.select("dt").get_text() # AttributeError: 'list' object has no attribute 'get_text'

用 get_text() 方法，获取里面的文字。

 for dt in soup.select(".inline > dt"):

     print dt.get_text()

     print "++++++++++++++++++" #每获取一个 dt 里面的文字，打印一次这行，结果如下：

 Mutation ID

 ++++++++++++++++++

 Gene name

 ++++++++++++++++++

 AA mutation

 ++++++++++++++++++

显示搜索对象下所有的文字：
1 for dt in soup.select(".inline"):

     print dt.get_text()

     print '**********************' # 会在显示完 .inline 下面 所有的递归子标签里的文字后，打印一次本行。本例中只打印了一次。也就是本遍历值遍历了一个，已验证

其他关于 find_all() 和 select()

 soup.find_all('a') # 找到所有 a 标签，遍历取出

 soup.find_all(['a','b']) #任意匹配一个即可返回，

 soup.find_all(id = "...") #根据 id 号码查找

 soup.find_all("a",class_="...") #查找固定 class 的 a 标签

 soup.find_all("a",limit=2) # 限制搜索到的 a 标签的个数，只要前两个

 soup.find_all("p",recursive=False) # 只搜索 返回直接子节点。

 soup.select("a") #搜索所有 a 标签

 soup.select("#idname") # 根据 id 名搜索

 soup.select(".classname") # 根据 class 搜索

 soup.select(".classname > p > a > ...") # 精准搜索

 soup.select("p a[class="..."]") # 搜索 p 标签下的 class为...的 a 标签

14 node.get_text()  # 获取节点的文字

 .select(a[href='...']) # 获取节点的 href 属性

 node.name # 获取节点的 名字

spider（一）的更多相关文章

spider RPC入门指南
本部分将介绍使用spider RPC开发分布式应用的客户端和服务端. spider RPC中间件基于J2SE 8开发,因此需要确保服务器上安装了JDK 8及以上版本,不依赖于任何额外需要独立安装和配置 ...
Scrapy:为spider指定pipeline
当一个Scrapy项目中有多个spider去爬取多个网站时,往往需要多个pipeline,这时就需要为每个spider指定其对应的pipeline. [通过程序来运行spider],可以通过修改配置s ...
spider RPC过滤器
spider支持在请求执行前或完成后进行特殊处理,比如安全性检查.敏感字段混淆等等.为此,spider提供了BeforeFilter和AfterFilter.其执行位置如下图所示: 流水线插件配置在s ...
spider RPC插件化体系
为了满足灵活扩展的需要,spider支持灵活的自定义插件扩展,从功能上来说,插件和过滤器的差别在于过滤器不会阻止请求的执行同时对于主程序不会有API上的影响(比如servlet 过滤器和监听器)(最多 ...
spider RPC管理接口
为了在独立管理模式下尽可能的容易运行时排查问题,spider中间件提供了一系列restful api用于动态管理当前节点的路由,下游节点等.目前支持的RESTFUL API如下所示: 功能服务号 R ...
spider RPC高级特性
多租户 spider原生支持多租户部署,spider报文头对外开放了机构号.系统号两个属性用于支持多租户场景下的路由. 多租户场景下的路由可以支持下述几种模式: n 系统号: n 系统号+服务号( ...
spider RPC安全性
spider提供了多重安全保障机制,目前主要支持接入握手校验,报文完整性校验,报文加密,报文长度检查四种机制. 接入认证 spider使用两次握手校验,其握手流程如下: 签名AES加密的方式实现. l ...
spider RPC开发指南
协议与兼容性 spider使用java语言开发,使用Spring作为IoC容器,采用TCP/IP协议,在此基础上,结合SaaS系统模式的特性进行针对性和重点设计,以更加灵活和高效的满足多租户系统.高可 ...
spider 配置文件参考
spider有一个配置文件spider.xml,为xml格式,spider.xml采用DTD进行管理,用于管理spider的所有特性.路由.高可用等. 配置文件支持三种不同的方式进行指定: 1. 通过 ...
spider RPC性能测试报告
测试环境部署结构测试用例类别说明请求报文 194字节({"systemId":"PL","appVersion":"qq ...

随机推荐

《机器学习实战》学习笔记第八章 —— 线性回归、L1、L2范数正则项
相关笔记: 吴恩达机器学习笔记(一) —— 线性回归吴恩达机器学习笔记(三) —— Regularization正则化 ( 问题遗留: 小可只知道引入正则项能降低参数的取值,但为什么能保证 Σθ2 ...
nginx源码中upstream的主要流程
upstream 即上游的意思,是一个想对到概念,从客户端到中间的网络链路到服务器到链路中,可以将越接近客户到设备越理解成下游,相反到为上游,所以如果只有一个upstream,可以将其为理解成转发客户 ...
java 获取访问主机的ip地址
Java的api的说法: getHeader public java.lang.String getHeader(java.lang.String name) Return the first val ...
html转义字符及css清除
1. [代码][Java]代码 import java.util.HashMap;import java.util.Map; import org.apache.commons.lang3. ...
常用的SQL 总结
1.去重 SELECT * FROM my where id in(SELECT MAX(id) from my GROUP BY id,iid,pid)//取 id,iid,pid重复的最大值
Python基础知识之字符串操作方法总结
Python 中字符串也是一种数据类型,针对此数据总结下常用的方法 1,字符串截取,变量[头下标:尾下标],就可以截取相应的字符串,其中下标是从0开始算起,可以是正数或负数,下标可以为空表示取到头或尾 ...
12 Python 函数
初识函数定义与调用定义:def 关键词开头,空格之后接函数名称和圆括号(),最后还有一个":". def 是固定的,不能变,必须是连续的def三个字母,不能分开...它们要相亲相 ...
hihocoder-1285 智力竞赛(区间dp)
智力竞赛时间限制:5000ms 单点时限:1000ms 内存限制:256MB 描述小Hi.小Ho还有被小Hi强拉来的小Z,准备组队参加一个智力竞赛.竞赛采用过关制,共计N个关卡.在第i个关卡中,小 ...
codeforces 617E E. XOR and Favorite Number(莫队算法)
题目链接: E. XOR and Favorite Number time limit per test 4 seconds memory limit per test 256 megabytes i ...
poj-2420 A Star not a Tree?(模拟退火算法)
题目链接: A Star not a Tree? Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 5219 Accepte ...

spider（一）

此爬虫内容无架构：

查找内容：

spider（一）的更多相关文章

随机推荐

热门专题