html_parser

import json

from lxml import etree

class HtmlParser(object):

    """这是HtmlParser"""

    # 提取urls

    def _get_new_urls(self):

        pass

    # 提取内容

    def _get_new_data(self):

        pass

    def parser(self, page_url, html_cont_str):

        if page_url is None or html_cont_str is None:

            return

        # dict_data=json.loads(html_cont)

        html_etree = etree.HTML(html_cont_str)  # 获取element 类型的html

        # node_list = html_etree.xpath("//div[@id='u1']/a")  # 获得节点

        node_list = html_etree.xpath("//a[starts-with(@href,'http')]|//a[starts-with(@href,'//')]")  # 获得节点

        print(len(node_list))

        # 遍历节点

        i = 1

        for node in node_list:

            a_href = node.xpath("./@href")[0]

            # a_href=node.xpath("./text()")

            print('No.%3s: %s' % (i, a_href))

            i += 1

        new_urls = self._get_new_urls()

        new_data = self._get_new_data()

        return new_urls, new_data

        pass

html_parser的更多相关文章

爬虫3 html解析器 html_parser.py
#coding:utf8 import urlparse from bs4 import BeautifulSoup import re __author__ = 'wang' class HtmlP ...
html_parser.py
coding=UTF-8 # HTML解释器 import re from bs4 import BeautifulSoup class htmlParser(): def parse(self, u ...
python爬虫学习(11) —— 也写个AC自动机
0. 写在前面本文记录了一个AC自动机的诞生! 之前看过有人用C++写过AC自动机,也有用C#写的,还有一个用nodejs写的.. C# 逆袭--自制日刷千题的AC自动机攻克HDU OJ HDU 自 ...
python爬虫学习(7) —— 爬取你的AC代码
上一篇文章中,我们介绍了python爬虫利器--requests,并且拿HDU做了小测试. 这篇文章,我们来爬取一下自己AC的代码. 1 确定ac代码对应的页面如下图所示,我们一般情况可以通过该顺序 ...
python爬虫学习(6) —— 神器 Requests
Requests 是使用 Apache2 Licensed 许可证的 HTTP 库.用 Python 编写,真正的为人类着想. Python 标准库中的 urllib2 模块提供了你所需要的大多数 H ...
python爬虫—爬取百度百科数据
爬虫框架:开发平台 centos6.7 根据慕课网爬虫教程编写代码片区百度百科url,标题,内容分为4个模块:html_downloader.py 下载器 html_outputer.py 爬取数 ...
Python 开发轻量级爬虫08
Python 开发轻量级爬虫 (imooc总结08--爬虫实例--分析目标) 怎么开发一个爬虫?开发一个爬虫包含哪些步骤呢? 1.确定要抓取得目标,即抓取哪些网站的哪些网页的哪部分数据. 本实例确定抓 ...
Python开发简单爬虫 - 慕课网
课程链接:Python开发简单爬虫环境搭建: Eclipse+PyDev配置搭建Python开发环境 Python入门基础教程用Eclipse编写Python程序课程目录第1章课程介绍 ...
【转】Python处理HTML转义字符
Python处理HTML转义字符转 [http://www.cnblogs.com/xuxn/archive/2011/08/12/parse-html-escape-characters-in-p ...

随机推荐

python --->字典集合学习笔记
1.字典--->创建空字典:dict={} broa=["李宁",”耐克“,“阿迪达斯”,“鱼c工作室”] sloga=[“A”,“B”,“C”,“D”] dict={&qu ...
linux 开机自启脚本
1.vi /home/dpf/mqtt.sh #!/bin/sh/home/dpf/Desktop/Udp_Single_Async_Mqtt_yuan/hwjc_udp_receive_mqtt & ...
sqlite3错误码整理
#define SQLITE_OK /* 成功 | Successful result */ /* 错误码开始 */ #define SQLITE_ERROR /* SQL错误或丢失数据库 | S ...
C# 压缩 SharpZipLib
zip压缩与解压缩: 官方网站:http://icsharpcode.github.io/SharpZipLib/ 官网下载的资源并不是能够直接运行的,感觉是这个dll的编译,开源的参考文档:htt ...
【PHP】 curl 上传文件流
在运行过程中, 以下两种方式要看你的PHP 版本 'file' =>'@' .$filePath 'file' =>new CURLFile(realpath($filePath)) 本次 ...
开始使用ARC
Automatic Reference Counting (ARC)是编译器自动管理Objective-C对象的一个功能,相对于不得不考虑retain和release操作来说,ARC让我们有更多的精力 ...
stylus--css　框架使用方法
Stylus是一款需要编译的css语言,所以其本身文件不能被html直接调用,需要要编译为css文件后再进行日常的加载. stylus是一款优秀的css编译语言,需要node.js支持,第一步需要 ...
jstorm开发指南-写个简单的jstorm应用
jstorm开发指南-写个简单的jstorm应用发表于 2015-07-18 | 分类于大数据 | 暂无评论 jstorm 是阿里巴巴开源的基于storm采用Java重写的一套分布 ...
【大数据系列】windows下连接Linux环境开发
一.配置文件 1.core-site.xml <configuration> <property> <name>fs.defaultFS</name> ...
阿里云ubuntu14.4上部署gogs
以前曾经在centos上部署了gitlab,但因为买的配置比较低,实际效果并不理想,经常卡机.而且,gitlab配置相当麻烦,需要依赖很多被墙包支持.最近在用golang搞开发,顺道发现了gogs这款 ...

html_parser

html_parser的更多相关文章

随机推荐

热门专题