htmlparse

<html>
    <head>
        <style>
            textarea{
                width:800px;
                height:250px;
            }
        </style>
        <script>
           /**
           *Dom 类
           *存储Dom树节点
           */
           function Dom() {
               this.tag = "";
               this.attributes=[];// id class style name
               this.innerHtml = "";
               this.parent = "";
               this.children=[];
               this.num = 0;
               this.cssNums =[];
               this.each = function() {
               }
           }
           /**
           *HtmlParser类
           *解析html文档
           */
           function HtmlParser(html) {
               this.parse = function(html,pDom) {
                   var dom = new Dom();
                   // 生成节点编号
                   dom.num = 1;
                   // 获取节点标签
                   dom.tag = this.getTag(html);
                   // 获取节点属性
                   dom.attributes = this.getAttributes(html);
                   // 获取节点innerHtml
                   dom.innerHtml = this.getInnerHtml(html);
                   // 生成节点父亲
                   dom.parent = pDom;
                   // 生成节点孩子 ==>如果innerHtml中有孩子，生成孩子，否则结束
                   if(this.isExistNode(dom.innerHtml)) {
                       var nodes = this.splitNodes(dom.innerHtml);
                       for (var i=0;i < nodes.length;i++) {
                           var childDom = this.parse(nodes[i],dom);
                           dom.children.push(childDom);
                       }
                   }
                   return dom;
               };
               // 获取节点的标签
               this.getTag = function(html) {
                   var tag = "tag";
                   var tagStart = html.indexOf('<');
                   var spacePst = html.indexOf(' ',tagStart);
                   var rightPst = html.indexOf('>',tagStart);
                   var tagEnd = rightPst;
                   if (spacePst!=-1 && spacePst<rightPst) {
                       tagEnd = spacePst;
                   }
                   tag = html.substring(tagStart,tagEnd);
                   return tag;
               }
               // 获取节点的属性
               this.getAttributes = function(html) {
                   var attributes = "attributes";
                   return attributes;
               }
               // 获取节点的innerHtml
               this.getInnerHtml = function(html) {
                   var innerHtml = "innerHtml";
                   return innerHtml;
               }
               // 判断innerHtml 中是否有节点
               this.isExistNode = function (html) {
                   return false;
               }
               // 将innerHtml 分割成孩子节点数组，必须保证里面有节点才能调用该函数
               this.splitNodes = function (html) {
                   var nodes = [];
                   return nodes;
               }
           }
           // 主函数
            function main(){
                var html = document.getElementById("content");
               var htmlParser = new HtmlParser();
                var dom = htmlParser.parse(html,"");
               alert(dom.num + " " +dom.tag + " " + dom.attributes +" " +dom.innerHtml);
                document.getElementById("result").value = dom;
            }
        </script>
    </head>
    <body>
        <textarea id="content"></textarea>
        <input type="button" value="转换" onclick="main()"/>
        <textarea id="result"></textarea>
    </body>
</html>

htmlparse的更多相关文章

使用htmlparse爬虫技术爬取电影网页的全部下载链接
昨天,我们利用webcollector爬虫技术爬取了网易云音乐17万多首歌曲,而且还包括付费的在内,如果时间允许的话,可以获取更多的音乐下来,当然,也有小伙伴留言说这样会降低国人的知识产权保护意识,诚 ...
【vuejs深入二】vue源码解析之一，基础源码结构和htmlParse解析器
写在前面一个好的架构需要经过血与火的历练,一个好的工程师需要经过无数项目的摧残. vuejs是一个优秀的前端mvvm框架,它的易用性和渐进式的理念可以使每一个前端开发人员感到舒服,感到easy.它内 ...
【vuejs深入三】vue源码解析之二 htmlParse解析器的实现
写在前面一个好的架构需要经过血与火的历练,一个好的工程师需要经过无数项目的摧残. 昨天博主分析了一下在vue中,最为基础核心的api,parse函数,它的作用是将vue的模板字符串转换成ast,从而 ...
HtmlParse：一款超轻量级的HTML文件解析和爬取工具
HtmlParse 是一款基于windwos平台的HTML文档解析工具,可快速构建DOM树,从而轻松实现网页元素的爬取工作.DOM树就是一个HTML文档的节点树,每个节点由:标签(Tag).属性(At ...
Android项目---HtmlParse
在解析网站上的内容的时候,总会出现很多html的标签,一般在遇到这种数据的时候,就可以用上Html 如: content.setText(Html.fromHtml("<html> ...
vue.js 源代码学习笔记 ----- html-parse.js
/** * Not type-checking this file because it's mostly vendor code. */ /*! * HTML Parser By John Resi ...
R自动数据收集第二章HTML笔记1(主要关于handler处理器函数和帮助文档所有示例)
本文知识点: 1潜在畸形页面使用htmlTreeParse函数 2startElement的用法 3闭包 4handler函数的命令和函数体主要写法 5节点的丢弃,取出,取出标签名称.属性.属 ...
R自动数据收集第一章概述——《List of World Heritage in Danger》
导包 library(stringr) library(XML) library(maps) heritage_parsed <- htmlParse("http://en ...
Coursera-Getting and Cleaning Data-Week2-课程笔记
Coursera-Getting and Cleaning Data-Week2 Saturday, January 17, 2015 课程概述 week2主要是介绍从各个来源读取数据.包括MySql ...

随机推荐

洛谷P1144——最短路计数
题目:https://www.luogu.org/problemnew/show/P1144 spfa跑最短路的同时记录cnt数组表示到达方案数. 代码如下: #include<iostream ...
Ubuntu 复制文件，修改文件名
复制 cp a b (a为旧的,b为新的) 修改 mv a b (a为旧的,b为新的)
websocket之二：WebSocket编程入门
一.WebSocket客户端 websocket允许通过JavaScript建立与远程服务器的连接,从而实现客户端与服务器间双向的通信.在websocket中有两个方法: 1.send() 向远程服务 ...
Spring管理Filter和Servlet（在servlet中注入spring容器中的bean）
在使用spring容器的web应用中,业务对象间的依赖关系都可以用context.xml文件来配置,并且由spring容器来负责依赖对象的创建.如果要在servlet中使用spring容器管理业务对 ...
SQL　Replication
http://www.cnblogs.com/CareySon/archive/2012/06/20/IntroductToSQLServerReplicationPart1.html http:// ...
JavaScript高级程序设计学习笔记第一章
作为学习javascript的小白,为了督促自己读书,写下自己在读书时的提炼的关键点. 第一章: 1.JavaScript简史:Netscape Navigator中的JavaScript与Inter ...
[MTC3]Cracking SHA1-Hashed Passwords
题目地址:https://www.mysterytwisterc3.org/en/challenges/level-ii/cracking-sha1-hashed-passwords 解题关键:根据键 ...
petrozavodsk1
A 转化模型和相当于求解小于n/2的最大的和n互质的数字, 显然可以证明所求和n/2相距 O(logn) ,从 n/2 开始向下枚举然后判定即可. B 上下界网络流? C 从底层开始向上走贪心选下层节 ...
清除@SessionAttributes 网站实现退出登录
在网站实现登录时,我认识了@SessionAttributes,对我来说是真的好用,@SessionAttributes注解可以使得模型中的数据存储一份到session域中. 这样在页面跳转时可以直接 ...
32bit / 64bit co-exist Linux, ld-linux.so, linux-gate.so.1 etc
before this, confirm that you don't have 32bit libs notably 32bit libc, e.g. you have /lib64/ld-linu ...

htmlparse

htmlparse的更多相关文章

随机推荐

热门专题