JAVA分析html算法(JAVA网页蜘蛛算法)

近来有些朋友在做蜘蛛算法,或者在网页上面做深度的数据挖掘.但是遇到复杂而繁琐的html页面大家都望而却步.因为很难获取到相应的数据. 最古老的办法的是尝试用正则表达式,估计那么繁琐的东西得不偿失,浪费我们宝贵的时间. 第二个办法用开源组织htmlparser的包,这个是一个比较老的项目,但是效果估计不是很好,好像不可以深入分析html,只能分析5级的结构: 我这里有个htmlparser的源代码,可以获取所有的超链接的 /* * To change this template, choose T…

八大排序算法详解（动图演示思路分析实例代码java 复杂度分析适用场景）

一.分类 1.内部排序和外部排序内部排序:待排序记录存放在计算机随机存储器中(说简单点,就是内存)进行的排序过程. 外部排序:待排序记录的数量很大,以致于内存不能一次容纳全部记录,所以在排序过程中需要对外存进行访问的排序过程. 2.比较类排序和非比较排序比较类排序:通过比较来决定元素间的相对次序,由于其时间复杂度不能突破O(nlogn),因此也称为非线性时间比较类排序. 非比较类排序:不通过比较来决定元素间的相对次序,它可以突破基于比较排序的时间下界,以线性时间运行,因此也称为线性时间非比较…

八大排序算法——希尔（shell）排序（动图演示思路分析实例代码java 复杂度分析）

一.动图演示二.思路分析希尔排序是把记录按下标的一定增量分组,对每组使用直接插入排序算法排序:随着增量逐渐减少,每组包含的关键词越来越多,当增量减至1时,整个文件恰被分成一组,算法便终止. 简单插入排序很循规蹈矩,不管数组分布是怎么样的,依然一步一步的对元素进行比较,移动,插入,比如[5,4,3,2,1,0]这种倒序序列,数组末端的0要回到首位置很是费劲,比较和移动元素均需n-1次. 而希尔排序在数组中采用跳跃式分组的策略,通过某个增量将数组元素划分为若干组,然后分组进行插入排序,随后逐步缩…

八大排序算法——插入排序（动图演示思路分析实例代码java 复杂度分析）

一.动图演示二.思路分析例如从小到大排序: 1. 从第二位开始遍历, 2. 当前数(第一趟是第二位数)与前面的数依次比较,如果前面的数大于当前数,则将这个数放在当前数的位置上,当前数的下标-1, 3. 重复以上步骤,直到当前数不大于前面的某一个数为止,这时,将当前数,放到这个位置, 1-3步就是保证当前数的前面的数都是有序的,内层循环的目的就是将当前数插入到前面的有序序列里 4. 重复以上3步,直到遍历到最后一位数,并将最后一位数插入到合适的位置,插入排序结束. 根据思路分析,每一趟…

八大排序算法——堆排序（动图演示思路分析实例代码java 复杂度分析）

一.动图演示二.思路分析先来了解下堆的相关概念:堆是具有以下性质的完全二叉树:每个结点的值都大于或等于其左右孩子结点的值,称为大顶堆:或者每个结点的值都小于或等于其左右孩子结点的值,称为小顶堆.如下图: 同时,我们对堆中的结点按层进行编号,将这种逻辑结构映射到数组中就是下面这个样子该数组从逻辑上讲就是一个堆结构,我们用简单的公式来描述一下堆的定义就是: 大顶堆:arr[i] >= arr[2i+1] && arr[i] >= arr[2i+2] 小顶堆:arr[i]…

八大排序算法——基数排序（动图演示思路分析实例代码java 复杂度分析）

一.动图演二.思路分析基数排序第i趟将待排数组里的每个数的i位数放到tempj(j=1-10)队列中,然后再从这十个队列中取出数据,重新放到原数组里,直到i大于待排数的最大位数. 1.数组里的数最大位数是n位,就需要排n趟,例如数组里最大的数是3位数,则需要排3趟. 2.若数组里共有m个数,则需要十个长度为m的数组tempj(j=0-9)用来暂存i位上数为j的数,例如,第1趟,各位数为0的会被分配到temp0数组里,各位数为1的会被分配到temp1数组里...... 3.分配结束后,再依次从…

八大排序算法——归并排序（动图演示思路分析实例代码java 复杂度分析）

一.动图演示二.思路分析归并排序就是递归得将原始数组递归对半分隔,直到不能再分(只剩下一个元素)后,开始从最小的数组向上归并排序 1. 向上归并排序的时候,需要一个暂存数组用来排序, 2. 将待合并的两个数组,从第一位开始比较,小的放到暂存数组,指针向后移, 3. 直到一个数组空,这时,不用判断哪个数组空了,直接将两个数组剩下的元素追加到暂存数组里, 4. 再将暂存数组排序后的元素放到原数组里,两个数组合成一个,这一趟结束. 根据思路分析,每一趟的执行流程如下图所示: 三.负杂度分析…

八大排序算法——快速排序（动图演示思路分析实例代码Java 复杂度分析）

一.动图演示二.思路分析快速排序的思想就是,选一个数作为基数(这里我选的是第一个数),大于这个基数的放到右边,小于这个基数的放到左边,等于这个基数的数可以放到左边或右边,看自己习惯,这里我是放到了左边, 一趟结束后,将基数放到中间分隔的位置,第二趟将数组从基数的位置分成两半,分割后的两个的数组继续重复以上步骤,选基数,将小数放在基数左边,将大数放到基数的右边,在分割数组,,,直到数组不能再分为止,排序结束. 例如从小到大排序: 1. 第一趟,第一个数为基数temp,设置两个指针left =…

八大排序算法——冒泡排序（动图演示思路分析实例代码java 复杂度分析）

一.动图演示二.思路分析 1. 相邻两个数两两相比,n[i]跟n[j+1]比,如果n[i]>n[j+1],则将连个数进行交换, 2. j++, 重复以上步骤,第一趟结束后,最大数就会被确定在最后一位,这就是冒泡排序又称大(小)数沉底, 3. i++,重复以上步骤,直到i=n-1结束,排序完成. 三.负杂度分析 1. 不管原始数组是否有序,时间复杂度都是O(n2), 因为没一个数都要与其他数比较一次,(n-1)2次,分解:n2+2n-1, 去掉低次幂和常数,剩下n2,所以最后的时间复杂…

Java面试题 Web+EJB & Spring+数据结构& 算法&计算机基础

六.Web 部分:(共题:基础40 道,基础37 道,中等难度3 道) 122.说出Servlet 的生命周期,并说出Servlet 和CGI 的区别? [基础] 答:Web 容器加载Servlet 并将其实例化后,Servlet 生命周期开始,容器运行其init 方法进行Servlet 的初始化,请求到达时运行其service 方法,service方法自动派遣运行与请求对应的doXXX 方法(doGet,doPost)等,当服务器决定将实例销毁的时候调用其destroy 方法.与cgi 的区别…

快速排序算法 java 实现

快速排序算法 java 实现快速排序算法Java实现白话经典算法系列之六快速排序快速搞定各种排序算法的分析及java实现算法概念快速排序是C.R.A.Hoare于1962年提出的一种划分交换排序.它采用了一种分治的策略,通常称其为分治法(Divide-and-ConquerMethod). 算法思想先从数列中取出一个数作为基准数. 分区过程,将比这个数大的数全放到它的右边,小于或等于它的数全放到它的左边. 再对左右区间重复第二步,直到各区间只有一个数. 算法实现 package…

解密随机数生成器（二）——从java源码看线性同余算法

Random Java中的Random类生成的是伪随机数,使用的是48-bit的种子,然后调用一个linear congruential formula线性同余方程(Donald Knuth的编程艺术的3.2.1节) 如果两个Random实例使用相同的种子,并且调用同样的函数,那么生成的sequence是相同的也可以调用Math.random()生成随机数 Random实例是线程安全的,但是并发使用Random实例会影响效率,可以考虑使用ThreadLocalRandom变量. Random实…

算法笔记_066:Kruskal算法详解（Java）

目录 1 问题描述 2 解决方案 2.1 构造最小生成树示例 2.2 伪码及时间效率分析 2.3 具体编码(最佳时间效率) 1 问题描述何为Kruskal算法? 该算法功能:求取加权连通图的最小生成树.假设加权连通图有n个顶点,那么其最小生成树有且仅有n - 1条边. 该算法核心思想:从给定加权连通图中,选择当前未被选择的,不能形成回路且权值最小的边,加入到当前正在构造的最小生成树中. 2 解决方案 2.1 构造最小生成树示例下面请看一个具体示例: 给定一个条边,按照从小到大排序依次为:…

AES算法，DES算法，RSA算法JAVA实现

1 AES算法 1.1 算法描述 1.1.1 设计思想 Rijndael密码的设计力求满足以下3条标准: ① 抵抗所有已知的攻击. ② 在多个平台上速度快,编码紧凑. ③ 设计简单. 当前的大多数分组密码,其轮函数是Feistel结构. Rijndael没有这种结构. Rijndael轮函数是由3个不同的可逆均匀变换 1.1.2 密码说明严格地说,AES和Rijndael加密法并不完全一样(虽然在实际应用中二者可以互换),因为Rijndael加密法可以支持更大…

JAVA面试精选【Java算法与编程二】

在面试中,算法题目是必须的,通过算法能够看出一个程序员的编程思维,考察对复杂问题的设计与分析能力,对问题的严谨性都能够体现出来.算法是一系列解决问题的清晰指令,也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出.算法常常含有重复的步骤和一些比较或逻辑判断.如果一个算法有缺陷,或不适合于某个问题,执行这个算法将不会解决这个问题.不同的算法可能用不同的时间.空间或效率来完成同样的任务.一个算法的优劣可以用空间复杂度与时间复杂度来衡量.一个算法的好坏,直接影响一个方法调用的性能,进而影响软件…

JAVA面试精选【Java算法与编程一】

Java虚拟机（三）垃圾标记算法与Java对象的生命周期

前言这一节我们来简单的介绍垃圾收集器,并学习垃圾标记的算法:引用计数算法和根搜索算法,为了更好的理解根搜索算法,会在文章的最后介绍Java对象在虚拟机中的生命周期. 1.垃圾收集器概述垃圾收集器(Garbage Collection),通常被称作GC.提到GC,很多人认为它是伴随Java而出现的,其实GC出现的时间要比Java早太多了,它是1960诞生于MIT的Lisp. GC主要做了两个工作,一个是内存的划分和分配,一个是对垃圾进行回收.关于内存的划分和分配,目前Java虚拟机内存的划分是…

算法笔记_054:Prim算法（Java）

目录 1 问题描述 2 解决方案 2.1 贪心法 1 问题描述何为Prim算法? 此处引用网友博客中一段介绍(PS:个人感觉网友的这篇博客对于Prim算法讲解的很清楚,本文与之相区别的地方在于具体实现代码的不同,该网友是使用C++实现,而本文是使用Java实现.其他理论讲解可以参考该网友的博客哦,具体链接看文末参考资料) 普里姆算法(Prim算法),图论中的一种算法,可在加权连通图里搜索最小生成树.意即由此算法搜索到的边子集所构成的树中,不但包括了连通图里的所有顶点(英语:Vertex (…

牛客网Java刷题知识点之垃圾回收算法过程、哪些内存需要回收、被标记需要清除对象的自我救赎、对象将根据存活的时间被分为：年轻代、年老代（Old Generation）、永久代、垃圾回收器的分类

不多说,直接上干货! 首先,大家要搞清楚,java里的内存是怎么分配的.详细见牛客网Java刷题知识点之内存的划分(寄存器.本地方法区.方法区.栈内存和堆内存) 哪些内存需要回收其实,一般是对堆内存而言的. 垃圾回收算法过程在Java语言中,GC(Garbage Collection)是一个非常重要的概念.它主要是回收程序中不再使用的内存. 对对象而言,如果没有任何变量去引用它,那么该对象将不可能被程序访问,因此可以认为它是垃圾信息,可被回收.只要有一个以上的变量引用该对象,该对象就不会被…

Java虚拟机垃圾回收(二) :垃圾回收算法(转载)

1.标记-清除算法标记-清除(Mark-Sweep)算法是一种基础的收集算法. 1.算法思路 "标记-清除"算法,分为两个阶段: (A).标记首先标记出所有需要回收的对象: 标记过程如<Java虚拟机垃圾回收(一) 基础>"2-4.判断对象生存还是死亡"中所述--分为两个标记过程(详细请参考前文): (1).第一次标记在可达性分析后发现对象到GC Roots没有任何引用链相连时,被第一次标记: 并且进行一次筛选:此对象是否必要执行finalize(…

判断Java对象死亡的两种常用算法

当对象不馁引用的时候,这个对象就是死亡的,等待GC进行回收. 1.引用计数法概念: 给对象中添加一个引用计数器,每当有一个地方引用它时,计数器值就增加1:当应用失效时,计数器值就减1:任何时刻计数器为0是对象就是不可能再被使用的. 但是: 主流的java虚拟机并没有选用引用计数器算法,其中一个最主要的原因是:它很难解决对象之间是相互循环引用. 优点:算法的实现简单,判定效率高,大部分情况下是一个不错的算法.很多地方应用到它缺点: 引用和去引用伴随假发和减法,影响性能. 致命的缺陷:对于循环引…

【JVM从小白学成大佬】4.Java虚拟机何谓垃圾及垃圾回收算法

在Java中内存是由虚拟机自动管理的,虚拟机在内存中划出一片区域,作为满足程序内存分配请求的空间.内存的创建仍然是由程序猿来显示指定的,但是对象的释放却对程序猿是透明的.就是解放了程序猿手动回收内存的工作,交给垃圾回收器来自动回收. 在虚拟机中,释放哪些不再被使用的对象所占空间的过程称为垃圾收集(Garbage Collection,GC).负责垃圾收集的程序模块,成为垃圾收集器(Garbage Collector). 既然虚拟机已经帮我们把垃圾自动处理了,为什么还要去了解GC和内存分配呢? 当…

判断Java对象存活的算法、垃圾回收算法

判断Java对象存活的算法一.引用计数算法给对象添加一个引用计数器,每当一个地方引用它的时候就将计数器加1,当引用失效的时候就将计数器减1,任何时刻计数器为0的对象都不可再被使用.这种算法虽然简单,但是有个致命的缺点,就是不能适用于相互引用的情况. 二.可达性分析算法通过一系列称为"GC Roots"的对象作为起始点,从这些节点往下搜索,搜索走过的路径称为引用链(Reference Chain).当一个对象不在任何引用链上的时候,就表示这个对象不可达,不可用了. 可作为GC Ro…

JAVA虚拟机：内存回收策略及算法

java虚拟机中的程序计数器区.虚拟机栈区.本地方法栈区3个区域是随着线程的创建而创建,随着线程的结束而结束时,内存自然得到回收,所以这三个区域不需要过多考虑内存的回收问题. java虚拟机中的方法区和虚拟机堆区2个区是所有线程共享的区域,不同的接口或类需要的内存不同,且方法区和堆区往往是在程序运行期间进行内存动态分配或回收.GC回收器的使用范围就是对这两个区域的定义. 虚拟机堆区垃圾回收策略:GC回收器在回收内存之前,首先要知道哪些对象可以回收,即“死去”的对象是可以回收的:哪些对象不能回收,…