java获取js执行后的网页内容

2024-11-07

java_爬虫_获取经过js渲染后的网页源码

md 弄了一天了……(这个月不会在摸爬虫了,浪费生命) 进入正题: 起初是想写一个爬虫来爬一个网站的视频,但是怎么爬取都爬取不到,分析了下源代码之后,发现源代码中并没有视频的dom 但是在浏览器检查元素的时候又是有的,这就让我很难过了百度了一大天,发现是因为普通方法获取的只是服务器端本地的静态资源,也就是第一手资源而浏览器检查元素的资源是经过js渲染后的代码所以就要想办法去获得渲染后的代码在看了若干个帖子之后……外加上一个httpclient课程和另一个htmlunit课程…… 终于,在

htmlunit抓取js执行后的网页源码

上次我不是写了一个自动抓取博客访问量吗 (点击打开链接) 可是昨天晚上我又运行的时候,发现不能用了.. 运行了几次发现使用URLConnection 得到的网页源码和浏览器直接查看的不同. URLConnection 使用IO流读取到的源码只有积分没有访问量了而使用浏览器访问直接查看源码有访问. 这也就导致了我的程序不能用了需要更新了想想原因可能是幕后主使人把访问量放在了js里面动态展示,而我使用URLConnection 访问的静态界面确确实实没有收到. 于

Selenium2学习-036-WebUI自动化实战实例-034-JavaScript 在 Selenium 自动化中的应用实例之六（获取 JS 执行结果返回值）

Selenium 获取 JavaScript 返回值非常简单,只需要在 js 脚本中将需要返回的数据 return 就可以,然后通过方法返回 js 的执行结果,方法源码如下所示: /** * Get Object of return from js * * @author Aaron.ffp * @version V1.0.0: autoSeleniumDemo main.aaron.sele.core SeleniumCore.java execJSR, 2015-8-9 1:39:17 Ex

Java: 获取当前执行位置的文件名/类名/方法名/行号

在 JAVA 程序有时需要获取当前代码位置, 于是就利用 Thread.currentThread().getStackTrace() 写了下面这个工具类, 用来获取当前执行位置处代码的文件名/类名/方法名/行号. 当然通过 new Throwable().getStackTrace() 也能得到同样信息, 在处理异常时用这种方法还行, 否则需要 new 一个 Throwable, 感觉有点浪费

Java获取多线程执行结果方式的归纳与总结

在日常的项目开发中,我们会经常遇到通过多线程执行程序并需要返回执行结果的场景,下面我们就对获取多线程返回结果的几种方式进行一下归纳,并进行简要的分析与总结. 一.Thread.join 在一些简单的应用场景中我们可以使用线程本身提供的join方法,我们知道join方法的目的是让一个线程等待另一个线程结束后才能执行,利用此原理我们可以设置一个监控线程用来等待程序线程执行完毕后输出返回结果,下面我们看下具体示例代码首先定义一个结果实体类 public class Result { private

java 获取正在执行的方法名

//获取调用该方法的方法名.... String method = Thread.currentThread().getStackTrace()[2].getMethodName(); //获取正在执行方法的方法名.... String method = Thread.currentThread().getStackTrace()[1].getMethodName();

Java获取正在执行的函数名

利用StackTrace堆栈轨迹获取某个时间的调用堆栈状态. package com.dsp.demo; public class TechDemo { public static void main(String[] args) { System.out.println("Hello dsp!"); System.out.printf("%x\n", 2129); aMethod(); } private static String getExecutingMet

Python通过PhantomJS获取JS渲染后的网页源代码

新建一个文件,命名为test.js,内容如下: var page = require('webpage').create(), system = require('system'), address; if (system.args.length === 1) { phantom.exit(1); } else { address = system.args[1]; page.open(address, function(status) { if (status !== 'success') {

java获取当前执行文件的路径

需要知道执行jar包时,jar包所在的路径. 开始使用了 p.getClass().getResource("/").getPath(); 结果在IDE里面使用是好的,但是在命令行中执行时,会报NullPointerException错误. 接着尝试使用另一种方式, File f = new File(""); String cf = null; try { cf = f.getCanonicalPath(); } catch (IOException e) { e

bat 获取命令执行后的多个返回值，并取最后一个

最近在使用bat,遇到了这样的问题,获取adb shell cat命令之后的所有返回值,查了很长时间,才找到,现分享给大家. 举例如下: @for /f "tokens=*" %%i in ('adb shell cat /sys/devices/system/cpu/cpu0/cpufreq/scaling_available_frequencies') do @set vars=%%i @echo All cpufreqs are: %var% @for %%A in (%var%

java获取年份的后两位

public static String getDate(Date strDate) { String date = null; if (strDate!= null) { Calendar startTime = Calendar.getInstance(); int year = startTime.get(Calendar.YEAR) - 20; // 这里初始化时间,然后设置年份.只以年份为基准,不看时间 startTime.clear(); startTime.set(Calendar

java调用js脚本

有些情况下,需要java去调用js,groovy等脚本语言,传入参数获取脚本运行的结果. js脚本例子: function add(a,b){ return a + b + number; } java代码的例子: import java.io.FileReader; import java.util.Scanner; import javax.script.Bindings; import javax.script.Invocable; import javax.script.ScriptCo

js/java 获取、添加、修改、删除cookie（最全）

一.cookie介绍 1.cookie的本来面目 HTTP协议本身是无状态的.什么是无状态呢,即服务器无法判断用户身份.Cookie实际上是一小段的文本信息(key-value格式).客户端向服务器发起请求,如果服务器需要记录该用户状态,就使用response向客户端浏览器颁发一个Cookie.客户端浏览器会把Cookie保存起来.当浏览器再请求该网站时,浏览器把请求的网址连同该Cookie一同提交给服务器.服务器检查该Cookie,以此来辨认用户状态. 2.cookie本来运行机制当用户

【Java面试题】15 String s="Hello"; s=s+“world！”;这两行代码执行后，原始的String对象中的内容到底变了没有？String与StringBuffer的超详细讲解！！！！！

1.Java中哪些类是不能被继承的? 不能被继承的是那些用final关键字修饰的类.一般比较基本的类型或防止扩展类无意间破坏原来方法的实现的类型都应该是final的,在java中,System,String,StringBuffer等都是不能被继承的. 2.String是基本数据类型吗? 基本数据类型包括byte short char int long float double boolean . java.lang.String类是final类型的,因此不可以继承这个类,不能修改这个类

js时间比较，获取n天后（前）的日期

<html> <head> <meta http-equiv="Content-Type" content="textml; charset=utf-8"> <title>js获取日期:前天.昨天.今天.明天.后天 ,并比较时间大小</title> </head> <body> <script language="JavaScript" type="

JAVA获取客户端请求的当前网络ip地址（附：Nginx反向代理后获取客户端请求的真实IP）

1. JAVA获取客户端请求的当前网络ip地址: /** * 获取客户端请求的当前网络ip * @param request * @return */ public static String getIpAddr(HttpServletRequest request){ String ipAddress = request.getHeader("X-Real-IP");//先从nginx自定义配置获取 if (ipAddress == null || ipAddress.length(

java获取request中的参数、java解析URL问号后的参数

java获取request中的参数.java解析URL问号后的参数.有时候我们需要从request中获取参数,或者获取拼接在Url后面的参数,有时候一个一个去拿有点麻烦,一起拿出来放在一个map里面需要用哪个就取哪个,方便省事. 1. java获取request中的参数: import java.io.UnsupportedEncodingException; import java.net.URLDecoder; import java.util.HashMap; import java.ut

java 根据系统日期获取前一天、后一天时间(根据初始日期推算出期望（向前/向后）日期)

1.情景展示 java 根据系统当前日期获取前一天日期.后一天日期,或者根据初始日期推算出期望(向前/向后)日期. 2.解决方案导包 import java.text.ParseException; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date; 方法一: /** * 根据初始日期推算期望(向前/向后)日期 * @param initTime * 初始日期(initT

java 中多线程和锁的使用以及获取多线程执行结果

多线程一:原生的写法关键词 implements 实现 Runnable 类 run() 方法注意点 : 创建类的实例 InterfaceController inter=new InterfaceController(); 的时候,不要放在循环中 , 如果放在循环中 run 方法中的lock 是起不到作用的, 正确写法看下面的例子 @Controller @RequestMapping("/interface") public class InterfaceCo

java和js获取当前天之后或之前7天(任意)日期

一.获取过去第几天的日期(- 操作) 或者未来第几天的日期( + 操作) /** * 获取过去第几天的日期(- 操作) 或者未来第几天的日期( + 操作) * * @param past * @return */ public static String getPastDate(int past) { Calendar calendar = Calendar.getInstance(); calendar.set(Calendar.DAY_OF_YEAR, calendar.get(Ca

java获取js执行后的网页内容

热门专题