用浏览器控制台抓取shodan、搜索引擎、zone-h的结果

0x00 前言

大部分内容来自参考连接的内容，只是一种爬取内容的思路。

在很久以前自己会有爬取zone-h做目标测试的需求，但是总是有各种反爬限制。而且个别网址还有前端自动生成内容的功能，使用JavaScript可以很方便的让我们得到自己想要得结果做数据整理。

会用到DOM属性如下：

document.getElementsByClassName()	返回文档中所有指定类名的元素集合，作为 NodeList 对象。

document.getElementById()	返回对拥有指定 id 的第一个对象的引用。

document.getElementsByName()	返回带有指定名称的对象集合。

document.getElementsByTagName()	返回带有指定标签名的对象集合。

js截取指定字符前面或后面的内容

function getCaption(obj,state) {

    var index=obj.lastIndexOf("\-");

    if(state==0){

        obj=obj.substring(0,index);

    }else {

        obj=obj.substring(index+1,obj.length);

    }

    return obj;

}

var data = 'aaa-bbb'

//截取符号前面部分

getCaption(data,0)  //输出aaa

//截取符号后面部分

getCaption(data,1)  //输出bbb

0x01 提取zone-h结果

function getIpByTag(){

    var trVal = document.getElementsByTagName("tr");

    var retStr="\n";

	var tmpStr="";

    for(var i=1;i< trVal.length-4;i++)

    {

	   tmpStr = trVal[i].getElementsByTagName('td')[7].innerHTML.trim();

	   var index = tmpStr.indexOf('/');

	   if(index>0)

	   {

	       retStr= retStr + tmpStr.substring(0,index) + "\n";}

	   else

	   {

	       retStr= retStr + tmpStr+ "\n";

	   }

	   console.log(i,tmpStr)

    }

	return retStr;

}

getIpByTag();

0x02 提取Shodan结果ip

Shadan

//方法1：获取标签提取

console.log(document.getElementsByClassName("ip")[0].firstChild.innerHTML)

function getIpByTag()

{

    var ip = document.getElementsByClassName("ip");

    var str = "\n";

    for(var i=0; i < ip.length; i++)

    {

        var node = ip[i].firstChild;

        str = str + node.innerHTML + "\n";

    }

    return str;

}

getIpByTag();

//方法2：正则提取

function getIpByTag(){

    var tag = document.getElementsByClassName("span9")[0];

    var re = new RegExp();

    var str = tag.innerHTML;

    var re = /\d+\.\d+\.\d+\.\d+/g;

    var arr = str.match(re);

    console.log(arr);

    //数组去重

    arr.sort();

    for(var i = 0; i < arr.length-1;) {

        //用当前的元素与他的前一个元素进行对比

        if(arr[i] == arr[i + 1]) {

        //如果相同的话,就删除掉第i个元素

        arr.splice(i, 1);

    }else{ i++;}

}

console.log(arr);

0x03 抓取Google结果

Google

console.log(document.getElementsByClassName("r")[0.].firstChild.href)

function getIpByTag()

{

    var r = document.getElementsByClassName("r");

    var str = '\n';

    for(var i=0;i< r.length;i++)

    {

        str = str + r[i].firstChild.href + '\n';

    }

    return str;

}

getIpByTag();

0x04 提取百度结果

Baidu

console.log(document.getElementsByClassName("t")[0].getElementsByTagName('a')[0].href)

function getIpByTag()

{

    var t = document.getElementsByClassName("t");

    var str = '\n';

    for(var i=0;i< t.length;i++)

    {

        str = str + '"' + t[i].getElementsByTagName('a')[0].href + '",\n';

    }

    str = str.substring(0,str.length-2)

    str = str + '\n'

    return str;

}

getIpByTag();

将百度加密后的url转成真正的地址：

import requests

urlList = [

"http://www.baidu.com/link?url=M1SN1OPmF9xM43i4jwjeDVvn-uD-i7xOf1nDxZDdIh4iCQRPXnmJnpzEFaRpcLNbSzXJGnlGiRClt_kX_KjXo_",

"http://www.baidu.com/link?url=9J00kAi9Fu07zxr4q4v_WZ2b0lW6WM-eIuzzcRtKQSS8Hd2u7hqAyBYyDOm1JbAwGgrUAubK8cR3V2_7RFJ1j_",

"http://www.baidu.com/link?url=kJuAmhEDNtu9VT5tpF_Grdi5fv246Dyf6ESnWqyBrR9HZD8BniQXVqOEinUox_hn",

"http://www.baidu.com/link?url=9Zlb9C0SnpP01To84341TBe2Tr1888CY8vkv86ZJAB94GoDO0II9m19lJpAKmSlm",

"http://www.baidu.com/link?url=e-jNCpBOgKCFOAGakRSt7jsqeKM4Z7kAKxmzFXyizOybrMP3Ig5MVmIHd6cwgsug",

"http://www.baidu.com/link?url=mhPGHLye4mCUdZOKGZz-RY_d7vzNThy_ifVZ8qGpAkvEGYUspJKT5wvHX0LSvPVd",

"http://www.baidu.com/link?url=NOw1rL9Juxdl-_FYexMJq8n1I3vliWRPjMAVZT8YQ-S9nHOXn-EuI8YnIz6-8EXF",

"http://www.baidu.com/link?url=3iCH4yJeE6UA_Pura3WMiNcoLBOYKePK0teNAwELb3667oy-RXOSuanprur6GjUN",

"http://www.baidu.com/link?url=w_7v1e_uvw8YSQyZEA-SN1vnIIljpmknKaVLTtdZqxM8qLXi0C0LwLAUQJyrZYTY8aU4DjPnXtQeUQlP-zqzXK",

"http://www.baidu.com/link?url=DjXRm8KwbnSAOaPtt3NtR7XzwCnWizbgJDxeC9DPB0GBeSJIiYb2ObZHQ5mLsYjP"

]

for someurl in urlList:

    response = requests.get(someurl)

    if response.history:

        print(response.url)

    else:

        print("Request was not redirected")

参考

[1] 使用Chrome console提取页面数据

https://www.cnblogs.com/liun1994/p/7265828.html

[2] Google浏览器URL采集的一种思路

https://blog.csdn.net/qq_29647709/article/details/84379170

[3] 使用浏览器控制台抓取信息

https://lufe1.cn/2017/09/20/使用浏览器控制台抓取信息/

[4] js截取指定字符前面或后面的内容

https://blog.csdn.net/caiyongshengCSDN/article/details/88420416

用浏览器控制台抓取shodan、搜索引擎、zone-h的结果的更多相关文章

python+selenium+chromedriver抓取shodan搜索结果
作用:免积分抓取shodan的搜索结果,并把IP保存为txt 前提: ①shodan会员(ps:黑色星期五打折) ②安装有python27 ③谷歌浏览器(ps:版本一定要跟chromedriver匹配 ...
jmeter旅程第一站：Jmeter抓包浏览器或者抓取手机app的包
学习jmeter?从实际出发,我也是一个初学者,会优先考虑先用来做一些简单的抓包.接口测试,在实践的过程中学习jmeter用途.那么接下来,这篇文章我会以jmeter抓包开启我的jmeter旅程. 这 ...
Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过Selenium模拟浏览器抓取
区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...
Python做简单爬虫（urllib.request怎么抓取https以及伪装浏览器访问的方法）
一:抓取简单的页面: 用Python来做爬虫抓取网站这个功能很强大,今天试着抓取了一下百度的首页,很成功,来看一下步骤吧首先需要准备工具: 1.python:自己比较喜欢用新的东西,所以用的是Pyt ...
python爬虫(一)_爬虫原理和数据抓取
本篇将开始介绍Python原理,更多内容请参考:Python学习指南为什么要做爬虫著名的革命家.思想家.政治家.战略家.社会改革的主要领导人物马云曾经在2015年提到由IT转到DT,何谓DT,DT ...
[安全]appscan 使用代理抓取其他客户端的请求
自己安全测试技能很低, 上级给的安全测试的任务给了自动化组的同事来做, 自己之前使用appscan的时候只知道使用appscan的内置浏览器测试抓取请求今天与自动化美女同事沟通发现有一个代理的功能 ...
强大的chrome（1）以acfun为例抓取视频
chrome很强大,很强大,很强大. 想要了解他的强大呢,就先要掌握一些基本的chrome命令. 1. chrome://flags 可用来启用或者关闭某些chrome的体验特性 2. chr ...
如何让搜索引擎抓取AJAX内容？转
越来越多的网站,开始采用"单页面结构"(Single-page application). 整个网站只有一张网页,采用 Ajax 技术,根据用户的输入,加载不同的内容. 这种做法的 ...
如何让搜索引擎抓取AJAX内容？
越来越多的网站,开始采用"单页面结构"(Single-page application). 整个网站只有一张网页,采用Ajax技术,根据用户的输入,加载不同的内容. 这种做法的好处 ...

随机推荐

Zookeeper基础入门介绍
什么Zookeeper Zookeeper是一个分布式开源框架,提供了协调分布式应用的基本服务,它向外部应用暴露一组通用服务——分布式同步(Distributed Synchronization).命 ...
06-Flutter移动电商实战-dio基础_Get_Post请求和动态组件协作
上篇文章中,我们只看到了 dio 的使用方式,但并未跟应用关联起来,所以这一篇将 dio 网络请求与应用界面结合起来,当然这也是为以后的实战作基础准备,基础打牢,我们才能飞速前进. 1.案例说明我们 ...
文件搜索命令find
1.路径加文件名搜索(find): 查找的是etc目录下的以init为名字的文件. 加通配符后为模糊搜索,只要文件名中含有init即可. 查找etc目录下以init开头的七位文件名. 2.搜索时不区分 ...
CSS样式表书写位置
一.内嵌式写法:样式只作用于当前文件,没有真正实现结构表现分离. <head> <style type=”text/css”> 样式表写法 </style> < ...
61、Spark Streaming：部署、升级和监控应用程序
一.部署应用程序 1.流程 1.有一个集群资源管理器,比如standalone模式下的Spark集群,Yarn模式下的Yarn集群等. 2.打包应用程序为一个jar包. 3.为executor配置充足 ...
48、Spark SQL之与Spark Core整合之每日top3热点搜索词统计案例实战
一.概述 1.需求分析数据格式: 日期用户搜索词城市平台版本需求: 1.筛选出符合查询条件(城市.平台.版本)的数据 2.统计出每天搜索uv排名前3的搜索词 3.按照每天的top3搜索词 ...
Win10远程连接自己的电脑提示“登陆没有成功”的解决方案
问题:提示登录没有成功猜想: 1)要么是账号密码输入错误,必须是系统的用户名.密码 2)要么是配置问题,配置解决如下: 1.开启允许访问远程找到此电脑-右键属性-高级系统设置-远程-勾选允许远程连 ...
#C++初学记录（动态规划被3整除的子序列）
原题:牛客网动态规划dynamic programming 的入门级题目题目描述 : 给你一个长度为50的数字串,问你有多少个子序列构成的数字可以被3整除答案对1e9+7取模输入描述: 输入一 ...
python爬虫 TapTap
作业要求来自于https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3075 对象 - TapTap TapTap 是一个高品质手游玩家社区, ...
html5 css3 背景视频循环播放代码
<div style ="position: absolute; z-index: -1; top: 0px; left: 0px; bottom: 0px; right: 0px; ...

用浏览器控制台抓取shodan、搜索引擎、zone-h的结果

0x00 前言

0x01 提取zone-h结果

0x02 提取Shodan结果ip

0x03 抓取Google结果

0x04 提取百度结果

参考

用浏览器控制台抓取shodan、搜索引擎、zone-h的结果的更多相关文章

随机推荐

热门专题