问题描述:现有某网站海量日志数据,提取出某日访问该网站次数最多的那个IP。

分析:IP地址是32位的二进制数,所以共有N=2^32=4G个不同的IP地址, 如果将每个IP地址看做是数组的索引的话,那么需要创建一个unsigned count[N]的数组,即可统计出每个IP的访问次数,但是这个数组的大小是4G*4=16G,
远远超过了32位计算机所支持的内存大小,因此不能直接创建这个数组。

采用划分法解决这个问题,假设允许使用的内存是512M,512M内存可以统计128M个不同的IP地址的访问次数。而4G/128M = 32,所以只要把IP地址划分成32个不同的区间,分别统计出每个区间中访问次数最大的IP,然后就可以计算出所有IP地址中访问次数最大的IP了。

可以把IP地址的最高5位作为区间编号, 剩下的27位作为区间内的值,建立32个临时文件,代表32个区间,把相同区间的IP地址保存到同一的临时文件中。

例如:ip=0x1f4e2342,高5位id=ip>>27=0x11=3,低27位是value=ip&0x07ffffff = 0x074e2342。所以,当扫描到IP为0x1f4e2342时,将value保存在tmp3文件中。

按照上面的方法扫描海量日志,可以得到32个临时文件,每个临时文件中的IP地址的取值范围属于[0-128M),因此可以统计出每个IP地址的访问次数。从而找到访问次数最大的IP地址。

代码如下:

#define  N  32                                                         //临时文件数

#define  ID(x) (x>>27)                                           //x对应的文件编号

#define  VALUE(x) (x&0x07ffffff)                          //x在文件中保存的值

#define  MAKE_IP(x,y)  ((x<<27)|y)            //由文件编号和值得到IP地址.

#define  MEM_SIZE 128*1024*1024

char  * data_path = "D:/test/ip.dat";       //ip数据

//产生n个随机IP地址

void   make_data(const int& n)

//找到访问次数最大的ip地址

int main()

{

make_data(100000000);                                  //产生测试用的IP数据

fstream arr[N];

for (int i=0; i<N; ++i)                                 //创建N个临时文件

{

char tmp_path[128];

sprintf(tmp_path,"D:/test/tmp%d.dat",i);

arr[i].open(tmp_path,ios::trunc|ios::in|ios::out|ios::binary); //打开第i个文件

if( !arr[i])

{

cout<<"openfile"<<i<<"error"<<endl;

}

}

ifstreaminfile(data_path,ios::in|ios::binary);  //读入测试用的IP数据

unsigned data;

while(infile.read((char*)(&data),sizeof(data)))

{

unsigned val=VALUE(data);

int key=ID(data);

arr[key].write((char*)(&val),sizeof(val));           //保存到临时文件件中

}

for(unsigned i=0; i<N; ++i)

{

arr[i].seekg(0);

}

unsigned  max_ip = 0;                    //出现次数最多的ip地址

unsigned  max_times = 0;             //最大只出现的次数

//统计每个数出现的次数

unsigned *count = newunsigned[MEM_SIZE];

for (unsigned i=0; i<N; ++i)

{

memset(count, 0,sizeof(unsigned)*MEM_SIZE);

//统计每个临时文件件中不同数字出现的次数

unsigned data;

while(arr[i].read((char*)(&data),sizeof(unsigned)))

{

++count[data];

}

//找出出现次数最多的IP地址

for(unsigned j=0; j<MEM_SIZE;++j)

{

if(max_times<count[j])

{

max_times = count[j];

max_ip = MAKE_IP(i,j);        //
恢复成原ip地址.

}

}

}

unsigned char *result=(unsigned char *)(&max_ip);

printf("出现次数最多的IP为:%d.%d.%d.%d,共出现%d次", result[0],result[1], result[2], result[3], max_times);

}

(http://blog.csdn.net/v_july_v/article/details/6712171)

14海量日志提取出现次数最多的IP的更多相关文章

  1. 使用python找出nginx访问日志中访问次数最多的10个ip排序生成网页

    使用python找出nginx访问日志中访问次数最多的10个ip排序生成网页 方法1:linux下使用awk命令 # cat access1.log | awk '{print $1" &q ...

  2. 从一亿个ip找出出现次数最多的IP(分治法)

    /* 1,hash散列 2,找到每个块出现次数最多的(默认出现均匀)—–>可以用字典树 3,在每个块出现最多的数据中挑选出最大的为结果 */ 问题一: 怎么在海量数据中找出重复次数最多的一个 算 ...

  3. 利用shell脚本统计文件中出现次数最多的IP

    比如有如下文件test.txt 1  134.102.173.43 2  134.102.173.43 3  134.102.171.42 4  134.102.170.9 要统计出现次数最多的IP可 ...

  4. BAT面试上机题从3亿个ip中找出访问次数最多的IP详解

    我们面临的问题有以下两点:1)数据量太大,无法在短时间内解决:2)内存不够,没办法装下那么多的数据.而对应的办法其实也就是分成1)针对时间,合适的算法+合适的数据结构来提高处理效率:2)针对空间,就是 ...

  5. 从大量的IP访问记录中找到访问次数最多的IP

    1.内存不受限 一个IP有32bit(4Byte),1GB=10亿,那么在4GB内存的情况下,可以存10亿个IP.用HashMap,边存入IP边维护一个最大次数,这样遍历一遍就可以求出,时间复杂度为O ...

  6. 统计Apache或nginx日志里访问次数最多的前十个IP

    1.根据访问IP统计UV awk '{print $1}' access.log|sort | uniq -c |wc -l 2.统计访问URL统计PV awk '{print $7}' access ...

  7. 统计nginx日志里访问次数最多的前十个IP

    awk '{print $1}' /var/log/nginx/access.log | sort | uniq -c | sort -nr -k1 | head -n 10

  8. 查询nginx访问日志中访问次数最多的前10个IP地址

    cat log | cut -d ' ' -f 1 | sort | uniq -c | sort -nr | awk '{print $0}' | head -n 10

  9. 海量日志数据提取某日访问百度次数最多的那个IP的Java实现

    海量日志数据提取某日访问百度次数最多的那个IP的Java实现 前几天在网上看到july的一篇文章<教你如何迅速秒杀掉:99%的海量数据处理面试题>,里面说到百度的一个面试题目,题目如下: ...

随机推荐

  1. [jnhs]使用netbeans生成的webapp发布到tomcat是需要改名字的,不然就是404Description The origin server did not find a current representation for the target resource or is not willing to disclose that one exists.

    2018-12-21更新 退出tomcat然后删除解压之后的文件夹,然后再启动tomcat也可以解决(安装版tomcat) 2018-12-9更新 有时候这样也可以解决 第一次使用tomcat发布we ...

  2. CSS Reset(CSS重置)

    CSS Reset是指重设浏览器的样式.在各种浏览器中,都会对CSS的选择器默认一些数值,譬如当h1没有被设置数值时,显示一定大小. 但并不是所有的浏览器都使用一样的数值,所以有了CSS Reset, ...

  3. 在centos 6.3系统下安装java、tomcat环境的方法与步骤(方法经过验证,可安装成功)

    一.安装java1. 下载java二进制安装包 wget --no-cookies --no-check-certificate --header "Cookie: gpw_e24=http ...

  4. Python3数据分析与挖掘建模实战

    Python3数据分析与挖掘建模实战  整个课程都看完了,这个课程的分享可以往下看,下面有链接,之前做java开发也做了一些年头,也分享下自己看这个视频的感受,单论单个知识点课程本身没问题,大家看的时 ...

  5. MyBatis Oracle批量插入

    1.oracle如何insert into 多个values https://www.cnblogs.com/mq0036/p/6370224.html?utm_source=itdadao& ...

  6. xinetd服务管理

    xinetd服务的管理文件都放在 /etc/xinetd.d目录内,我们可以编辑这个目录内的服务文件来开启和关闭服务.每个服务文件都有disable 这个行,如果把值改成yes就是禁用服务,如果是no ...

  7. 洛谷P2723 丑数 Humble Numbers [2017年 6月计划 数论07]

    P2723 丑数 Humble Numbers 题目背景 对于一给定的素数集合 S = {p1, p2, ..., pK},考虑一个正整数集合,该集合中任一元素的质因数全部属于S.这个正整数集合包括, ...

  8. hdu 4512 (LCIS)

    好久没写解题报告了,最近几周好忙...感觉是我进大学以来最忙的一段时间了,要给新生准备下周三比赛的题目,下周五要去南京赛区,回来之后马上就要期中考试了...不想挂科   额,很早之前就看过关于LCIS ...

  9. Mac 电脑如何卸载 node

    因为刚入手「 Mac 」很多淫技还不懂,在一次使用 npm install 的时候安装出错,提示为 npm 与 node 的版本有问题,所以就想着卸载重新装一个版本. 但是因为刚使用「 Mac 」所以 ...

  10. Gradle基本操作入手

    Gradle本身的领域对象主要由Project和Task.Project为Task提供了执行上下文,所有的Plugin要么向Project中添加用于配置Property,要么向Project中添加不同 ...