面试题：10亿url去重只给4G内存

我能想到的有以下几种: 用语言判断去重,ex表格去重,数据库去重,文件名字去重, 有人说:10亿url ex表放不下!! 可以用树和折半的思想将10亿url,变成单元最小化的树,然后用ex表去重 ex表去重时也可以用树的思想让内存最大利用! (ps:当然要花费大量时间和精力)!…

本文主要和大家分享一下redis的高级特性:bit位操作. 本文redis试验代码基于如下环境: 操作系统:Mac OS 64位版本:Redis 5.0.7 64 bit 运行模式:standalone mode redis位操作 reids位操作也叫位数组操作.bitmap,它提供了SETBIT.GETBIT.BITCOUNT.BITTOP四个命令用于操作二进制位数组. 先来看一波基本操作示例: SETBIT 语法:SETBIT key offset value 即:命令 key 偏移量 0…

基础 - 32位操作系统最多只支持4G内存。

32位操作系统最多只支持4G内存. CPU能不能直接访问硬盘的数据呢, 不能. 只能通过把硬盘的数据先放到内存里, 然后再从内存里访问硬盘的数据.我们平时玩游戏碰上读图loading 进度条的这个过程, 就是把数据从硬盘读到内存的过程啊. 读完条后地图的数据就在内存中了. 内存是把8个8个bit排成1组, 每1组成为1个单位, 大小是1byte(字节), CPU每一次只能访问1个byte, 而不能单独去访问具体的1个小格子(bit).1个byte字节就是内存的最小的IO单位. 1千兆字节(gb)…

有10 亿个 url，每个 url 大小小于 56B，要求去重，内存只给你4G

问题:有10 亿个 url,每个 url 大小小于 56B,要求去重,内存只给你4G 思路: 1.首先将给定的url调用hash方法计算出对应的hash的value,在10亿的url中相同url必然有着相同的value. 2.将文件的hash table 放到第value%n台机器上. 3.value/n是机器上hash table的值. 将文件分布在多个机器上,这样要处理网路延时.假设有n台机器. >>首先hash文件得到hash value v >>将文件的hash table…

[原创]手把手教你写网络爬虫（7）：URL去重

手把手教你写网络爬虫(7) 作者:拓海摘要:从零开始写爬虫,初学者的速成指南! 封面: 本期我们来聊聊URL去重那些事儿.以前我们曾使用Python的字典来保存抓取过的URL,目的是将重复抓取的URL去除,避免多次抓取同一网页.爬虫会将待抓取的URL放在todo队列中,从抓取到的网页中提取到新的URL,在它们被放入队列之前,首先要确定这些新的URL是否被抓取过,如果之前已经抓取过了,就不再放入队列. 有别于单机系统,在分布式系统中,这些URL应该存放在公共缓存中,才能让多个爬虫实例共享,我们继…

经典面试题：从 URL 输入到页面展现到底发生什么？

前言打开浏览器从输入网址到网页呈现在大家面前,背后到底发生了什么?经历怎么样的一个过程?先给大家来张总体流程图,具体步骤请看下文分解! 本文首发地址为GitHub 博客,写文章不易,请多多支持与关注! 总体来说分为以下几个过程: DNS 解析:将域名解析成 IP 地址 TCP 连接:TCP 三次握手发送 HTTP 请求服务器处理请求并返回 HTTP 报文浏览器解析渲染页面断开连接:TCP 四次挥手一.URL 到底是啥 URL(Uniform Resource Locator),统一资…

布隆过滤器 - 如何在100个亿URL中快速判断某URL是否存在？

题目描述一个网站有 100 亿 url 存在一个黑名单中,每条 url 平均 64 字节.这个黑名单要怎么存?若此时随便输入一个 url,你如何快速判断该 url 是否在这个黑名单中? 题目解析这是一道经常在面试中出现的算法题.凭借着题目极其容易描述,电面的时候也出现过. 不考虑细节的话,此题就是一个简单的查找问题.对于查找问题而言,使用散列表来处理往往是一种效率比较高的方案. 但是,如果你在面试中回答使用散列表,接下来面试官肯定会问你:然后呢?如果你不能回答个所以然,面试官就会面无表情的通…

php面试题10（复习）

php面试题10(复习) 一.总结复习二.php面试题10 21.谈谈 asp,php,jsp 的优缺点(1 分)(asp要钱,jsp学习成本大)答:ASP 全名 Active Server Pages,是一个 WEB 服务器端的开发环境, 利用它可以产生和运行动态的.交互的.高性能的 WEB 服务应用程序.ASP 采用脚本语言 VB Script 作为自己的开发语言. PHP 是一种跨平台的服务器端的嵌入式脚本语言. 它大量地借用 C,Java 和 Perl 语言的语法, 并耦合 P…

URL 去重的 6 种方案！(附详细实现代码)

URL 去重在我们日常工作中和面试中很常遇到,比如这些: 可以看出,包括阿里,网易云.优酷.作业帮等知名互联网公司都出现过类似的面试题,而且和 URL 去重比较类似的,如 IP 黑/白名单判断等也经常出现在我们的工作中,所以我们本文就来"盘一盘"URL 去重的问题. URL 去重思路在不考虑业务场景和数据量的情况下,我们可以使用以下方案来实现 URL 的重复判断: 使用 Java 的 Set 集合,根据添加时的结果来判断 URL 是否重复(添加成功表示 URL 不重复): 使用 Re…

[爬虫学习笔记]基于Bloom Filter的url去重模块UrlSeen

Url Seen用来做url去重.对于一个大的爬虫系统,它可能已经有百亿或者千亿的url,新来一个url如何能快速的判断url是否已经出现过非常关键.因为大的爬虫系统可能一秒钟就会下载几千个网页,一个网页一般能够抽取出几十个url,而每个url都需要执行去重操作,可想每秒需要执行大量的去重操作.因此Url Seen是整个爬虫系统中非常有技术含量的一个部分. 为了提高过滤的效率,我们使用有极低误判率但是效率非常高的算法--Bloom Filter,已经有高手写好了B…

使用HAProxy、PHP、Redis和MySQL支撑每周10亿请求

在公司的发展中,保证服务器的可扩展性对于扩大企业的市场需要具有重要作用,因此,这对架构师提出了一定的要求.Octivi联合创始人兼软件架构师Antoni Orfin将向你介绍一个非常简单的架构,使用HAProxy.PHP.Redis和MySQL就能支撑每周10亿请求.同时,你还能了解项目未来的横向扩展途径及常见的模式. 状态服务器 3个应用程序节点 2个MySQL+1个备份 2个Redis 应用程序应用程序每周处理10亿请求峰值700请求/秒的单Symfony2实例(平均工作日约550请求…

转使用HAProxy,PHPRedis,和MySQL支撑10亿请求每周架构细节

[编者按]在公司的发展中,保证服务器的可扩展性对于扩大企业的市场需要具有重要作用,因此,这对架构师提出了一定的要求.Octivi联合创始人兼软件架构师Antoni Orfin将向你介绍一个非常简单的架构,使用HAProxy.PHP.Redis和MySQL就能支撑每周10亿请求.同时,你还能了解项目未来的横向扩展途径及常见的模式. 以下为译文: 在这篇文章中,我将展示一个非常简单的架构,使用HAProxy.PHP.Redis和MySQL支撑每周10亿请求.除此之外,我还将展示项目未来的横向扩展途径…

海量数据处理 - 10亿个数中找出最大的10000个数（top K问题）

前两天面试3面学长问我的这个问题(想说TEG的3个面试学长都是好和蔼,希望能完成最后一面,各方面原因造成我无比想去鹅场的心已经按捺不住了),这个问题还是建立最小堆比较好一些. 先拿10000个数建堆,然后一次添加剩余元素,如果大于堆顶的数(10000中最小的),将这个数替换堆顶,并调整结构使之仍然是一个最小堆,这样,遍历完后,堆中的10000个数就是所需的最大的10000个.建堆时间复杂度是O(mlogm),算法的时间复杂度为O(nmlogm)(n为10亿,m为10000). 优化的方法:可以把…

TOP100summit：【分享实录-QQ空间】10亿级直播背后的技术优化

本篇文章内容来自2016年TOP100summit QQ空间客户端研发总监王辉的案例分享.编辑:Cynthia 王辉:腾讯SNG社交平台部研发总监.腾讯QQ空间移动客户端技术负责人高级工程师.09年起负责QQ空间技术研发,经历从Web时代到移动客户端技术的转变,在Web.移动终端上都有不错的技术积累. 导读:移动互联网飞速发展,2016年,社交网络对视频技术的应用得到爆发式的增长,短视频.视频直播.视频滤镜.视频人脸动效.音乐.K歌.变声.连麦等功能陆续在产品中上线,如何在快速上线功能的同时,保…

转 DataTorrent 1.0每秒处理超过10亿个实时事件

DataTorrent是一个实时的流式处理和分析平台,它每秒可以处理超过10亿个实时事件. 与Twitter平均每秒大约6000条微博相比,最近发布的DataTorrent 1.0似乎已经超出了需求,它每秒可以处理超过10亿个实时事件.他们在一个包含37个节点的集群上进行了测试,每个节点256GB内存.12核超线程CPU.在CPU达到饱和之前,DataTorrent声称已经实现了线性扩展,而CPU达到饱和时处理速度为每秒16亿个事件.Phu Hoang是DataTorrent的联合创始人和CEO…

爬虫URL去重

这个要看你想抓取的网页数量是哪种规模的.如果是千万以下用hash表, set, 布隆过滤器基本可以解决,如果是海量的......嗯我也没做过海量的,不过hash表之类的就别想了,内存根本不够,分割线下面是我的一个想法,欢迎大家讨论.布隆过滤器,大概几十行代码就可以实现.可以节省很多内存(我自己写了一个没有太多优化,占用内存大概是hash存储的1/4甚至更小).-------------------分割-------------------- http://www.xxx.com/path/fil…

【剑指offer】面试题 10. 斐波那契数列

面试题 10. 斐波那契数列题目一:求斐波那契数列的第n项题目描述:求斐波拉契数列的第n项写出一个函数,输入n,求斐波拉契(Fibonacci)数列的第n项.斐波拉契数列定义如下: C++ 实现 /* 斐波拉契数列 */ #include <iostream> using namespace std; /* 递归实现 */ long long Fibonacci1( unsigned int n ) { if ( n <= 1 ) { return(n); } return(Fib…

看好腾讯，鄙视百度（腾讯的核心竞争力，不是超过10亿的QQ的注册用户，也不是某一项产品、技术方面优势，而是“耐心”：懂得在合适的时间推出合适的产品。”）

百度,自始至终只是一个低劣的模仿者,且一切向前看,完全违背了一个搜索引擎所应该遵循的基本原则.谁给的钱多就能搜着谁,这跟贩毒有什么区别? 腾讯也在模仿别人,但是,它是模仿然后超越.在中国互联网发展历史上,腾讯几乎没有缺席过任何一场互联网盛宴.它总是在一开始就亦步亦趋地跟随.然后细致地模仿,然后决绝地超越.比如当初的游戏. “从QQ游戏平台上线那天起,联众的失败就已经注定了.”多年以后,在北京知春路的一家咖啡馆,联众创始人鲍岳桥谈起当年腾讯对联众的围剿和逼迫,仍然耿耿于怀.在两个小时的采访中,他连…

怎么对10亿数据量级的mongoDB作高效的全表扫描

转自:http://quentinxxz.iteye.com/blog/2149440 一.正常情况下,不应该有这种需求首先,大家应该有个概念,标题中的这个问题,在大多情况下是一个伪命题,不应该被提出来.要知道,对于一般较大数据量的数据库,全表查询,这种操作一般情况下是不应该出现的,在做正常查询的时候,如果是范围查询,你至少应该要加上limit. 说一下,我的应用场景:用于全量建立搜索引擎的索引.这就是一种需要用到全表扫描的非一般情况.对于全表扫描的结果,我们没有排序要求. 二.情况说明既然…

URL去重与文章去重的一些基本方法

一.url去重url存到数据库所有url放到set中(一亿条占用9G内存)md5之后放到set中(一亿条占用2,3G的内存)scrapy采用的就是类似方法bitmap方法(url经过hash后映射到bit的每一个位上,存在冲突,一亿url占用约12M)bloomfilter(bitmap改进,多重hash解决冲突,一亿url占用) 二.文章相似度1.有关重复的定义,如果完全一样,基本上你hash一下特征值就好2. 如果不要完全一样,那就是概率学上的可能(80%他们可能是一样).基础算法KMP算法…

如何从 100 亿 URL 中找出相同的 URL？

题目描述给定 a.b 两个文件,各存放 50 亿个 URL,每个 URL 各占 64B,内存限制是 4G.请找出 a.b 两个文件共同的 URL. 解答思路每个 URL 占 64B,那么 50 亿个 URL占用的空间大小约为 320GB. 5, 000, 000, 000 * 64B ≈ 5GB * 64 = 320GB 由于内存大小只有 4G,因此,我们不可能一次性把所有 URL 加载到内存中处理.对于这种类型的题目,一般采用分治策略 ,即:把一个文件中的 URL 按照某个特征划分为多个小…

【转】larbin中的url去重算法

1.bloom filter算法传说中,larbin使用bloom filter算法来进行url去重.那我们就先来了解下bloom filter算法好了. [以下转自:http://hi.baidu.com/fengfengchang/item/050b11390ff61fbd633affac] 先解释一下什么是哈希函数.哈希函数简单来说就是一种映射,它可取值的范围(定义域)通常很大,但值域相对较小.哈希函数所作的工作就是将一个很大定义域内的值映射到一个相对较小的值域内. 传统的哈希存储假设…

“军装照”背后——天天P图如何应对10亿流量的后台承载。

WeTest 导读天天P图"军装照"活动交出了一份10亿浏览量的答卷,一时间刷屏朋友圈,看到这幕,是不是特别想复制一个如此成功的H5?不过本文不教你如何做一个爆款H5,而是介绍天天P图在"军装照"活动过程中,如何面对10亿流量时的后台承载. 一.10亿浏览量,"军装照"火了这两天,相信 "军装照"活动已经刷爆了朋友圈,这个活动是由人民日报客户端策划出品并主导开发,腾讯天天P图提供图像处理支持的一款H5产品. 天天P图智能换…

C++版 - 剑指Offer 面试题35：第一个只出现一次的字符解题报告(华为OJ034-找出字符串中第一个只出现一次的字符)

面试题35:第一个只出现一次的字符题目:在一个字符串中找到第一个只出现一次的字符.如输入abaccdeff,则输出b.(2006年google的一道笔试题.) 分析: 首先应向确认一下是ASCII字符串,而不是Unicode字符串.用hash表求解即可,由于需要先遍历一次,时间复杂度为O(n),空间复杂度为O(1) (256个ASCII字符). 满足题意的代码如下: #include<cstdio> #include<string> #include<unordered_m…

剑指offer编程题Java实现——面试题10二进制中1的个数

题目: 请实现一个函数,输入一个整数,输出该整数二进制表示中1的个数.例如,把9表示成二进制是1001,有2位是1,该函数输出2解法:把整数减一和原来的数做与运算,会把该整数二进制表示中的最低位的1变成0,与运算进行多少次就有多少个1. package Solution; /** * 剑指offer面试题10:二进制中1的个数 * 题目:请实现一个函数,输入一个整数,输出该整数二进制表示中1的个数. * 例如,把9表示成二进制是1001,有2位是1,该函数输出2 * 解法:把整数减一和原来的数做…