一.布隆过滤器 问题:不安全网页的黑名单包含100亿个黑名单网页,每个网页的URL最多占用64B.现在想要实现一种网页过滤系统,可以根据网页的URL判断该网页是否在黑名单上,如何设计该系统. 要求:允许有万分之一以下的判断失误率:使用的额外空间不能超过30GB 思路:如果把黑名单中所有的URL通过数据库或者哈希表保存下来,至少需要640GB的空间. 解答:如果遇到网页黑名单系统.垃圾邮件过滤系统.爬虫的网址判重系统等题目,并且系统容忍一定程度的失误率以及对空间要求比较严格,那么需要用布隆过滤器来…
1.关系 人工智能>机器学习>神经网络>深度学习 2.机器学习-两个过程 训练/学习过程:样本数据.学习器.模型参数 测试/预测过程:预测.预测值 3.神经网络 机器学习模拟人脑神经元构成神经网络学习算法 数百亿的神经元,链接构成神经网络,受制于数据量和计算能力 得益于大数据.云计算的发展和普及 4.深度学习 极其复杂的模型.自动提取特征.海量/全样本.GPU加速 传统机器学习依赖数据特征工程.人工规则 5.人工智能应用领域 语音识别:Siri.小啦.小冰.智能音响........ 图像…
目       录 1.      应用背景... 2 2.      系统框架... 2 3.      AI场景识别算法和硬件... 3 4.      AR视频空间管理系统... 5 5.      物联网及工业互联网系统... 5 6.      用户应用终端... 7 7.      应用效果... 9 1.   应用背景 最近有三个项目的技术要求中明确有视频和AI图像场景识别的需求,并且占用了很大的篇幅描述场景需求,即包括硬件也包括软件.物联网.视频AI场景识别.业务应用的整体融合是…
前言:在系统中向hbase中插入数据时,常常通过设置region的预分区来防止大数据量插入的热点问题,提高数据插入的效率,同时可以减少当数据猛增时由于Region split带来的资源消耗.大量的预分区数量会导致hbase客户端缓存大量的分区地址,导致内存的增长,某些系统中一个JVM进程中会开启几十个独立的hbase客户端对象,同时会查询多张Hbase表,这样JVM进程就会缓存 (预分区数 X 表数 X Hbase客户端数=条记录). 有没有这种情况?有的,在本人的storm项目中,采用结合sp…
1.问题 问题提出: M(如10亿)个int整数,只有其中N个数重复出现过,读取到内存中并将重复的整数删除. 2.解决方案 问题分析: 我们肯定会先想到在计算机内存中开辟M个int整型数据数组,来one bye one读取M个int类型数组, 然后在一一比对数值,最后将重复数据的去掉.当然这在处理小规模数据是可行的. 我们考虑大数据的情况:例如在java语言下,对10亿个int类型数据排重. java中一个int类型在内存中占4byte.那么10亿个int类型数据共需要开辟10^9次方*4byt…
一.引言 通常我们认为静态网页html的网站速度是最快的,但是自从有了动态网页之后,很多交互数据都从数据库查询而来,数据也是经常变化的,除了一些新闻资讯类的网站,使用html静态化来提高访问速度是不太现实的方案.我们不得不在代码与数据库之间寻求一种更合适的解决方案. 减少数据库访问次数,文件和数据库分离,大数据分布式存储,服务器的集群负载均衡,页面缓存的使用,nosql内存数据库代替关系型数据库,这些方案措施都是提高系统高并发性能的关键,下面一一分解. 二.分解 (1)       分布式服务器…
POI3.8的SXSSF包是XSSF的一个扩展版本,支持流处理,在生成大数据量的电子表格且堆空间有限时使用.SXSSF通过限制内存中可访问的记录行数来实现其低内存利用,当达到限定值时,新一行数据的加入会引起老一行的数据刷新到硬盘. 比如内存中限制行数为100,当行号到达101时,行号为0的记录刷新到硬盘并从内存中删除,当行号到达102时,行号为1的记录刷新到硬盘,并从内存中删除,以此类推. rowAccessWindowSize代表指定的内存中缓存记录数,默认为100,此值可以通过 new SX…
世界的大数据包含一个庞大而充满活力的生态系统,但一个开放源码项目上面有这一切,那就是 Hadoop 的王朝. Hadoop 是事实上的标准的分布式的数据运算.Hadoop 提供了一个 MapReduce 框架编写的应用程序处理大量的结构化和半结构化数据并行跨大型集群的机器以非常可靠和容错的方式.此外,当你学习更多有关此空间,你很可能会同意马特温克勒 (HDInsight 上主要 PM) 的角度来看 Hadoop 是"生态系统相关的项目,除了核心的分布式存储和 MapReduce 框架.柏高森的表…
前言 前面我们主要分析了搭建Hadoop集群所需要准备的内容和一些提前规划好的项,本篇我们主要来分析如何安装CentOS操作系统,以及一些基础的设置,闲言少叙,我们进入本篇的正题. 技术准备 VMware虚拟机.CentOS 6.8 64 bit 安装流程 因为我的笔记本是Window7操作系统,然后内存配置,只有8G,内存配置太低了,当然为了演示,我会将Hadoop集群中的主节点分配2GB内存,然后剩余的三个节点都是1GB配置. 所有的节点存储我都设置为50GB. 在安装操作系统之前,我们需要…
6.3 突破传统,4k大屏的沉浸式体验 前言 能够在 4K 的页面上表演,对设计师和前端开发来说,即是机会也是挑战,我们可以有更大的空间设计宏观的场景,炫酷的转场,让观众感受影院式视觉体验,但是,又必须面对因为画布变大带来的性能问题,以及绞尽脑汁实现很多天马行空的的想法.下面是这次双11媒体大屏开发中我们的一些设计和思路. 1. 3D动感跑道 当逍遥子零点倒数5,4,3,2,1,0!激昂音乐奏起,媒体中心大屏幕跳跃出一个动感十足的页面,黄橙橙的 GMV 数字蹭蹭往上长,跳跃的翻牌器下有个不断向前…