# log对数Hash映射优化

log对数Hash映射优化利用了一个数学技巧:$\forall k \in [0,35],2^{k} mod 37 互不相等,且恰好取遍整数1-36 $ 应用:将int范围内的$2^k映射到k$,math库中的对数函数是以e为底的实数运算,复杂度常数较大,使用hash映射优化 for(int i=0;i<36;i++)H[(1ll<<i)%37]=i;…

海量数据面试题----分而治之/hash映射 + hash统计 + 堆/快速/归并排序

1.从set/map谈到hashtable/hash_map/hash_set 稍后本文第二部分中将多次提到hash_map/hash_set,下面稍稍介绍下这些容器,以作为基础准备.一般来说,STL容器分两种: 序列式容器(vector/list/deque/stack/queue/heap), 关联式容器.关联式容器又分为set(集合)和map(映射表)两大类,以及这两大类的衍生体multiset(多键集合)和multimap(多键映射表),这些容器均以RB-tree完成.此外,还有第3类关…

Loogn.OrmLite映射优化记录

大家对ORM效率的争议多半在映射性能方面.自己的ORMLite也是如此,经过前段时间的折腾,已经找不出一个简单的方法再提升一下这部分的方法了.在此把优化涉及的几点记录一下. 注:用于性能测试的CodeTimer为赵劼先生所写. 注:有两个优化方法为hubro先生所提供,下面会指出. 一.反射的优化简单的说,反射给了我们动态发现类型信息的能力,Type对象是开启反射之路的入口点.从Type对象那里,我们可以得到该类型的PropertyInfo.MethodInfo.ConstructorInfo…

【原创】Webpack构建中hash的优化

背景: SPA的vue应用,采用webpack2构建,打包入口为main.js 输出:main模块打包成app.js,公共lib打包成vendor.js,公共样式打包成app.css,运行时依赖打包成mainfest.js,路由页面动态加载,输出以ID开头的js文件缓存策略:对所有输出的文件加载hash值,服务器加上永久缓存的标志,通过hash来判断是否有新文件改造前hash值改变的场景: 1.修改某个页面的业务代码:只有对应页面js的hash值改变 √ 2.修改公共样式:只有app.css…

Math.log()对数的妙用

###对数log 的妙用... formatBytes(bytes) { if (bytes === '0' || isNaN(bytes)) return ''; var s = ['Bytes', 'KB', 'MB', 'GB', 'TB', 'PB']; var e = Math.floor(Math.log(bytes) / Math.log(1024)); return (bytes / Math.pow(1024, Math.floor(e))).toFixed(1) + " &q…

曹工说JDK源码（3）--ConcurrentHashMap，Hash算法优化、位运算揭秘

hashcode,有点讲究什么是好的hashcode,一般来说,一个hashcode,一般用int来表示,32位. 下面两个hashcode,大家觉得怎么样? 0111 1111 1111 1111 1111 1111 1111 1111 ------A 1111 1111 1111 1111 1111 1111 1111 1111 ------B 只有第32位(从右到左)不一样,好像也没有所谓的好坏吧? 那,我们再想想,hashcode一般怎么使用呢?在hashmap中,由数组+链表+红黑树…

hdu-1430 魔板康拓展开+映射优化

给定三种操作,将排列A转化为排列B,求最少步骤. 这种题目可以只跑一次bfs,比如只跑"12345678",那么如果遇到"23456781"->某个字符串呢?因为每一个数字都是等价的,我们可以把2映射为1,3映射成2,以此类推.这样就可以用"12345678"跑出来的操作序列了. #include <iostream> #include <iomanip> #include <set> #include…

Bazinga 字符串HASH 这题不能裸HASH 要优化毒瘤题

Ladies and gentlemen, please sit up straight. Don't tilt your head. I'm serious. For nn given strings S1,S2,⋯,SnS1,S2,⋯,Sn, labelled from 11 to nn, you should find the largest i (1≤i≤n)i (1≤i≤n)such that there exists an integer j (1≤j<i)j (1≤j<i) an…

mysql hash索引优化

创建表 CREATE TABLE `t1` ( `id` int(11) NOT NULL AUTO_INCREMENT, `msg` varchar(20) NOT NULL DEFAULT '', `crcmsg` int(15) NOT NULL DEFAULT '0', PRIMARY KEY (`id`)) ENGINE=MyISAM AUTO_INCREMENT=3 DEFAULT CHARSET=utf8 //插入数据 insert into t1 (msg) values…

PAT Basic 1083 是否存在相等的差 (20) [hash映射，map STL]

题目给定 N 张卡⽚,正⾯分别写上 1.2.--.N,然后全部翻⾯,洗牌,在背⾯分别写上 1.2.--. N.将每张牌的正反两⾯数字相减(⼤减⼩),得到 N 个⾮负差值,其中是否存在相等的差? 输⼊格式: 输⼊第⼀⾏给出⼀个正整数 N(2 <= N <= 10000),随后⼀⾏给出 1 到 N 的⼀个洗牌后的排列,第 i 个数表示正⾯写了 i 的那张卡⽚背⾯的数字. 输出格式: 按照"差值重复次数"的格式从⼤到⼩输出重复的差值及其重复的次数,每⾏输出⼀个结果. 输⼊样例…

使用模拟退火算法优化 Hash 函数

背景现有个处理股票行情消息的系统,其架构如下: 由于数据量巨大,系统中启动了 15 个线程来消费行情消息.消息分配的策略较为简单:对 symbol 的 hashCode 取模,将消息分配给其中一个线程进行处理. 经过验证,每个线程分配到的 symbol 数量较为均匀,于是系统愉快地上线了. 运行一段时间后,突然收到了系统的告警,但此时并非消息峰值时间段.经过排查后,发现问题出现在 hash 函数上: 虽然每个线程被分配到的 symbol 数量较为均衡,但是部分热门 symbol 的报价消息量会…

一致性Hash算法的原理与实现（分布式映射算法）

一致性Hash算法解决的问题: 解决分布式系统中的负载均衡问题背景问题:有N台服务器提供缓存服务,需要对服务器进行负载均衡,将请求平均发到每台服务器上,每台服务器负载1/N的服务硬Hash映射:将每台服务器结点进行编号,0到N-1,Key%N就是映射到的服务器结点编号硬Hash映射存在的问题:当分布式系统中服务器结点个数N变化的时候,每个Key对应的服务器结点的映射关系都要被改变,这会导致大量的Key会被重定向到不同的服务器结点上从而造成大量的缓存不命中,这种情况在分布式系统中是非常糟糕的…

海量数据处理利器之Hash——在线邮件地址过滤

标题用了了海量数据(Massive datasets)而不用大数据(Big data).感觉大数据还是略微有点虚,来点实际的. 一.需求现在我们需要设计一个在线过滤垃圾邮件地址的方案,我们的数据库里面已经有10亿个合法的邮件地址(称为合法地址集S),当有新的邮件发过来时,要检查这个邮件地址是不是在我们的数据库里面,如果在,我们接收邮件,如果不在,我们就把它当做垃圾邮件过滤掉. 二.直觉想到的方法一拿到这个问题,我就想到了用log(n)的折半查找,先将10亿个邮件地址排序,当收到一个邮件地址时…

MySQL优化小建议

背景 "那啥,你过来一下!" "怎么了?我代码都单元测试了的,没出问题啊!"我一脸懵逼跑到运维大佬旁边. "你看看!你看看!多少条报警,赶快优化一下!" 运维大佬短信列表里面50多条MySQL CPU 100%报警短信.再看看项目名称不就是我前几天刚发布的项目吗!? 我心底一沉,赶快赔上笑脸."这个一定优化,马上优化!那个,能不能看下数据库监控日志..." 运维大佬又数落了我几句,然后调开了数据库监控日志. 那家伙...每秒3…

MySQL数据库优化小建议

背景 “那啥,你过来一下!” “怎么了?我代码都单元测试了的,没出问题啊!”我一脸懵逼跑到运维大佬旁边. “你看看!你看看!多少条报警,赶快优化一下!”运维大佬短信列表里面好多MySQL CPU 100%报警短信.再看看项目名称不就是我前几天刚发布的项目吗!? 我心底一沉,赶快赔上笑脸.“这个一定优化,马上优化!那个,能不能看下数据库监控日志...” 运维大佬又数落了我几句,然后调开了数据库监控日志. 那家伙...每秒300多的连接数,几乎快要封顶的全表扫描数,还有大红色CPU警报... “那个…

（面试）Hash表算法十道海量数据处理面试题

Hash表算法处理海量数据处理面试题主要针对遇到的海量数据处理问题进行分析,参考互联网上的面试题及相关处理方法,归纳为三种问题 (1)数据量大,内存小情况处理方式(分而治之+Hash映射) (2)判断元素是否在集合中(布隆过滤器+BitMap) (3)各种TOPN(存储和各种排序) 经典问题分析上千万or亿数据(有重复),统计其中出现次数最多的前N个数据,分两种情况:可一次读入内存,不可一次读入. 可用思路:trie树+堆,数据库索引,划分子集分别统计,hash,分布式计算,近似统计,外排序…

一小部分机器学习算法小结: 优化算法、逻辑回归、支持向量机、决策树、集成算法、Word2Vec等

优化算法先导知识:泰勒公式 \[ f(x)=\sum_{n=0}^{\infty}\frac{f^{(n)}(x_0)}{n!}(x-x_0)^n \] 一阶泰勒展开: \[ f(x)\approx f(x_0)+f'(x_0)(x-x_0) \] 二阶泰勒展开: \[ f(x)\approx f(x_0)+f'(x_0)(x-x_0)+\frac{f''(x_0)}{2}(x-x_0)^2 \] 梯度下降法 \[ \begin{align*} &f(x)=f(x^k)+g_k^T*(x-x^…

webpack--性能优化之打包构建速度和代码调试优化

前言本文来总结写webpack 在性能方面常见的优化方案. 正文本文分别总结开发环境和生产环境中在打包构建速度和代码调试功能方面的优化方案,如下: 1.开发环境性能优化 (1)优化打包构建速度 a.HMR: hot module replacement ,热模块替换,作用:当一个模块发生变化的时候,只会重新打包发生变化的模块,并不会打包所有模块,极大的提升了代码构建速度. 只需要在webpack.config.js中的devserver中添加: devServer: { // content…

我所经历的JS性能优化

转自http://www.cnblogs.com/koking/archive/2011/10/17/2215665.html 折腾了好几天,纠结了好几天,郁闷了好几天,终于在今天可以释怀了,留下其中的苦乐辛酸来和大家分享. 事情是这样子的,上周接到一个需求,其中涉及到一个好友选择的组件,就是单机左侧某个群组下的好友后该好友移动到右侧,视为选择了它,另外每个群组还有全选,折叠和展开等功能.组件在开发过程中,遇到了在2000条数据的时候,搜索会变的很卡,IE8下为2s左右,IE6更长,我在最初的优…

关于MySQL redo log，挖些坑，慢慢填

1. 为什么可以设置为多个redo log ? (innodb_log_files_in_group,默认值和推荐值都是2,我们线上设的统一为4): 2. 什么条件下会触发刷脏?除了master_thread\强制checkpoint以外,这个频率是否可以调整: 3. recovery阶段,bp是否启用.如启用,是根据my.cnf设置,占用一个特别大的内存吗? 4. redo log recovery阶段是否并行,是否可以并行? 5. 记录格式看清一种,记录及恢复阶段: 6. 环状的redo l…

PHP7革新与性能优化

有幸参与2015年的PHP技术峰会(PHPCON),听了鸟哥(惠新宸)的关于PHP7的新特性和性能优化的分享,一切都令人感到激动.鸟哥是国内最权威的PHP专家,他的分享有很多非常有价值的东西,我通过整理分享的PPT和收集相关资料,整理为这篇解读性质的技术文章,希望能给做PHP开发的同学一些帮助. PHP已经走过了20年的历史,直到今天,PHP7都发布了RC版,据说,PHP7正式版应该会在2015年11月份左右发布.PHP7对于上一个系列的PHP5.*,可以说是一个大规模的革新,尤其是在性能方面实…

oracle 表连接 - hash join 哈希连接

一. hash 连接(哈希连接)原理指的是两个表连接时, 先利用两表中记录较少的表在内存中建立 hash 表, 然后扫描记录较多的表并探測 hash 表, 找出与 hash 表相匹配的行来得到结果集的表连接方法. 哈希连接仅仅能用于等值连接条件(=). 如果以下的 sql 语句中表 T1 和 T2 的连接方式是哈希连接, T1 是驱动表 select * from T1, T2 where T1.id = T2.id and T1.name = 'David'; oracle 运行过程例如以下…

Hinge Loss、交叉熵损失、平方损失、指数损失、对数损失、0-1损失、绝对值损失

损失函数(Loss function)是用来估量你模型的预测值 f(x) 与真实值 Y 的不一致程度,它是一个非负实值函数,通常用 L(Y,f(x)) 来表示.损失函数越小,模型的鲁棒性就越好. 损失函数分为经验风险损失函数和结构风险损失函数.经验风险损失函数指预测结果和实际结果的差别,结构风险损失函数是指经验风险损失函数加上正则项.通常表示为如下:(整个式子表示的意思是找到使目标函数最小时的θ值.) 常见的损失误差有6种: 铰链损失(Hinge Loss):主要用于支持向量机(SVM) 中:…

SQL优化(转)

1. 负向条件查询不能使用索引 select * from order where status!=0 and stauts!=1 not in/not exists都不是好习惯可以优化为in查询: select * from order where status in(2,3) 2. 前导模糊查询不能使用索引 select * from order where desc like '%XX' 而非前导模糊查询则可以: select * from order where desc like '…

哈希表（散列表）—Hash表解决地址冲突 C语言实现

哈希表(Hash table,也叫散列表),是根据关键码值(Key value)而直接进行访问的数据结构.也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度.具体的介绍网上有很详细的描述,如闲聊哈希表 ,这里就不再累述了: 哈希表在像Java.C#等语言中是与生俱来的.可是在C的世界中,似乎只有自己动手,丰衣足食:在网上google了一把,大致有几个版本,我会一一来分析对比: 首先先来交代一下哈希表实现中需要注意的一些概念: (主要参考:这里) 1.哈希函数也叫散列函数,…

POJ 1200 Crazy Search【Hash入门】

RK法:https://www.cnblogs.com/16crow/p/6879988.html #include<cstdio> #include<string> #include<cstdlib> #include<cmath> #include<iostream> #include<cstring> #include<set> #include<queue> #include<algorithm&…

大数据排序算法：外部排序，bitmap算法；大数据去重算法：hash算法，bitmap算法

外部排序算法相关:主要用到归并排序,堆排序,桶排序,重点是先分成不同的块,然后从每个块中找到最小值写入磁盘,分析过程可以看看http://blog.csdn.net/jeason29/article/details/50474772 hash值算法 1.题目描述给定a.b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a.b文件共同的url? 2.思考过程 (1)首先我们最常想到的方法是读取文件a,建立哈希表(为什么要建立hash表?因为方便后面的查找),然后再…

DNN结构演进History—CNN( 优化，LeNet, AlexNet )

本文相对于摘抄的文章已经有大量的修改,如有阅读不适,请移步原文. 以下摘抄转自于维基:基于深度学习的图像识别进展百度的若干实践从没有感知域(receptive field) 的深度神经网络,到固定感知域的卷积神经网络,再到可变感知域的递归神经网络,深度学习模型在各种图像识别问题中不断演进. 曾经爆炸式增长的参数规模逐步得到有效控制,人们将关于图像的先验知识逐渐用于深度学习,大规模并行化计算平台愈加成熟,这些使我们能够从容应对大数据条件下的图像识别问题. CNN的二维处理递进结构天然适合图像处理…

SQL的优化技巧

一.一些常见的SQL实践 (1)负向条件查询不能使用索引 select * from order where status!=0 and stauts!=1 not in/not exists都不是好习惯可以优化为in查询: select * from order where status in(2,3) (2)前导模糊查询不能使用索引 select * from order where desc like '%XX' 而非前导模糊查询则可以: select * from order wher…

【数据结构】Hash表

[数据结构]Hash表 Hash表也叫散列表,是一种线性数据结构.在一般情况下,可以用o(1)的时间复杂度进行数据的增删改查.在Java开发语言中,HashMap的底层就是一个散列表. 1. 什么是Hash表 Hash表是一种线性数据结构,这种数据结构的底层一般是通过数组来实现的.在进行数据增删改查的时候,Hash表首先通过Hash函数对某个键值进行Hash操作,这个Hash操作会将这个键映射到数组的某个下标,获得下标以后就可以直接对数组中的数据进行操作了.理论上讲,Hash表数据操作的时间复杂…

【# log对数Hash映射优化】的更多相关文章