http://acm.uestc.edu.cn/#/problem/show/1092

韩爷的梦

Time Limit: 200/100MS (Java/Others)     Memory Limit: 1300/1300KB (Java/Others)
Submit Status

一天,韩爷去百度面试,面试官给了他这么一个问题。

给你2万个字符串,每个字符串长度都是100,然后把2万个字符串丢入一个 set< string >g 中,问最终set里含有多少个元素?
g 是一个用来存储字符串、具有去重功能的容器,即相同字符串在 g 中只能保留一个。
两个字符串相等,当且仅当,长度一样且对应位置的字符都一样。

韩爷前晚没睡好,随手写了一个程序交给面试官,然后就gg了。

#include<iostream>
#include<string>
#include<set>
using namespace std;
string s;
set<string>g;
int main(){
for(int k=1;k<=20000;k++){
cin>>s;
g.insert(s);
}
cout<<g.size()<<endl;
return 0;
}

韩爷醒来之后,发现这只是一个梦(还好只是个梦)。他回忆起梦中的面试官给他的内存限制和时间限制非常低,这么做肯定过不了,那么,现在你不在梦中,你能解决这个问题么?

Input

单case

每个case有且只有2万行,每一行包含一个字符串,每行字符串的长度都为100 (样例除外)

字符集:大写英文字母(A-Z),小写英文字母(a-z),数字(0-9)

Output

输出一个整数,表示最终set里含有多少个元素。

Sample input and output

Sample Input Sample Output
aaAa
aaAa
bbbb
1234
bbbb
bbbb
ee09
4

Hint

样例只是样例,不在test中

注意时间限制和内存限制非常低

思路:这道题目难点在于时间与内存限制很苛刻,一般的方法不能奏效,这里只能采用hash。即把每个字符串hash为一个数字,对数字进行比对,题目就ac了。还有个问题就是,hash函数的选取。我第一次选的hash函数就产生了冲突,这个可以多次选择进行测试,也可以直接采用更复杂的hash函数。我偷懒了下,选的是前者的方法,第二发就ac了。

这里说下关于hash的知识:

求一个字符串的hash值:

•现在我们希望找到一个hash函数,使得每一个字符串都能够映射到一个整数上
•比如hash[i]=(hash[i-1]*p+idx(s[i]))%mod
•字符串:abc,bbc,aba,aadaabac
•字符串下标从0开始
•先把a映射为1,b映射为2,c->3,d->4,即idx(a)=1, idx(b)=2, idx(c)=3,idx(d)=4;
•好!开始对字符串进行hash

假设我们取p=13 ,mod=101

先把abc映射为一个整数

hash[0]=1,表示 a 映射为1

hash[1]=(hash[0]*p+idx(b))%mod=15,表示 ab 映射为 15

hash[2]=(hash[1]*p+idx(c))%mod=97

这样,我们就把 abc 映射为 97 这个数字了。

•用同样的方法,我们可以把bbc,aba,aadaabac都映射到一个整数
•用同样的hash函数,得到如下结果
• abc  ->  97
• bbc  ->  64
• aba  ->  95
• aadaabac  ->  35
•那么,我们发现,这是一个字符串到整数的映射
•这样子,我们就可以记录下每个字符串对应的整数,当下一次出现了一个已经出现的字符串时,查询整数是否出现过,就可以知道 字符串是否重复出现。
•现在要判断两个字符串是否一致,怎么办呢?直接用它们的hash值判断即可,若hash值一致,则认为字符串一致;若hash值不一致,则认为是不同的字符串。
•我们要判断两个字符串是否一致,没有那么麻烦,直接先判断长度是否一致,然后再判断每个对应的字符是否一致即可。
•但,如果要判断多个字符串里有多少个不同的字符串,怎么办呢?
•两两字符串都进行比较?时间复杂度太高
•把每个字符串hash成一个整数,然后把所有整数进行一个去重操作,即可知道答案了。
当遇到冲突时,我们可以想办法调整p和mod,使得冲突概率减小之又小。我们一般认为p和mod一般取素数,p取一个较大的素数即可(6位到8位),mod取一个大素数,比如1e9+7,或者1e9+9。
 
如何求一个子串的hash值?
•在之前,我们求出了hash[i],表示第i个前缀的hash值。现在怎么求出每个子串的

hash值呢?

•我们看下hash的公式:
• hash[i]=(hash[i-1]*p+idx(s[i]))%mod
•这表示第 i 个前缀的hash值,是一个hash的前缀和。
•hash[i]=(hash[i-1]*p+idx(s[i]))%p;
•那么,我要求S[l…r]这个子串的hash值
• hash[l..r]=(hash[r]-hash[l-1]*(p^(r-1+1)))%mod(假设字符串下标从1开始)
•但注意下取模时候的问题!
•hash[l..r]=(hash[r]-hash[l-1]*(p^(r-1+1)))%mod
• hash[l..r]是不是可能有负数?
•怎么办呢?当得到的hash[l..r]<0的时候,hash[l..r]+=mod,就好啦。
•这样就可以保证每个子串的hash值在[0, mod-1]的范围内,准确地用hash值来处理字符串
 
常用的几个字符串hash法
•1. unsigned long long hash[N];
     hash[i]=hash[i-1]*p(自动取模)
解释:

unsigned long long hash[N];

定义一个unsigned long long类型的变量,它的范围是在[0, 2^64) 内,这就相当于,当数超不过2^64-1后,它会溢出!这就相当于一个数模2^64的过程。

那么hash函数可以理解为:

hash[i]=(hash[i-1]*p)%(2^64)

P取一个大素数,一般习惯取1e9+7或1e9+9

安全指数:三星(所以并不是很安全)

•2. hash[i]=(hash[i-1]*p+idx(s[i]))%mod
解释:

这个之前已经提到过了。

hash[i]=(hash[i-1]*p+idx(s[i]))%mod

p取一个6到8位的素数,mod取一个大素数,一般取1e9+7或1e9+9
安全指数:四星 (还可以)
 
•3. 双hash

hash1[i]=(hash1[i-1]*p+idx(s[i]))%mod1

hash2[i]=(hash2[i-1]*p+idx(s[i]))%mod2

pair<hash1,hash2>表示一个字符串!

解释:

double hash
即取两个mod值,mod1和mod2

hash1[i]=(hash1[i-1]*p+idx(s[i]))%mod1

hash2[i]=(hash2[i-1]*p+idx(s[i]))%mod2

mod1一般取1e9+7,mod2一般取1e9+9为什么这么取?

1000000007和1000000009是一对孪生素数,取它们,冲突的概率极低!

安全指数:五星!(非常稳!)
 
小结:
•可以这么说,hash某种程度上就是乱搞,把hash函数弄的越没有规律越好,使得冲突的概率小到 大部分数据都卡不掉。
•如果你开心,你想triple hash,ultra hash,rampage hash… 都没有问题!

但请注意,hash的维度越高,耗时越高,耗内存越大!一般情况下,single hash可以被hack掉,但double hash极难被hack掉, 用double hash足以解决问题

ok,现在上这道题目的ac代码:

 #include <iostream>
#include <cstdio>
#include <cstdlib>
#include <cstring>
#include <algorithm>
#include <string>
#include <set>
using namespace std; #define MAX 0x7fffffff
#define N 20000
#define len 100 const unsigned long long p=1e9+;
const unsigned long long mod=1e9+; unsigned long long sv[N]; unsigned long long hashStr(char *s); int main(){
//freopen("D:\\input.in","r",stdin);
//freopen("D:\\output.out","w",stdout);
char tmp[];
for(int i=;i<N;i++){
gets(tmp);
sv[i]=hashStr(tmp);
}
sort(sv,sv+N);
int ans=,cu=-;
for(int i=;i<N;i++){
if(sv[i]!=cu){
cu=sv[i];
ans++;
}
}
printf("%d\n",ans);
return ;
}
unsigned long long hashStr(char *s){
unsigned long long h=;
for(int i=;i<len;i++){
unsigned long long value;
char c=s[i];
if(c>=''&&c<='') value=c-'';
else if(c>='a'&&c<='z') value=c-'a'+;
else value=c-'A'+;
h=(h*p+value)%mod;
}
return h;
}

cdoj1092-韩爷的梦 (字符串hash)【hash】的更多相关文章

  1. 2015 UESTC 搜索专题N题 韩爷的梦 hash

    韩爷的梦 Time Limit: 20 Sec  Memory Limit: 256 MB 题目连接 http://acm.uestc.edu.cn/#/contest/show/61 Descrip ...

  2. UESTC_韩爷的梦 2015 UESTC Training for Search Algorithm & String<Problem N>

    N - 韩爷的梦 Time Limit: 200/100MS (Java/Others)     Memory Limit: 1300/1300KB (Java/Others) Submit Stat ...

  3. cdoj 1092 韩爷的梦

    http://acm.uestc.edu.cn/#/problem/show/1092 题意:略 思路: 做的第一道字符串hash的题,真是菜啊,还是看了几篇题解才会做的.字符串hash感觉就是函数的 ...

  4. redis 2 字符串 和 hash

    string是最简单的类型,一个key对应一个value,string类型是二进制安全的.redis的string可以包含任何数据,比如JPG图片或者序列化的对象 操作    set    设置key ...

  5. mycat1.6.5分片(字符串拆分hash)

    https://blog.csdn.net/webnum/article/details/78313525   分片规则:字符串拆分hash 一.conf/schema.xml文件   <?xm ...

  6. 字符串转hash进阶版

    #include<bits/stdc++.h> using namespace std; ,mod=; vector<unsigned> H[mod]; void Add(un ...

  7. UESTC_韩爷的情书 2015 UESTC Training for Graph Theory<Problem H>

    H - 韩爷的情书 Time Limit: 6000/2000MS (Java/Others)     Memory Limit: 262144/262144KB (Java/Others) Subm ...

  8. Contest 20140914 Mushroom写情书 字符串雙hash 後綴數組

    0111:Mushroom写情书 查看 提交 统计 提问 总时间限制:  10000ms 内存限制:  256000kB 描述 有一天,Mushroom准备向他的GF表白,为了增加表白成功率,Mush ...

  9. 字符串编码---hash函数的应用

    之前就听说过有个叫做hash表的东西,这段时间在上信息论与编码,也接触了一些关于编码的概念,直到今天做百度之星的初赛的d题时,才第一次开始学并用hash 一开始我用的是mutimap和mutiset, ...

随机推荐

  1. HDU 1452 欧拉定理

    让你求$2004^x$所有因子之和,因子之和函数是积性函数$\sigma(n)=\sum_{d|n}d=\prod_{i=0}^{m}(\sum_{j=0}^{k_i}{P_i^{j}})$可用二项式 ...

  2. R3—日期处理

    一. 问题引入 下面是一个房地产价格数据,现在想要提取2008年6月份的数据进行分析,在R中该如何操作呢? city price bedrooms squarefeet lotsize latitud ...

  3. 51Nod - 1006 最长公共子序列Lcs模板

    给出两个字符串A B,求A与B的最长公共子序列(子序列不要求是连续的).   比如两个串为:   abcicba abdkscab   ab是两个串的子序列,abc也是,abca也是,其中abca是这 ...

  4. javaScript操作数组的常用方法

    map(映射), reduce(规约), forEach(遍历), filter(过滤),它们都是高阶函数,都是以传入不同的函数来以不同的方式操作数组元.ie都不支持 判断是否为数组 Array.is ...

  5. three.js为何如此奇妙

    WebGL是在浏览器中实现三维效果的一套规范,而最初使用WebGL原生的API来写3D程序是一件非常痛苦的事情,在辛苦的付出下WebGL开源框架出现了,其中three.js就是非常优秀的一个,它掩盖了 ...

  6. MongoDB之数据库命令操作(二)

    现在详细学习一下mongodb的数据库操作. 查询语句 db.xxx(集合name).find() # 查询 db.xxx(集合name).findOne() # 只返回一个 db.xxx(集合nam ...

  7. 【Python学习】request库

    Requests库(https://www.python-requests.org/)是一个擅长处理那些复杂的HTTP请求.cookie.header(响应头和请求头)等内容的Python第三方库. ...

  8. screen命令使用方法【转】

    在linux的环境中,我们想要在后台持续运行一些脚本,但是又因为关闭这个tty的话,脚本就会中断,这个时候我们就需要screen这个工具的帮助啦! 基础   1 首先先查看下否则有这个工具.如果运行s ...

  9. 关于分布式Session 的几种实现方式

    分布式Session的几种实现方式 1.基于数据库的Session共享 2.基于NFS共享文件系统 3.基于memcached 的session,如何保证 memcached 本身的高可用性? 4. ...

  10. linux系统定时任务设置

    .使用at命令设置一次性定时任务 2.使用crontab设置周期性定时任务 1)cd /home 目录下,使用vi test.py创建文件,内容如下: #!/usr/bin/python#coding ...