最初问题:从n个数中随机选择m个数(0<=m<=n)。

为了便于描述,可以将该问题抽象为:从0-n-1这n个数中随机选择m个数。计算机能够提供的随机数都是伪随机的,我们假设计算机提供的伪随机数为真正的随机。

0、产生一个随机数

系统(c/c++)提供的rand函数只有15位,如果不满足要求,需要自己扩展,30位的随机函数如下:

  1. /** @brief 返回一个30bit的随机数
  2. ** @note   系统自带的rand只有15bit
  3. */
  4. int     BigRand()
  5. {
  6. static  bool    flag=false;
  7. if(flag==false)
  8. {
  9. srand(time(0));
  10. flag = true;
  11. }
  12. return  (rand()<<15)+rand();
  13. }

1、最简单的解法

每次产生一个0-n-1之间的随机数,放入一个集合中,直到集合的大小为m。C++的STL中有set,比较方便:

  1. void    GetRandNum_set(int m,int n)
  2. {
  3. cout<<__FUNCTION__<<": ";
  4. set<int>    s;
  5. while(signed(s.size())<m)
  6. {
  7. s.insert(RandInt(0,n-1));
  8. }
  9. set<int>::iterator    i=s.begin();
  10. while(i!=s.end())
  11. cout<<*i++<<" ";
  12. cout<<endl;
  13. }

上面的代码工作没有问题,但是当m接近n且很大时,最后几个数的产生将会很困难。因为会生成大量的重复的数。

如何不产生重复的数呢?

2、最多n次的解法

假设当前剩余m个数要选,

从0开始到n-1这n个数,以m/n的概率选中选中0:总共n个数,要选出m个;

对于1:如果选中0,则以(m-1)/(n-1)的概率选择1(总共n-1个,要选m-1个);如果没选中,则以m/(n-1)的概率选(总共n-1个,要选m个);

……

对于i:总共还剩下n-i个,还需要选m个,那么选中的概率就是m/(n-i)。

没选中一个,剩余要选的数就减少一个。

因此代码如下:

  1. /** @brief 在[0-n)中随机的选择m个不同的数
  2. **         并按序输出
  3. */
  4. void    GetRandNumSorted(int m,int n)
  5. {
  6. cout<<__FUNCTION__<<": ";
  7. if(m<0 || m>=n)  return;
  8. for(int i=0; m!=0 && i<n; i++)
  9. {
  10. if(BigRand()%(n-i)<m)
  11. {
  12. cout<<i<<" ";
  13. m--;
  14. }
  15. }
  16. cout<<endl;
  17. }

显然,这时输出是从小到大按序选择的。

其中:if(BigRand()%(n-i)<m) 的概率为:m/(n-i)。
可以分析,每个数选中的概率都是m/n:

数 选中概率

0:  m/n

1: m/n * (m-1)/(n-1)  +  (1-m/n) * m/(n-1) =m/n;

2:    好多项相加,这里就不写了。。。

……

3、不按序输出

如果要求不按序输出,有两种解决办法。

一种是将上面的结果保存起来,然后再打乱保存的数组。

还有一种就是直接产生m个随机数。

先看直接产生m个随机数,其实就是先从0-n-1中随机选择一个,作为第一个;然后再从剩下的n-1个数中随机选择一个作为第二个……直到选出第m个。这就是所谓“完美洗牌”或者打乱数组。

  1. /** @brief 在[0-n)中随机的选择m个不同的数
  2. **         并随机输出
  3. */
  4. void    GetRandNum(int m, int n)
  5. {
  6. cout<<__FUNCTION__<<": ";
  7. int * p= (int*)malloc(sizeof(int)*n);//!!!
  8. for(int i=0;i<n;i++)
  9. p[i] = i;
  10. ///shuffle p[0...m-1]
  11. for(int i=0; i<m; i++)
  12. {
  13. swap(p[i],p[RandInt(i,n-1)]);
  14. cout<<p[i]<<" ";
  15. }
  16. cout<<endl;
  17. free(p);
  18. }

这里需要一个函数,能够随机产生一定范围内的数:

  1. /** @brief 返回[l,u]之间的一个随机数 **/
  2. int     RandInt(int l, int u)
  3. {
  4. l = l<u?l:u;
  5. u = l<u?u:l;
  6. return  BigRand()%(u-l+1) + l;
  7. }

这种算法的问题是,如果n很大,m很小,对辅助空间的浪费太严重。因为开辟了那么大的空间,实质只用了很少一部分。

另一种就是先按序随机选择m个数,然后再打乱:

  1. /** @brief 在[0-n)中随机的选择m个不同的数
  2. **         并随机输出
  3. */
  4. void    GetRandNum2(int m, int n)
  5. {
  6. cout<<__FUNCTION__<<": ";
  7. int * p= (int*)malloc(sizeof(int)*m);
  8. int tm=m;
  9. for(int i=0,j=0; m!=0 && i<n; i++)
  10. {
  11. if(BigRand()%(n-i)<m)
  12. {
  13. p[j++]=i;//cout<<i<<" ";
  14. m--;
  15. }
  16. }
  17. for(int i=0; i<tm; i++)
  18. {
  19. swap(p[i],p[RandInt(i,tm-1)]);
  20. cout<<p[i]<<" ";
  21. }
  22. cout<<endl;
  23. free(p);
  24. }

4、随机读取文件中的一行

在不知道文件总行数的情况下,随机读取文件中的一行。

最直观的做法就是,先读取一次文件,确定总行数n。然后产生一个1-n的随机数m,再读取第m行。显然这是可行的,但是问题是如果文件很大,平均要遍历文件1.5次。效率很低。

而且如果文件在不算增长,那么这个方法就不行了。

通过上面的算法的启发,其实也可以只读取一次。

首先读取第一行,如果只有一行,就结束了,设为line;

如果有第2行,那么以1/2的概率替换line;这时1、2两行被选中的概率都是1/2.

如果有第3行,那么以1/3的概率替line;则第3行被选中的概率是1/3,1、2两行被选中的概率则都是1/2*2/3=1/3.

……

第i行,以1/i的概率替换line。

直到文件结束。

  1. /** @brief 从文件fname中随机读取一行 */
  2. void    GetOneLineRand(const char *fname)
  3. {
  4. cout<<__FUNCTION__<<": ";
  5. string line,str_save;
  6. ifstream ins(fname);
  7. int cnt=1;
  8. while(getline(ins,line))
  9. {
  10. if(cnt==1)
  11. {
  12. str_save = line;
  13. }
  14. else
  15. {
  16. if(RandInt(1,cnt)==1)///[1,cnt]
  17. str_save = line;
  18. }
  19. cout<<cnt<<" : "<<line<<endl;
  20. cnt++;
  21. }
  22. cout<<"rand line : "<<str_save<<endl;
  23. ins.close();
  24. }

这里的if(RandInt(1,cnt)==1)里的1,可以是[1,cnt]中任意一个值,概率均为1/cnt。

5、随机读取k行

先去读k行,保存在一个数组中(假设文件至少有k行);

然后每读取一行,都以k/n的概率替换数组中的任意一行,其中n为当前总共读取的行数。

  1. /** @brief 从文件fname中随机读取k行
  2. */
  3. void    GetRandLines(const char *fname, int k)
  4. {
  5. cout<<__FUNCTION__<<": ";
  6. string  * kstr = new string[k], line;
  7. ifstream ins(fname);
  8. int cnt=1;
  9. while(cnt<=k)///先读取前k行
  10. {
  11. if(getline(ins,kstr[cnt-1]))   cnt++;
  12. else    break;///文件没有k行,直接退出
  13. }
  14. while(getline(ins,line))
  15. {
  16. if(RandInt(1,cnt)<=k)/// p=k/cnt
  17. {
  18. swap(kstr[RandInt(1,k)-1],line);///随机替换一行
  19. }
  20. cnt++;
  21. }
  22. for(int i=0; i<k ;i++)
  23. {
  24. cout<<kstr[i]<<endl;
  25. }
  26. cout<<endl;
  27. delete[] kstr;
  28. ins.close();
  29. }

其他问题请参考《编程珠玑-第12章》。

转载出处:http://blog.csdn.net/fastsort/article/details/10162871

【C/C++】随机数问题的更多相关文章

  1. .Net使用system.Security.Cryptography.RNGCryptoServiceProvider类与System.Random类生成随机数

    .Net中我们通常使用Random类生成随机数,在一些场景下,我却发现Random生成的随机数并不可靠,在下面的例子中我们通过循环随机生成10个随机数: ; i < ; i++) { Rando ...

  2. DotNet生成随机数的一些方法

    在项目开发中,一般都会使用到“随机数”,但是在DotNet中的随机数并非真正的随机数,可在一些情况下生成重复的数字,现在总结一下在项目中生成随机数的方法. 1.随机布尔值: /// <summa ...

  3. JavaScript 随机数

    JavaScript内置函数random(seed)可以产生[0,1)之间的随机数,若想要生成其它范围的随机数该如何做呢? 生成任意范围的随机数 //生成[100,120)之间的随机数 Math.fl ...

  4. SQL Server 随机数,随机区间,随机抽取数据rand(),floor(),ceiling(),round(),newid()函数等

    在查询分析器中执行:select rand(),可以看到结果会是类似于这样的随机小数:0.36361513486289558,像这样的小数在实际应用中用得不多,一般要取随机数都会取随机整数.那就看下面 ...

  5. 随机数(random)

    需求 Random rd=new Random(); 需要十以内的随机数  (0---10) System.out.println((int)((rd.nextDouble()*100)/10)); ...

  6. [LeetCode] Insert Delete GetRandom O(1) 常数时间内插入删除和获得随机数

    Design a data structure that supports all following operations in average O(1) time. insert(val): In ...

  7. Python 随机数用法

    1. random.seed(int) 给随机数对象一个种子值,用于产生随机序列. 对于同一个种子值的输入,之后产生的随机数序列也一样. 通常是把时间秒数等变化值作为种子值,达到每次运行产生的随机系列 ...

  8. C语言产生标准正态分布或高斯分布随机数

    C语言 产生标准正态分布或高斯分布 随机数 产生正态分布或高斯分布的三种方法: 1. 运用中心极限定理(大数定理) #include #include #define NSUM 25 double g ...

  9. C语言基础(11)-随机数发生器

    一. rand() rand是一个C语言库函数,功能是生成一个随机数.rand需要一个不同的种子,才能生成不同的随机数. 二. srand(int seed) rand需要一个不同的种子,才能生成不同 ...

  10. shell 指定范围产生随机数

    #/bin/bash echo "---------------产生随机数---------------" read -p "请输入起始数:" a read - ...

随机推荐

  1. Java实现批量下载《神秘的程序员》漫画

    上周看了西乔的博客“西乔的九卦”.<神秘的程序员们>系列漫画感觉很喜欢,很搞笑.这些漫画经常出现在CSDN“程序员”杂志末页的,以前也看过一些. 后来就想下载下来,但是一张一张的点击右键“ ...

  2. Class类的理解

      在java中,每个类都有一个相应的Class类的对象,因为每个类编译完成后,在生成的.class文件中,就会产生一个Class对象.     在运行期间,如果我们要产生某个类的对象,jvm会检查类 ...

  3. CSS3 线性渐变(linear-gradient) 兼容IE8,IE9

    一.线性渐变在 Mozilla 下的应用     语法: -moz-linear-gradient( [<point> || <angle>,]? <stop>, ...

  4. Subsets 子集系列问题 leetcode

    子集系列问题: Coding 问题中有时会出现这样的问题:给定一个集合,求出这个集合所有的子集(所谓子集,就是包含原集合中的一部分元素的集合). 或者求出满足一定要求的子集,比如子集中元素总和为定值, ...

  5. 写在Ruby之前。

    jeiao: 入行程序员也有一年的时间,入门的时候学的Java,在公司写了大半年的Java,也主要是Web方向,使用过struts2 做过项目,后来又用SSH实现了一遍,感觉就那么点意思,因为公司规模 ...

  6. java里的static和final

    本节介绍JAVA里static和final的作用和使用方法以及一些需要注意的问题. 一.static static表示"全局"或"静态",用来修饰成员变量和成员 ...

  7. Incompatible operand types DeptE and int 异常处理

    Incompatible operand types DeptE and int 1.java不会运算到==的值,把==改为equals 2.java不会运算到eequals的值 把equals的改为 ...

  8. ArcMap 连接SDE 出错“Failed to connect to the specified server. Entry for SDE instance no found in services file.”

    问题描述 环境: ARCMAP 10.0 ARCSDE FOR ORACLE 10.0   在通过用ArcMap 连接ORACLE SDE时出现上面的错.   解决方式 在 C:\Windows\Sy ...

  9. AlwaysON同步性能监控的三板斧

    延迟是AlwaysOn最大的敌人之一 延迟是AlwaysON的最大敌人之一.对AlwaysON而言,其首要目标就尽量减少(无法避免)主副本.辅助副本的数据延迟,实现主副本.辅助副本的“数据同步”.只有 ...

  10. 写给自己看的Linux运维基础(一) - 系统基础

    查看内核版本信息 uname -a 查看发行版本 cat /etc/issue 查看硬件配置 CPU: cat /proc/cpuinfo      more /proc/cpuinfo | grep ...