前言
  这个问题源自于,我想找一个分布式下的ID生成器。
  这个最简单的方案是,数据库自增ID。为啥不用咧?有这么几点原因,一是,会依赖于数据库的具体实现,比如,mysql有自增,oracle没有,得用序列,mongo似乎也没有他自己有个什么ID,sqlserver貌似有自增等等,有些不稳定因素,因为ID生成是业务的核心基础。当然,还有就是性能,自增ID是连续的,它就依赖于数据库自身的锁,所以数据库就有瓶颈。当然了,多台数据库加某种间隔也是可用的,但是,运维维护会很复杂,因为它不是内聚的解决方案。而且,很难提前获得下一个ID。
  后来,我用过一段时间在数据库表里进行记录来进行自增。这个的优势是,我可以提前获得下一个ID,而且,某个进程里可以一次获取一批,减少锁的依赖,虽然进程间的不重复依然是基于数据库事务隔离的,但是,依赖小了,瓶颈小了。这个方案其实挺好的,我依然也会继续用,主要是,它可以生成数字字母混合的编剧号,而且基本可控。但是,我数据库主键为了效率和空间成本,基本会选用long,基本顺序生成就可以了,所以,使用这种带持久化的方案,会显得很重。起项目的时候,也是,需要先建立对应的表,然后再把代码或者jar包引进去,然后再用,比较重。最好就是能够直接生成,没有那么多依赖。
  然后,我从我上司那里听到了twitter的这个算法。其实,我上司有个实现,我这个就是基于他的改的,但是,他的有两个值是配置的,我还是嫌麻烦,于是就动手把那两个值变成了从机器与进程获取,就有了这个版本。

思路
  说实话,我也就听了这么个算法的名字,没正经看过原算法,但是,我上司说他代码是网上抄的,所以,这个算法名字我还是不敢丢,下面我们说说整体的思路。
  整个ID的构成大概分为这么几个部分,时间戳差值,机器编码,进程编码,序列号。java的long是64位的从左向右依次介绍是:时间戳差值,在我们这里占了42位;机器编码5位;进程编码5位;序列号12位。所有的拼接用位运算拼接起来,于是就基本做到了每个进程中不会重复了。

代码

  1. package nature.framework.core.common;
  2.  
  3. import java.lang.management.ManagementFactory;
  4. import java.lang.management.RuntimeMXBean;
  5. import java.net.NetworkInterface;
  6. import java.net.SocketException;
  7. import java.util.Enumeration;
  8.  
  9. /**
  10. * 主键生成器
  11. *
  12. * @author nature
  13. * @create 2017-12-22 10:58
  14. */
  15. public class KeyWorker {
  16. private final static long twepoch = 12888349746579L;
  17. // 机器标识位数
  18. private final static long workerIdBits = 5L;
  19. // 数据中心标识位数
  20. private final static long datacenterIdBits = 5L;
  21.  
  22. // 毫秒内自增位数
  23. private final static long sequenceBits = 12L;
  24. // 机器ID偏左移12位
  25. private final static long workerIdShift = sequenceBits;
  26. // 数据中心ID左移17位
  27. private final static long datacenterIdShift = sequenceBits + workerIdBits;
  28. // 时间毫秒左移22位
  29. private final static long timestampLeftShift = sequenceBits + workerIdBits + datacenterIdBits;
  30. //sequence掩码,确保sequnce不会超出上限
  31. private final static long sequenceMask = -1L ^ (-1L << sequenceBits);
  32. //上次时间戳
  33. private static long lastTimestamp = -1L;
  34. //序列
  35. private long sequence = 0L;
  36. //服务器ID
  37. private long workerId = 1L;
  38. private static long workerMask= -1L ^ (-1L << workerIdBits);
  39. //进程编码
  40. private long processId = 1L;
  41. private static long processMask=-1L ^ (-1L << datacenterIdBits);
  42. private static KeyWorker keyWorker = null;
  43.  
  44. static{
  45. keyWorker=new KeyWorker();
  46. }
  47. public static synchronized long nextId(){
  48. return keyWorker.getNextId();
  49. }
  50.  
  51. private KeyWorker() {
  52.  
  53. //获取机器编码
  54. this.workerId=this.getMachineNum();
  55. //获取进程编码
  56. RuntimeMXBean runtimeMXBean = ManagementFactory.getRuntimeMXBean();
  57. this.processId=Long.valueOf(runtimeMXBean.getName().split("@")[0]).longValue();
  58.  
  59. //避免编码超出最大值
  60. this.workerId=workerId & workerMask;
  61. this.processId=processId & processMask;
  62. }
  63.  
  64. public synchronized long getNextId() {
  65. //获取时间戳
  66. long timestamp = timeGen();
  67. //如果时间戳小于上次时间戳则报错
  68. if (timestamp < lastTimestamp) {
  69. try {
  70. throw new Exception("Clock moved backwards. Refusing to generate id for " + (lastTimestamp - timestamp) + " milliseconds");
  71. } catch (Exception e) {
  72. e.printStackTrace();
  73. }
  74. }
  75. //如果时间戳与上次时间戳相同
  76. if (lastTimestamp == timestamp) {
  77. // 当前毫秒内,则+1,与sequenceMask确保sequence不会超出上限
  78. sequence = (sequence + 1) & sequenceMask;
  79. if (sequence == 0) {
  80. // 当前毫秒内计数满了,则等待下一秒
  81. timestamp = tilNextMillis(lastTimestamp);
  82. }
  83. } else {
  84. sequence = 0;
  85. }
  86. lastTimestamp = timestamp;
  87. // ID偏移组合生成最终的ID,并返回ID
  88. long nextId = ((timestamp - twepoch) << timestampLeftShift) | (processId << datacenterIdShift) | (workerId << workerIdShift) | sequence;
  89. return nextId;
  90. }
  91.  
  92. /**
  93. * 再次获取时间戳直到获取的时间戳与现有的不同
  94. * @param lastTimestamp
  95. * @return 下一个时间戳
  96. */
  97. private long tilNextMillis(final long lastTimestamp) {
  98. long timestamp = this.timeGen();
  99. while (timestamp <= lastTimestamp) {
  100. timestamp = this.timeGen();
  101. }
  102. return timestamp;
  103. }
  104.  
  105. private long timeGen() {
  106. return System.currentTimeMillis();
  107. }
  108.  
  109. /**
  110. * 获取机器编码
  111. * @return
  112. */
  113. private long getMachineNum(){
  114. long machinePiece;
  115. StringBuilder sb = new StringBuilder();
  116. Enumeration<NetworkInterface> e = null;
  117. try {
  118. e = NetworkInterface.getNetworkInterfaces();
  119. } catch (SocketException e1) {
  120. e1.printStackTrace();
  121. }
  122. while (e.hasMoreElements()) {
  123. NetworkInterface ni = e.nextElement();
  124. sb.append(ni.toString());
  125. }
  126. machinePiece = sb.toString().hashCode();
  127. return machinePiece;
  128. }
  129. }

  

代码解读
整体设计
  为了最大程度的减少配置,方便实用,这个模块,我设计成了单例模式。之所以没有直接使用static方法,还是希望可以控制整个模块的生命周期,但是,模块的初始化,我使用了static块,因为它没有任何依赖。
  有个static的nextId方法,可以直接获得下一个ID,这个方法是线程安全的。同时这个模块的使用就是这么简单粗暴,也不用配置bean。

ID生成逻辑
  我们先看最后一步:long nextId = ((timestamp - twepoch) << timestampLeftShift) | (processId << datacenterIdShift) | (workerId << workerIdShift) | sequence;
  这句话什么意思呢?
  timestamp - twepoch:时间戳减去一个时间戳,获得一个差值。
  ((timestamp - twepoch) << timestampLeftShift):timestampLeftShift是22,这个操作是将这个差值向左移22位,左移空出来的会自动补0,我们就有了22位的空间了。
  后面可以看到三个|符号,与操作会把1都加进来,而我们后面的数也都在各自的位上才有1,那么|操作就把这些数合进来了。
  (processId << datacenterIdShift):进程编码左移datacenterIdShift,这个是17位,而processId最多是5位,于是刚好填满空位
  (workerId << workerIdShift):与进程编码类似,机器编码也是5位,左移12位
  sequence最大12位。

如何确保不超出位数限制
  前面的逻辑中,我们说了很多不超出位数限制啥的内容,那么,具体是怎么做到的呢?我们拿workerId举个例子:
  this.workerId=workerId & workerMask;
  这是我们确保workerId不超过5位的语句,什么意思呢?不经常操作位运算真看不懂。我们先看看workerMask是啥。
  private static long workerMask= -1L ^ (-1L << workerIdBits);
  。。。什么意思呀?它先执行的是-1L << workerIdBits,workerIdBits是5。这又是什么意思呢?注意,这是位运算,long用的是补码,-1L,就是64个1,这里使用-1是为了格式化所有位数,<<是左移运算,-1L左移五位,低位补零,也就是左移空出来的会自动补0,于是就低位五位是0,其余是1。然后^这个符号,是异或,也是位运算,位上相同则为0,不通则为1,和-1做异或,则把所有的0和1颠倒了一下。这时候,我们再看,workerId & workerMask,与操作,两个位上都为1的才能唯一,否则为零,workerMask高位都是0,所以,不管workerId高位是什么,都是0,;而workerMask低位都是1,所以,不管workerId低位是什么,都会被保留,于是,我们就控制了workerId的范围。

最后的异常
  这里,时间戳,保证了不通毫秒不同,然后机器编码进程编码保证了不同进程不通,再然后,序列,在统一毫秒内,如果获取第二个ID,则序列号+1,到下一毫秒后重置。至此,唯一性ok。但是,还有问题,序列号用完了怎么办?代码里的解决方案是,等到下一毫秒。

补充
  其实,这个方案中,机器码和进程编码是可能相同的,只是概率比较小,我们就凑合着用吧。如果有更好地获取这两位的方式,欢迎沟通。

Twitter的雪花算法(snowflake)自增ID的更多相关文章

  1. 一个类似 Twitter 雪花算法 的 连续序号 ID 产生器 SeqIDGenerator

    项目地址 :     https://github.com/kelin-xycs/SeqIDGenerator 今天 QQ 群 里有网友问起产生唯一 ID 的方法 有哪些,  讨论了各种方法 . 有网 ...

  2. 雪花算法-snowflake

    雪花算法-snowflake 分布式系统中,有一些需要使用全局唯一ID的场景,这种时候为了防止ID冲突可以使用36位的UUID,但是UUID有一些缺点,首先他相对比较长,另外UUID一般是无序的. 有 ...

  3. 基于雪花算法的增强版ID生成器

    sequence 基于雪花算法的增强版ID生成器 解决了时间回拨的问题 无需手动指定workId, 微服务环境自适应 可配置化 快速开始 依赖引入 <dependency> <gro ...

  4. 【Java】分布式自增ID算法---雪花算法 (snowflake,Java版)

    一般情况,实现全局唯一ID,有三种方案,分别是通过中间件方式.UUID.雪花算法. 方案一,通过中间件方式,可以是把数据库或者redis缓存作为媒介,从中间件获取ID.这种呢,优点是可以体现全局的递增 ...

  5. 一秒可生成500万ID的分布式自增ID算法—雪花算法 (Snowflake,Delphi 版)

    概述 分布式系统中,有一些需要使用全局唯一ID的场景,这种时候为了防止ID冲突可以使用36位的UUID,但是UUID有一些缺点,首先他相对比较长,另外UUID一般是无序的. 有些时候我们希望能使用一种 ...

  6. Twitter雪花算法 SnowFlake算法 的java实现

    概述 SnowFlake算法是Twitter设计的一个可以在分布式系统中生成唯一的ID的算法,它可以满足Twitter每秒上万条消息ID分配的请求,这些消息ID是唯一的且有大致的递增顺序. 原理 Sn ...

  7. 分布式系统-主键唯一id,订单编号生成-雪花算法-SnowFlake

    分布式系统下 我们每台设备(分布式系统-独立的应用空间-或者docker环境) * SnowFlake的优点是,整体上按照时间自增排序,并且整个分布式系统内不会产生ID碰撞(由数据中心ID和机器ID作 ...

  8. 分布式唯一ID生成方案选型!详细解析雪花算法Snowflake

    分布式唯一ID 使用RocketMQ时,需要使用到分布式唯一ID 消息可能会发生重复,所以要在消费端做幂等性,为了达到业务的幂等性,生产者必须要有一个唯一ID, 需要满足以下条件: 同一业务场景要全局 ...

  9. 雪花算法生成全局唯一ID

    系统中某些场景少不了全局唯一ID的使用,来保证数据的唯一性.除了通过数据库自带的自增id来保证 id 的唯一性,通常为了保证的数据的可移植性会选择通过程序生成全局唯一 id.百度了不少php相关的生成 ...

随机推荐

  1. 『Python CoolBook:Collections』数据结构和算法_collections.deque队列&yield应用

    一.collections.deque队列 deque(maxlen=N)构造函数会新建一个固定大小的队列.当新的元素加入并且这个队列已满的时候,最老的元素会自动被移除掉. 如果你不设置最大队列大小, ...

  2. C/S与B/S的区别

    C/S与B/S的区别 1.区别 1.B/S架构是针对C/S架构缺点进行改进后提出的网络结构模式. B/S结构属于C/S结构,是一种特殊的C/S,因为浏览器只是特殊的客户端. 2.C/S可以使用任何通信 ...

  3. Linux .vimrc 设置项

    Linux 下,.vimrc 有两个.一个是全局使用的(/etc/vimrc),另一个是个人使用的(~/.vimrc). 大部分的情况下,我们只需要设置自己目录下的.vimrc 即可. # vim ~ ...

  4. python项目练习

    程序框图 (消费模块暂未写入) bin:程序执行 import os import sys base_dir = os.path.dirname(os.path.dirname(os.path.abs ...

  5. 远程连接Linux

    远程连接Linux   为什么要远程连接Linux 在实际的工作场景中,虚拟机界面或者物理服务器本地的终端都是很少接触的,因为服务器装完系统之后,都要拉倒IDC机房托管,如果是购买的云主机,那更碰不到 ...

  6. python-基础数据类型,集合及深浅copy

    一 数据类型定义及分类 我们人类可以很容易的分清数字与字符的区别,但是计算机并不能呀,计算机虽然很强大,但从某种角度上看又很傻,除非你明确的告诉它,1是数字,“汉”是文字,否则它是分不清1和‘汉’的区 ...

  7. 查询系统正在运行的SQL语句

    查询系统正在运行的SQL语句: select a.program, b.spid, c.sql_text from v$session a, v$process b, v$sqlarea c wher ...

  8. ionic3 使用swiper插件 实现轮播效果

    由于app的更新迭代 我需要完成新版本设计图的开发 刚开始就遇到一个问题  首页的banner图需要实现某种效果 而ionic3自带的轮播图效果怎么改都改不到我想要的效果 效果图如下  自动播放 不断 ...

  9. oracle中next_day()、last_day()函数解析

    oracle中next_day()函数解析 Sql代码 当前系统时间的下一星期一的时间select   next_day(sysdate,1) from dual NEXT_DAY(date,char ...

  10. php优秀框架codeigniter学习系列——CI_Security类学习

    这篇文章主要介绍CI核心框架工具类CI_Security. 安全类包含了一些方法,用于安全的处理输入数据,帮助你创建一个安全的应用.以下选取类中的重点方法进行说明. __construct() 在构造 ...