分布式id_雪花算法

分布式id - 雪花算法

分布式id常见方案

  1. UUID Java自带的一串唯一且随机的36位字符串(32个字符+4个’-‘) 它可以保证唯一性, 但业务可读性差, 无法保证有序递增
  2. SnowFlake(雪花算法) 是Twitter开源的由64位整数组成分布式id, 性能较高, 且在单机上递增.snowflake
  3. UidGenerator 百度开源的分布式id生成器, 基于雪花算法实现 UidGenerator
  4. Leaf 美团开源的分布式id生成器, 保证全局唯一, 趋势递增, 但需要依赖关系数据库, zookeeper等中间件 leaf

snowflake

它是一个在简单保证下能够大规模(高性能)生成唯一id的一个网络服务

特点

  1. 全局唯一性
  2. 递增性
  3. 高可用
  4. 高性能
动机

Twitter从mysql 迁到了Cassandra, 需要一个新的方式生成id, 因为Cassandra没有自增ID, 当然它也不应该有

mysql 支持自增id, 通过指定auto_increment

todo: Cassandra是什么, 为什么twitter从mysql 转向它, 它的优势是?

需求

  • 每个进程每秒最少10k id

  • 响应速度2ms内(包括网络传输)

实现原理 组成部分, 64bit

  • 第一位 始终是0, (符号位 占1bit),

  • 时间戳, 占41bit, 精确到毫秒, 可以容纳约69年的时间,

  • 工作机器id 占10bit 包括高5位的datacenterIdBits (数据中心id) 和低5位的workerIdBits (机器id), 最多可以容纳1024个节点(机器)

  • 序列号 12bit 每个节点每毫秒从0开始不断累加, 最多可以累加到4095, 共产生4096个id

根据机器id 和 序列号, 可以计算得到理想情况下, 每毫秒最大生成的id数量是 1024*4096, 即2^22个id

实现

Twitter源码是采用scala实现的, 这是知乎一篇专栏, 翻译了java版本的雪花算法实现

public class SnowflakeIdWorker {
    /**
     * 开始时间截 (2015-01-01)
     */
    private final long twepoch = 1420041600000L;
    /**
     * 机器id所占的位数
     */
    private final long workerIdBits = 5L;
    /**
     * 数据标识id所占的位数
     */
    private final long datacenterIdBits = 5L;
    /**
     * 支持的最大机器id,结果是31 (这个移位算法可以很快的计算出几位二进制数所能表示的最大十进制数)
     */
    private final long maxWorkerId = -1L ^ (-1L << workerIdBits);
    /**
     * 支持的最大数据标识id,结果是31
     */
    private final long maxDatacenterId = -1L ^ (-1L << datacenterIdBits);
    /**
     * 序列在id中占的位数
     */
    private final long sequenceBits = 12L;
    /**
     * 机器ID向左移12位
     */
    private final long workerIdShift = sequenceBits;
    /**
     * 数据标识id向左移17位(12+5)
     */
    private final long datacenterIdShift = sequenceBits + workerIdBits;
    /**
     * 时间截向左移22位(5+5+12)
     */
    private final long timestampLeftShift = sequenceBits + workerIdBits + datacenterIdBits;
    /**
     * 生成序列的掩码,这里为4095 (0b111111111111=0xfff=4095)
     */
    private final long sequenceMask = -1L ^ (-1L << sequenceBits);
    /**
     * 工作机器ID(0~31)
     */
    private long workerId;
    /**
     * 数据中心ID(0~31)
     */
    private long datacenterId;
    /**
     * 毫秒内序列(0~4095)
     */
    private long sequence = 0L;
    /**
     * 上次生成ID的时间截
     */
    private long lastTimestamp = -1L;
    /**
     * 构造函数
     * @param workerId     工作ID (0~31)
     * @param datacenterId 数据中心ID (0~31)
     */
    public SnowflakeIdWorker(long workerId, long datacenterId) {
        if (workerId > maxWorkerId || workerId < 0) {
            throw new IllegalArgumentException(String.format("worker Id can't be greater than %d or less than 0", maxWorkerId));
        }
        if (datacenterId > maxDatacenterId || datacenterId < 0) {
            throw new IllegalArgumentException(String.format("datacenter Id can't be greater than %d or less than 0", maxDatacenterId));
        }
        this.workerId = workerId;
        this.datacenterId = datacenterId;
    }
    /**
     * 获得下一个ID (该方法是线程安全的)
     * @return SnowflakeId
     */
    public synchronized long nextId() {
        long timestamp = timeGen();
        // 如果当前时间小于上一次ID生成的时间戳,说明系统时钟回退过这个时候应当抛出异常
        if (timestamp < lastTimestamp) {
            throw new RuntimeException(
                    String.format("Clock moved backwards.  Refusing to generate id for %d milliseconds", lastTimestamp - timestamp));
        }
        // 如果是同一时间生成的,则进行毫秒内序列
        if (lastTimestamp == timestamp) {
            sequence = (sequence + 1) & sequenceMask;
            // 毫秒内序列溢出
            if (sequence == 0) {
                //阻塞到下一个毫秒,获得新的时间戳
                timestamp = tilNextMillis(lastTimestamp);
            }
        }
        // 时间戳改变,毫秒内序列重置
        else {
            sequence = 0L;
        }
        // 上次生成ID的时间截
        lastTimestamp = timestamp;
        // 移位并通过或运算拼到一起组成64位的ID
        return ((timestamp - twepoch) << timestampLeftShift) //
                | (datacenterId << datacenterIdShift) //
                | (workerId << workerIdShift) //
                | sequence;
    }
    /**
     * 阻塞到下一个毫秒,直到获得新的时间戳
     * @param lastTimestamp 上次生成ID的时间截
     * @return 当前时间戳
     */
    protected long tilNextMillis(long lastTimestamp) {
        long timestamp = timeGen();
        while (timestamp <= lastTimestamp) {
            timestamp = timeGen();
        }
        return timestamp;
    }
    /**
     * 返回以毫秒为单位的当前时间
     * @return 当前时间(毫秒)
     */
    protected long timeGen() {
        return System.currentTimeMillis();
    }

    public static void main(String[] args) throws InterruptedException {
        SnowflakeIdWorker idWorker = new SnowflakeIdWorker(0, 0);
        for (int i = 0; i < 10; i++) {
            long id = idWorker.nextId();
            Thread.sleep(1);
            System.out.println(id);
        }
    }
}

特点

  • 强调一下, snowflake在单机上严格递增, 但在集群上, 是趋势递增的,
  • twepoch 是指定服务开始时间, 有 timestamp - twepoch 计算, 可以使该服务用更久
  • 单机支持每毫秒最大4096个序列号
  • 机器位可以指定, datacenter 和 worker的大小, 可以是一个机房 1024个机器, 也可以是32个机房, 每个机房32个机器
  • 避免时间回拨问题, 通过比较 timestamp < lastTimestamp 判断是否发生时间回拨.
    • 时间回拨较小的话, 可以不生成ID, 循环等待到lastTimestamp时间点到达
    • 间隔过大的话, 可以直接报错拒绝服务, 或者 预留额外的位数(从序列号或者机器id中留出), 在时间回拨时, 该位+1
  • 前端精度丢失, js支持的number范围 小于 雪花算法生成的最大范围, 所以如果返回给前端, 需要先转string