如何设计一个 TinyURL 系统

基本需求

TinyURL 就是将一个长度很长的 URL 缩短，短 URL 更容易在短息或者基础通知中展示。

简单分析

涉及的接口有两个，申请短链的接口，短链转化的接口。

申请短链的接口，就是将长链映射到一个短链上，需要注意短链不能重复。

短链转化的接口就是将短链重新转化成长链，并进行重定向。

重定向类型

HTTP 的重定向状态码有 302 和 301 两种，301 是永久重定向，302 是临时重定向。

使用 301 的好处是大部分的浏览器会缓存该种重定向的映射关系，对于下次请求可以直接转发到目标 URL，相对于 302 来说对服务端压力更小，速度更快。

一般情况下都更倾向于使用 301 进行转发。

如果存在请求数的统计，需要切换到 302。

长短映射逻辑

选择 MySQL 作为具体的保存方式。

对短链 short_url 加唯一索引，确保短链的唯一性。

如果要求严格的一一对应的关系，不希望一个长链对应多个短链，那就对长短双链两个字段各自加唯一索引。

唯一索引会降低些许的写入性能，但是应该在接受的范围之内。

映射算法

映射最先想到的肯定是 Hash 算法。

最基础的方法就是将长链做 Hash，可以使用 MurmurHash 算法（Google 大佬开源的非加密型 Hash 算法），对于 MD5，SHA 等其他 Hash 算法有更强的随机性。

所有实现映射的流程如下：

使用 MurmurHash 算法对长链做摘要，得到之后的短链
将长链和短链写入 DB，如果遇到唯一键冲突一异常，则跳回第一步
写入成功，返回短链

对以上过程优化，就使用布隆过滤器，在入库前先判断一遍短链是否已经存在。

布隆过滤器存在误判的情况，但是只可能误判不存在，对于此处来说就是多执行几次 MurmurHash 的事情。

布隆过滤器是一种非常省内存的数据结构，长度为 10 亿的布隆过滤器，只需要 125 M 的内存空间。

除了 Hash 算法，另外就是采用发号器形式，从统一的发号服务中获取唯一序列。

业内开源的发号系统有以下几种：

SnowFlake（Twitter 开源）
Leaf（美团开源）
TinyId（滴滴开源）

不好意思，以上的都没了解过，XD。

除了以上的方法还可以用 Redis 以及 MySQL 的主键自增，个人可能更喜欢使用 MySQL 的自增主键多一点。

如果感觉频繁写入性能太差，可能使用分表，每个表都可以分配一段主键 ID。

例如，我分16张表后，可以设置第一个表从1开始递增，第二个表从10000开始递增，如此实现多表的唯一。

或者新增一张号段表，使用 CAS 的更新方式去获取号段。

短链转长链请求

该请求逻辑非常简单，短链到长链就是一个简单的映射查询。

可以使用本地和 Redis 的多级缓存，提高接口的性能，获取长链的时间复杂度接近O(1)。

短链15分钟失效

类似超过30分钟不付款就取消订单的需求，但是这个失效不需要主动触发。

短链的失效可以在下次查询时通知，是否需要再次生成短链或者直接抛出异常根据需求定。

如果需要主动失效，可以使用以下几种方法：

数据库轮询，可以由 XXL-JOB 等定时器触发
RabbitMQ 定时消息插件
本地定时，可以使用 JDK 的延时队列或者 Netty 的时间轮
Redis + XXL-JOB 的定时，避免数据库的轮询将过期事件放入 ZSET，由 XXL-JOB 触发定时，查询当前时间之前的短链，然后执行过期。

如何设计 TinyURL 系统