阿里巴巴分布式数据库服务DRDS研发历程

CSDN · 公众号 · 科技媒体 · 2017-01-18 10:48

正文

请到「今天看啥」查看全文

DRDS/TDDL的功能特性

数据分片

DRDS的基础原理就是Sharding，也就是数据分片。将单机数据库的数据拆分到多个单机数据库上，对外保持逻辑的一致性。后端拆分的数据库为分库，对应的表称为分表，每个分库负责一份数据的读写操作，分散整体访问压力。在系统扩容时，只需水平增加分库数量，并迁移相关数据，即可提高DRDS系统总体容量。

图 2

数据分片需要选择一个分片的拆分纬度，也就是数据分布的依据。比如一个用户订单信息表，如果按照订单ID做数据拆分，那么相同订单ID的数据就会被拆分到同一个数据库存储节点，如果按照用户ID做数据拆分，那么同一个用户的订单就会分布到同一个数据库存储实例的存储节点。

拆分纬度的选择非常重要，一般来说要根据实际业务的场景选择拆分键，总体指导原则是尽量保证每一个数据库节点的数据量和负载更均衡，单条SQL操作尽量落到单个数据库节点执行，不同SQL的查询落到不同的数据库节点。这样可以减少多个节点之间的网络传输，保持分布式查询的效率，均衡负载的同时也便于扩展。

平滑扩容

数据库的扩容是数据库运维的常见操作，当数据库的数据存储容量不足时，传统的单机数据库需要提升单机的存储空间来支持更大的数据写入量，而随着数据量膨胀，同样的SQL查询语句，查询的基础数据量增加必然会降低查询效率；同时随着数据量增加，数据库的访问压力通常也会成倍提升，造成单机数据库连接数到达极限，此时单机数据库就需要通过升级硬件规格，使用磁盘阵列，使用高端的存储介质设备和更高端的小型机服务器来承载数据量和访问量的增加，这个过程会伴随大量的数据迁移，为了保证数据的一致性通常需要停机数据迁移，对业务影响较大。

图 3

DRDS的分布式架构采用平滑扩容的方式来解决上述问题，通过增加更多的底层数据库实例来完成整体集群扩容。

平滑扩容的前提是用户需要按照前述的分库分表逻辑，将逻辑数据库拆分为多个物理分库，不同的分库落在不同的底层物理数据库机器上。分库分表的数量通常建议用户预估未来3-5年的数据量增长情况，按照这个数据量计算总体数据应该拆分为多少个分库，因为单个分库的数据量通常会有一个建议值，超过这个阈值就会造成单个节点性能下降。有了具体的分库数量后，就可以按照分库的逻辑将数据拆分到不同的存储实例节点上，当承载分库的物理数据库机器出现容量和连接数不足等瓶颈问题时，就可以新增物理数据库节点，将原有的分库迁移到新的物理数据库节点上，实现整体逻辑数据库的扩容。

扩容过程实际是物理数据迁移的过程，引擎层按照分库迁移后的逻辑先在物理节点上建立新的分库，然后保留一个时间点进行全量的数据迁移。完成全量迁移后，开始基于先前保留的时间点进行增量的数据追赶。当增量数据追赶到两边的数据几乎一致时，对数据库进行瞬时停写，将最后的数据追平，引擎层进行分库逻辑的路由切换，路由规则切换完成后就完成了核心的扩容逻辑，整个切换过程在毫秒级别完成。

为了保证数据本身的安全，便于扩容回滚，在路由规格切换完成后，迁移前后的逻辑分库数据还会进行实时同步，直到业务确认后，才可清理原有分库数据。