2015年数据库分库分表(sharding).pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《2015年数据库分库分表(sharding).pdf》由会员分享,可在线阅读,更多相关《2015年数据库分库分表(sharding).pdf(27页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、一 基本思想Sharding的基本思想就要把一个数据库切分成多个部分放到不同的数据库(server)上,从而缓解单一数据库的性能问题。对于海量数据的数据库,如果是因为表多而数据多,这时候适合使用垂直切分,即把关系紧密(比如同一模块)的表切分出来放在一个服务器上。如果表并不多,但每张表的数据非常多,这时候适合水平切分,即把表的数据按某种规则(比如按工D散 列)切分到多个数据库(server)上。根据实际情况做出选择,也可能会综合使用垂直与水平切分。1、垂直切分数据的垂直切分,也可以称之为纵向切分。将数据库想象成为由很多个一大块一大块的 数据块(表)组 成,我们垂直的将这些数据块切开,然后将他们分
2、散到多台数据库主机上面,这样的切分方法就是一个垂直(纵 向)的数据切分。系统功能可以基本分为以下四个功能模块:用户、群组消息、相册以及事件,分别对应为如下这些表:1.用 户 模 块 表 user、user_profile、user_group、user_photo_album2.群组讨论表 groups、group_messagex group_message_contentxtop_message3.相册相关表 photo、photo_albumx photo_album_relationxphoto_comment4.事件信息表event模块之间的关系:1.群组讨论模块和用户模块之间主要存
3、在通过用户或者是群组关系来进行关联。一般关联的时候都会是通过用户id或者nick_name以及group的 id来进行关联,通过模块之间的接口实现不会带来太多麻烦。2.相册模块仅仅与用户模块存在通过用户的关联。这两个模块之间的关联基本就有通过用户id关联的内容,简单清晰,接口明确。3.事件模块与各个模块可能都有关联,但是都只关注其各个模块中对象的信息工 D,同样可以做到很容易分拆。所以,我们第一步可以将数据库按照功能模块相关的表进行一次垂直拆分,每个模块涉及的表单独到一个数据库中,模块与模块之间的表关联都在应用系统端通过接口来处理。如下图所示:Application Servers通过这样的垂
4、直切分之后,之前只能通过一个数据库来提供的服务,就被分拆成四个数据库来提供服务,服务能力自然是增加几倍了。垂直切分的优点 数据库的拆分简单明了,拆分规则明确 应用程序模块清晰明确,整合容易 数据维护方便易行,容易定位垂直切分的缺点 部分表关联无法在数据库级别完成,需要在程序中完成 对于访问极其频繁且数据量超大的表仍然存在性能平静,不一定能满足要求 事务处理相对更为复杂 切分达到一定程度之后,扩展性会遇到限制 过度切分可能会带来系统过渡复杂而难以维护2、水平切分数据的水平切分,一般来说,简单的水平切分主要是将某个访问极其平凡的表再按照某个字段的某种规则来分散到多个表之中,每个表中包含一部分数据。
5、简单来说,我们可以将数据的水平切分理解为是按照数据行的切分,就是将表中的某些行切分到一个数据库,而另外的某些行又切分到其他的数据库中。对于我们的示例数据库来说,大部分的表都可以根据用户ID 来进行水平的切 分,不同用户相关的数据进行切分之后存放在不同的数据库中。如将所有用户ID 通 过 2 取 模,然后分别存放于两个不同的数据库中,每个和用户ID 关联上的表都可以这样切分。这样,基本上每个用户相关的数据,都在同一个数据库中,即使是需要关联,也可以非常简单的关联上。我 们 可 以 通 过 下 图 来 更 为 直 观 的 展 示 水 平 切 分 相 关 信 息:Application Server
6、suser_id%5=0user_id%5=1userjd%5=3 _ _ _ _ _二 二 _ 闩userjd%5=4L_ _ _ _;J水平切分的优点 表关联基本能够在数据库端全部完成 不会存在某些超大型数据量和高负载的表遇到瓶颈的问题 应用程序端整体架构改动相对较少 事务处理相对简单 只要切分规则能够定义好,基本上较难遇到扩展性限制水平切分的缺点 切分规则相对更为复杂,很难抽象出一个能够满足整个数据库的切分规则后期数据的维护难度有所增加,人为手工定位数据更困难应用系统各模块耦合度较高,可能会对后面数据的迁移拆分造成一定的困难3、垂直与水平联合切分一般来说,我们数据库中的所有表很难通过某一
7、个(或少数几个)字段全部关联起来,所以很难简单的仅仅通过数据的水平切分来解决所有问题。而垂直切分也只能解决部分问题,对于那些负载非常高的系统,即使仅仅只是单个表都无法通过单台数据库主机来承担其负载,我们必须结合 水平 和 垂直 两种切分方式同时使用,充分利用两者的优点,避开其缺点。每一个应用系统的负载都是一步一步增长上来的,在开始遇到性能瓶颈的时候,大多数架构师和DBA都会选择先进行数据的垂直拆分,然 而,随着业务的不断扩张,系统负载的持续增长,在系统稳定一段时期之后,经过了垂直拆分之后的数据库集群可能又再一次不堪重负,遇到了性能瓶颈。这时候我们就必须要通过数据的水平切分的优势,来解决这里所遇
8、到的问题。对于我们的示例数据库,假设在最开始,我们进行了数据的垂直切分,然而随着业务的不断增长,数据库系统遇到了瓶颈,我们选择重构数据库集群的架构。如何重构?考虑到之前已经做好了数据的垂直切分,而且模块结构清晰明确。而业务增长的势头越来越猛,即使现在进一步再次拆分模块,也坚持不了太久。我们选择了在垂直切分的基础上再进行水平拆分。在经历过垂直拆分后的各个数据库集群中的每一个都只有一个功能模块,而每个功能模切中的所有表基本上都会与某个字段进行关联。如用户模块全部都可以通过用户ID 进行切分,群组讨论模块则都通过群组I D 来 切 分,相册模块则根 据 相 册 I D 分,最后的事件通知信息表考虑到
9、数据的时限性(仅仅只会访问最近某个事件段的信息),则考虑按时间来切分。下图展示了切分后的整个架构:Application Servers在应对不同的应用场景的时候,也需要充分考虑到这两种切分方法各自的局限,以及各自的优势,在不同的时期(负载压力)使用不同的结合方式。联合切分的优点可以充分利用垂直切分和水平切分各自的优势而避免各自的缺陷让系统扩展性得到最大化提升联合切分的缺点数据库系统架构比较复杂,维护难度更大应用程序架构也相对更复杂二、拆分实施策略和示例演示第一部分:实施策略1.准备阶段对数据库进行分库分表(Sharding化)前,需要充分了解系统业务逻辑和数据库schema.绘制一张数据库E
10、R图,以图为基础划分shard,直 观 易 行,可以确保清醒思路。2.分析阶段1.垂直切分垂直切分的依据原则是:将业务紧密,表间关联密切的表划分在一起,例如同一模块的表。结合已经准备好的数据库ER图或领域模型图,仿照活动图中的泳道概念,一个泳道代表一个shard,把所有表格划分到不同的泳道中。下面的分析示例会展示这种做法。这种方式多个数据库之间的表结构不同。2 .水平切分垂直切分后,需 要 对 shard内表格的数据量和增速进一步分析,以确定是否需要进行水平切分。这些数据库中的表结构完全相同。2.1 若划分到一起的表格数据增长缓慢,在产品上线后可遇见的足够长的时期内均可以由单一数据库承载,则不
11、需要进行水平切分,所有表格驻留同一shard,所有表间关联关系会得到最大限度的保留,同时保证了书写SQL的自由度,不易受join、group by、order b y 等子句限制。2.2 若划分到一起的表格数据量巨大,增 速 迅 猛,需要进一步进行水平分割。进一步的水平分割就这样进行:2.2.1 结合业务逻辑和表间关系将当前shard划分成多个更小的shard,通常情况下,这些更小的shard每一个都只包含一个主表(将以该表工D 进行散列的表)和多个与其关联或间接关联的次表。这种一个shard 一张主表多张次表的状况是水平切分的必然结果。这样切分下来,shard数量就会迅速增多。如果每一个sh
12、ard代表一个独立的数据库,那么管理和维护数据库将会非常麻烦,而且这些小shard往往只有两三张表,为此而建立一个新库,利用率并不高,因此,在水平切分完成后可再进行一次 反向的Merge,即:将业务上相近,并且具有相近数据增长速率(主表数据量在同一数量级上)的两个或多个shard放到同一个数据库上,在逻辑上它们依然是独立的shard,有各自的主表,并依据各自主表的ID进行散列,不同的只是它们的散列取模(即节点数量)必需是一致的。这样,每个数据库结点上的表格数量就相对平均了。2.2.2所有表格均划分到合适的shard之后,所有跨越shard的表间关联都必须打断,在书写sql时,跨 shard的
13、join、group by、order by都将被禁止,需要在应用程序层面协调解决这些问题。3.实施阶段如果项目在开发伊始就决定进行分库分表,则严格按照分析设计方案推进即可。如果是在中期架构演进中实施,除搭建实现sharding逻辑的基础设施外,还需要对原有SQL逐一过滤分析修改那些因为sharding而受到影响的sql0第二部分:示例演示以下使用jpetstore(宠物店的电子商务系统)来演示如何进行分库分表(sharding)在分析阶段的工作。j pet store来自原ibatis官方的一个Demo版 本,SVN地址为:http:/ ava_release_2.3.4-726/jpets
14、tore-5由于系统较简单,我们很容易从模型上看出,其主要由三个模块组成:用 户,产品和订单。那么垂直切分的方案也就出来了。接下来看水平切分,如果我们从一个实际的宠物店出发考虑,可能出现数据激增的单表应该是Account和Order,因此这两张表需要进行水平切分。对 于Product模 块 来 说,如果是一个实际的系统,Product和Item的数量都不会很大,因此只做垂直切分就足够了,也 就 是(Product,Category,Item,Iventory,Supplier)五张表在一个数据库结点上(没有水平切分,不会存在两个以上的数据库结点)。但是作为一个演示,我们假设产品模块也有大量的数
15、据需要我们做水平切分,那么分析来看 这个模块要拆分出两个shard:一个是(Product(主),Category),另一个是(Item(主),Iventory,Supplier),同 时,我们认为:这两个shard 在数据增速上应该是相近的,且在业务上也很紧密,那么我们可以把这两 个shard放在同一个数据库节点上,Item和Product数据在散列时取一样的模。根据前文介绍的图纸绘制方法,我们得到下面这张sharding示 意 图:对于这张图再说明几点:1.使用泳道表示物理shard(一个数据库结点)2.若垂直切分出的shard进行了进一步的水平切分,但公用一个物理shard的话,则用虚线
16、框住,表示其在逻辑上是一个独立的shard。3.深色实体表示主表4 .X表示需要打断的表间关联三、全局主犍生成策略一旦数据库被切分到多个物理结点上,我们将不能再依赖数据库自身的主键生成机制。一方面,某个分区数据库自生成的ID无法保证在全局上是唯一的;另一方面,应用程序在插入数据之前需要先获得工D,以便进行SQL路由。flickr开发团队在2 010年撰文介绍了 flickr使用的一种主键生成测策略,同时表示该方案在flickr上的实际运行效果也非常令人满意,它与一般Sequence表方案有些类似,但却很好地解决了性能瓶颈和单点问题,是一种非常可靠而高效的全局主键生成方案。App ServerR
17、EPLACE INTO Sequence(stub)VALUES(才);SELECT LASTJNSERT_ID();auto-increment-offset 1 auto-increment-offset 2auto-increment-increment 2 auto-increment-increment 2Sequence Server 1Sequence Server 2httpVZbl 如:如果我们设置两台数据库ID生成服务器,那么就让一台的Sequence表的工D起始值为1,每次增长步长为2,另一台的Sequence表的ID起始值为2,每次增长步长也为2,那么结果就是奇数的ID
18、都将从第一台服务器上生成,偶数的工D都从第二台服务器上生成,这样就将生成ID的压力均匀分散到两台服务器上,同时配合应用程序的控制,当一个服务器失效后,系统能自动切换到另一个服务器上获取ID,从而保证了系统的容错。关于这个方案,有几点细节这里再说明一下:1.flickr的数据库ID生成服务器是专用服务器,服务器上只有一个数据库,数据库中表都是用于生成Sequence的,这也是因为auto-increment-of f set 和 auto-increment-increment 这两个数据库变量是数据库实例级别的变量。2.f lickr的方案中表格中的stub字段只是一个char(1)NOT N
19、ULL存根字段,并非表名,因此,一般来说,一个Sequence表只有一条纪录,可以同时为多张表生成工D,如果需要表的工D 是有连续的,需要为该表单独建立Sequence表。3.方案使用了 mysql的 LAST_INSERT_ID()函数,这也决定了Sequence表只能有一条记录。4.使 用 REPLACE INTO插入数据,这是很讨巧的作法,主要是希望利用mysql自身的机制生成工D,不仅是因为这样简单,更是因为我们需要ID按照我们设定的方式(初值和步长)来生成。5.SELECT LAST_ 1NSERT_工 D()必须要于 REPLACE INTO 语句在同一个数据库连接下才能得到刚刚插
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2015 数据库 分库分表 sharding
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内