那么我为什么要写这篇文章呢?

是因为我认为NoSQL解决方案不如RDBMS解决方案吗?当然不!

是因为我专注于SQL的做事方式,而不想陷入一种相对较新的技术的不确定性吗?不,也不是!事实上,我非常兴奋地学习和使用各种分布式数据库提供的设施。

那我为什么要写这个?

原因很简单——几年前,我见证了设计一个为遥测事件提供模式管理设施的系统。事实证明,这比最初计划的要昂贵得多。为什么呢?因为选择了错误的数据库解决方案。

这个系统的一个要求是确保模式编辑是一致的,并且模式的最新版本被显示给每个模式编辑器。它还应该支持并发编辑。

此外,同时访问这个系统的用户数量永远不会超过几百个。存储的数据量不会是Tb级——最多几百Gb。

因此,如果我们考虑了CAP定理的权衡,那么选择应该是显而易见的——使用RDBMS。这样做的好处是支持系统的一致性和事务支持需求。

相反,选择了NoSQL数据库(Azure表存储)来进行原型设计。这一选择的官方原因是,它使原型设计更快,并提供了更大的灵活性,同时更新了单个遥测事件的模式。与Azure SQL相比,Azure表存储的低成本被认为是另一个原因。

快进5个月……

该系统开始经历许多关于维护CRUD操作完整性的问题。设计用来处理事务的瘦应用程序逻辑层已经不再那么薄了。升级和向后兼容性的故事开始变得更加复杂。

由于受到许多其他问题的困扰,工程师们又回到了绘图板——这次是用Azure SQL替换存储层!我不记得具体的细节,但是这个改变增加了大约40%的额外时间和成本。

管理层很不高兴,这个项目几乎被砍掉了。但是团队的工程师们非常优秀,他们能够完成这个项目,尽管有了一些延迟和最初的错误的技术决定。

这个项目有一个圆满的结局——但它也可能不是这样的。事实上,很多内部项目都被关闭了,因为他们不能在承诺的日期范围内交付承诺的功能。

那么,您如何知道NoSQL解决方案适合您的下一个软件项目呢?首先问问你自己和你的团队这十个问题:

#1:您是否准备好接受开发人员/系统管理员的培训成本?

如果你是一家成熟的IT软件开发公司,那么你很有可能已经有了熟悉SQL的人。这个组不仅包括开发人员,还包括数据库管理员(DBA)。

除非您打算为新的NoSQL项目进行招聘,否则将会有对现有开发人员和DBA的培训成本。额外的培训也可能会延长项目交付日期。

一种简单的思考方式是:

  • 计算您的团队成员(开发人员和DBA)拥有关系数据库技术的总年数。

  • 计算出通过培训或新招聘获得经验相同NoSQL经验年数的成本。

  • 最后,弄清楚你从这个成本中得到了什么。你的投资回报率?

在这个特定的项目中,这个团队的开发人员以前都没有NoSQL经验,但是有大量的SQL Server经验。使用NoSQL解决方案在培训中增加了大约1个sprint,当然,这也是由于缺乏经验和设计上的失误。

#2:您的数据事务是基于什么?或者,您需要什么级别的事务支持?

如果您的系统需要ACID属性,那么您最好还是坚持使用RDBMS解决方案。否则,您将花费大量的时间试图在您的应用程序/业务逻辑层复制ACID保证,并且您可能仍然没有RDBMS解决方案那么高效。

#3: 您需要Web/高可伸缩性吗?

总是在先计算出您需要什么样的可伸缩性。在这个特殊的例子中,我们正在为微软内部游戏工作室构建系统。

  • 有10到15个游戏工作室正在考虑中——这取决于有多少注册用户使用这个系统

  • 每个工作室最多有3-5个活跃的游戏标题。

  • 每个游戏标题为三个环境存储遥测模式——开发、预生产(PPE)和生产

  • 对于每个标题,将会有2-5个数据科学家同时修改游戏标题数据

  • 每一个标题事件都有大约50 KB的max事件数据

  • 我们被要求存储所有的版本——我们估计这个数字是1000除以一个标题的生命周期

有了以上粗略的估计,我们就可以计算并发性和存储需求:

总并发数 = 工作室数量 * 标题数量每工作室 * 用户数量每标题

=  15 * 5 * 5 = 375 并发用户

最大存储 =  工作室数量 * 标题数量每工作室 * 环境数量 * 事件存储大小每版本* 需要存储的版本数

= 15 * 5 * 3 * 50 KB * 1000 = 11250000 KB = 11.25 GB最大存储

SQL Azure支持1024个并发打开连接,并且能够很容易地支持并发需求。另外,在考虑云计算时,11.25 GB实际上是一个非常小的数字。

这个系统并不是下一个FaceBook或必应——那么NoSQL的路线真的值得吗?

#4:NoSQL解决方案真的能帮你省钱吗?

在纸面上,Azure表存储是一种更便宜的选择,因为它的每Gb数据仅为美分,而SQL Azure则在此期间收取大约5美元的数据。

但是因为我们系统的存储空间不会超过12 GB——这真的很重要吗?每月60美元是我们在同一个系统上花30分钟写代码的钱。

因此,在决定使用NoSQL仅仅是因为它的单位成本更低之前,先弄清楚节省下来的钱是否占了预算的很大一部分。

#5:你需要吸引风险投资吗?

有趣的是,硅谷对NoSQL有偏见。这是因为感觉上NoSQL被认为具有内在的可伸缩性,并且RDBMS被认为是不可伸缩的。记住,关键字是“感觉上”!

这种可扩展性的感觉可能会让投资者相信,你的软件正处于正确的轨道上,准备好接受大规模的采用,从而吸引他们的投资资金。

许多NoSQL公司本身就是风投公司,这也给他们带来了积极的偏见。

最后,围绕“NoSQL”的所有营销活动都有助于推动投资者对你的产品的正面情绪。

#6:你是在雇佣创业精神的人吗?

如果你打算雇佣创业精神的人,他们中的很多人可能已经有NoSQL的知识了。

然而,如果你不在一个主要的科技中心,那么获得这些人才的机会就很少了。您所在的区域可能有一个现成的RDBMS开发人员池——试图在这样的区域中招募NoSQL工程师和DBA可能会延迟项目交付日期,并且由于供应需求曲线,也会花费您更多的钱。

我的建议是与你的招聘机构/人力资源部门合作,对开发者进行市场调查,并将其纳入你的技术选择中。

#7:你的客户在下游使用什么技术?

考虑这样一个场景:您向客户交付分析数据。您正在使用NoSQL来存储分析数据。然而,您的一个客户决定坚持使用基于SQL的报告系统。

这对你来说意味着什么?

这意味着您现在需要将所有NoSQL数据转换为SQL格式,并通过Azure数据工厂等服务将其向下推到客户的SQL数据库。这是您需要承担额外的开发和运营成本。如果您的所有下游客户都在使用SQL,那么您需要认真地考虑是否使用NoSQL和做所有这些昂贵的数据转换对您的系统有意义吗?

#8:对于你的产品,可用性是否胜过一致性?

如果你正在建立一个像Facebook newsfeed这样的系统,你可能会希望这个系统是高可用性的,并且是最终一致。

另一方面,如果您正在构建一个银行系统(或者像我们的案例那样的模式存储),您可能希望支持强一致性,并放弃高可用性。

无论采用哪种方式,您都应该首先考虑CAP定理的含义,然后决定您的系统是否需要SQL或NoSQL解决方案。

#9:您是否预期对数据库模式进行大量更改?

如果您期望对数据库模式进行大量更改,就像移动应用程序、实时分析、内容管理系统等经常发生的情况一样,那么NoSQL解决方案可能就是一种方法。

您可以使用一个分区方案,它允许您以一种比大多数SQL数据库允许的更方便的方式更新您的数据库模式。

#10:你想用NoSQL来获得个人的充实/满足吗?

请不要这样做!

我曾见过一些人,他们只是迷恋于学习一个NoSQL系统,并将其放入他们的简历中。这并没有什么错——我对NoSQL技术也很着迷。

但是,请不要让这成为选择技术堆栈背后的驱动因素(有意识的或下意识的)。如果你愿意的话,你可以在自己的时间里学习。

谁赢得了数据库战争?

坦率地说 – 没有哪个玩家能赢者通吃!

在很多情况下,您可能需要SQL和NoSQL技术在同一系统中并存。例如,如果您正在构建像Instagram这样的照片共享应用程序,则您的照片可能位于NoSQL数据库中,而您的登录/ ACL信息可能位于SQL数据库中。

英文:Deb Haldar,翻译:开源中国

出处:www.oschina.net/translate/10-questions-to-ask-yourself-before-choosing-a-nosql-database

说了这么多我只要你关注我

选择 NoSQL 需要考虑的 10 个问题的更多相关文章

  1. 保护嵌入式802.11 Wi-Fi设备时需要考虑的10件事

    保护嵌入式802.11 Wi-Fi设备时需要考虑的10件事 10 things to consider when securing an embedded 802.11 Wi-Fi device 随着 ...

  2. 选择 NoSQL 数据库需要考虑的 10 个问题

    那么我为什么要写这篇文章呢? 是因为我认为NoSQL解决方案不如RDBMS解决方案吗?当然不! 是因为我专注于SQL的做事方式,而不想陷入一种相对较新的技术的不确定性吗?不,也不是!事实上,我非常兴奋 ...

  3. 如何选择NoSql数据库

    How to choose a No Sql database 介绍了一下怎么选择一个No Sql数据库,下面简单翻译一下重点. No Sql的数据库可以分为如下4类: Key-Value数据库 数据 ...

  4. 关于 NoSQL 数据库你应该了解的 10 件事

    四分之一个世纪以来,关系型数据库(RDBMS)一直是主流数据库模型.但是现在非关系型数据库,“云”或者“NoSQL”数据库,正在作为一种替代数据库模型获得越来越多的占有率.本文中我们将关注非关系型 N ...

  5. 选择高性能NoSQL数据库的5个步骤

    来源:Redislabs作者:Shabih Syed 翻译:Kevin (公众号:中间件小哥) 构建在线和运营应用程序的开发团队越来越多地选择一类新的数据库来支持它们.它被称为“NoSQL”或“Not ...

  6. [No0000195]NoSQL还是SQL?这一篇讲清楚

    随着大数据时代的到来,越来越多的网站.应用系统需要支撑海量数据存储,高并发.高可用.高可扩展性等特性要求. 传统的关系型数据库在应付这些已经显得力不从心,并暴露了许多难以克服的问题. 由此,各种各样的 ...

  7. 云计算背后的秘密:NoSQL诞生的原因和优缺点

    转载收藏一篇对nosql讲解的比较全面的文章:http://blog.csdn.net/xlgen157387/article/details/47908797 这篇文章将和大家聊聊为什么NoSQL会 ...

  8. 22-MySQL DBA笔记-其他产品的选择

    第22章 其他产品的选择 本章将为读者介绍其他的数据库产品,主要是NoSQL产品的选择.读者在熟悉MySQL之外,也应该了解其他的数据库产品.本章的目的是给读者一个引导,如何选择一些NoSQL产品,而 ...

  9. 什么时候该用NoSQL?

    : 杂谈   NoSQL这两年越来越热,尤其是大型互联网公司非常热衷这门技术.根据笔者的经验,并不是任何场景,NoSQL都要优于关系型数据库.下面我们来具体聊聊,什么时候使用NoSQL比较给力: 1) ...

随机推荐

  1. 基本的bash shell

    一.linux文件系统 linux文件系统结构是从Unix文件结构演进过来的.在linux文件系统中,通用的目录名用于表示一些常见的功能.如下表列出一些较为常见的Linux顶层虚拟目录名及其内容. / ...

  2. linux网络子系统调优

  3. 阿里云搭建香港代理服务器 shadownsocks

    阿里云香港代理服务器搭建方式: 1.阿里云官网购买轻量级服务器即可,流量,配置套餐自己选择,CENTOS7,进入控制台后打开端口管理列表,打开9000即可. 2.安装shadownsocks服务端: ...

  4. python实现简单接口

    接口实现 import flask,json server=flask.Flask(__name__)#__name__代表当前的python文件.把当前的python文件当做一个服务启动 @serv ...

  5. tensorflow的boolean_mask函数

    在mask中定义true,保留与其进行运算的tensor里的部分内容,相当于投影的功能. mask与tensor的维度可以不相同的,但是对应的长度一定要相同,也就是要有一一对应的部分: 结果的维度 = ...

  6. zookeeper,通过python连接找出其对应的hive

    #通过zookpeer找到对应的hive from kazoo.client import KazooClient zkClient = KazooClient(hosts="ip1:218 ...

  7. equals区别==

    来自:https://blog.csdn.net/m0_37721946/article/details/78405595 java中的数据类型,可分为两类: 1.基本数据类型 byte,short, ...

  8. 51nod 1661: 黑板上的游戏(sg函数 找规律)

    题目链接 先打一个sg函数的表,找找规律,发现sg函数可以递归求解 打表代码如下 #include<bits/stdc++.h> using namespace std; typedef ...

  9. php pi()函数 语法

    php pi()函数 语法 pi()函数是什么意思? php pi()函数用于获取圆周率值,语法是pi(),这个函数只是单纯的用来获取圆周率值深圳大理石平台 作用:获取圆周率值 语法:pi() 参数: ...

  10. 求1+2+3.。。。n的和

    思路: 利用递归累加,逻辑运算符的短路运算. class Solution { public: int Sum_Solution(int n) { int result=n; result & ...