https://news.cnblogs.com/n/581824/
投递人 itwriter 发布于 2017-11-05 16:12 评论(2) 有1566人阅读 原文链接 « »


图片来自于网络

  1、写在最前面

  某天晚上和下属一起吃晚饭,期间聊到 Netflix 技术那些大胆的创新,事后觉得有必要总结一下,给团队分享,让大家了解世界顶级的技术组织在技术、架构、组织和文化方面的创新。让大家在埋头干活的时候,偶尔也可以抬头看看天(大处着眼,小处着手)。于是就有了这篇文章。

  2、大规模生产级微服务架构实践

  微服务很多公司 (eBay, Amazon, BAT) 都有,甚至比 Netflix 做得更早,但 Netflix 大概是大规模生产级微服务做得最杰出的。

  100s 范围的微服务,1000s 范围的每日生产变更,10,000s 范围的实例,1,000,000s 范围的活跃客户数,1,000,000,000s 范围的度量。但是只有 10s 范围的运维工程师,没有自己的数据中心 NOC,应该算微服务 DevOps 的最高境界了。

  (Netflix 微服务可视化)

  3、开源整个微服务技术栈

  Netflix 微服务技术栈的核心组件基本上都是开源的。Pivotal 在 2~3 年前把 Netflix 开源的这摊东西封装一下改头换面,再拼凑一些其它东西(配置中心,调用链监控等)就变成了 Spring Cloud。现在大家耳熟能详的 Zuul 网关,Eureka 服务发现注册中心,Hystrix 熔断限流,Archaius 配置等组件,Netflix 在 2012 年左右就都开源出来了。

  Netflix 为啥热衷于要搞开源?

  • 将自己的解决方案建立为行业标准和最佳实践

  • 建立 Netflix 技术品牌

  • 雇佣、留住和吸引顶级工程师

  • 从共享生态中获得反馈输入并受益

  4、系统全部迁移 AWS 公有云

  大致在 09/10 年左右, Netflix 就开始启动上公有云战略(当然背后也是吃了自建数据中心的苦头),应用逐步向 AWS 迁移,这个过程一共持续了将近 5 年,到 15 年的时候,迁移完毕,全部应用上到 AWS。09/10 年左右的 AWS 还不太成熟,别说当时,即使现在也没有几个大公司不掂量一下敢提全部迁移公有云的战略。另外 AWS 能有今天,Netflix 也是功不可没,帮 Amazon 躺了无数的坑。

  5、在 AWS 基础上打造 PaaS 平台

  Netflix 在 AWS IAAS 的基础上封装打造了自己的 PaaS 云平台服务 (大部分组件开源),包括

  • 平台运行时服务 (Eureka,Zuul, Edda,Atlas)

  • 平台库和框架 (Karyon/Ribbon,Hystrix,RxJava, Governator,Servo, Archaius, Astyanax)

  • 平台大数据和缓存服务 (Cassandra/ES/Hadoop Platform as a Service, EVCache,S3)

  • 平台工具和服务 (Asgard/Aminator, SimianArmy/ChaosMonkey, ICE)

  业内最近开始提出云原生 (Cloud Native) 架构的理念,Pivotal 是这个理念的主要推动者(背后主要是要推它的 Cloud Foundry 产品)。其实 Netflix 在 2013 年就提出了 Cloud Native 理念,而且它的整个平台 (AWS IAAS + PaaS) 就是云原生的。

  6、两地三中心高可用

  Netflix 的高可用架构也是做得大气磅礴,同城部署 3 个对等的可用区 (AWS Availability Zone),1 个甚至 2 个挂不影响可用性。

  异地 (Regions) 再做对等部署,一个 Region 里头的 AZ 全挂,另外一个 Region 接着可用。

  7、 采用 Cassandra NoSql 作为主数据库

  Netflix 原来用 Oracle 等传统 Sql 数据库,但是受到扩展性挑战。公司架构管理层大胆颠覆性提出使用 Cassandra Nosql 作为主要的持久化存储机制,Netflix 在 2012 年就做到大部分数据存放 Cassandra 和 S3 等非关系数据库上。这个架构决策也是非常大胆有魄力,一般没有几个公司敢这么干的。Cassandra 本质上是一种 KV 数据库,更像 sorted map 存储,不支持事务,不支持 join。在 CAP 理论中,Cassandra 是展现 AP 特性,无中心分散式高可用,天然支持跨数据中心数据同步,这大概是 Netflix 最看重的特性。Cassandra 是读慢写快的特性(一般数据库是读快写慢),Netflix 大量使用 Memcached 做缓存补偿。

  Cassandra 在同城多个 Zone 之间同步数据,在异地 (Inter-Region) 之间再同步,流量到 9Gbits/s,延迟 83ms,18TB 的数据备份 (2013 年的数据)。

  8、镜像部署和发布自动刹车

  近年 docker 容器技术大火,大家都在谈不可变基础设施 (immutable infrastructure) 的理念,本质就是镜像部署。Netflix 在 2012 年前就已经实现镜像部署,发布的单位是 AMI (Amazon Machine Image) 镜像,通过持续交付工具 Asgard(现在升级版叫 Spinnaker)直接将镜像推到 AWS 云中部署,支持蓝绿(需要至少两倍虚机),灰度和金丝雀等部署模式。

  Netflix 的发布管道叫 Paved Road,就是平台团队铺好的路,由提交,构建,AMI 镜像烘焙 (Image Baking) 和发布四个阶段组成。

  金丝雀发布之后,系统会自动生成金丝雀健康报告和分数(背后需要统计上千个 metrics + 复杂智能算法),达到一定的分数 (比如 80 分),才能继续 roll out。这个也称发布自动刹车。

  9、反脆弱架构

  Netflix 大胆提出反脆弱架构的理念(架构师受到尼古拉斯·塔勒布《反脆弱》一书的启发,并将其应用到架构领域):为了让你的系统更加健壮,不是将它们严格保护起来,而是主动随机性地增加一些破坏性测试,逼迫研发人员做好高可用。

  Netflix 从周一至周五,上午 9 点到下午 3 点,混乱猴子军团会随机杀生产实例,这个叫 Chaos Monkey,还有增加延迟的 Latency Monkey。

  还有 Chaos Gorilla 可以杀整个可用区 (Availability Zone),Chaos Kong 杀整个 Region。据说 Netflix 曾主动关闭一个可用区,客户没有任何影响。

  国内一些互联网公司也有演习和自攻一说,但基本都是提前打招呼的,规模一般也不大,Netflix 是随机不打招呼玩真的。

  10、 几乎没有流程,没有员工手册

  Netflix 是一家高度重视人才密度,重自由和责任文化,轻流程的公司。公司没有正式的员工手册,只有一条简单的指导原则:

  Act in Netflix’s best interest,以 Netflix 的最佳利益行事。

  11 、No CTO, No Ops

  Netflix 的技术这么牛逼,但它是没有技术 CTO 职位的,只有首席产品 CPO,工程团队和产品团队的 VP 都向 CPO 汇报。这样做更多是为了产品导向,便于技术和产品沟通合作,避免两边扯,避免业务驱动还是技术驱动的悖论,大家都是产品驱动。Netflix 把它称为 BusDevOps 组织架构。

  Netflix 也没有独立的运维团队 (NoOps),架构 + 中间件 + 运维 + 大数据闭环统称为云平台工程 (Cloud and Platform Engineering) 团队,一个 VP 总负责,更好地对接 DevOps 文化。Netflix 的产品导向文化非常浓厚,连平台工程团队开源出来的产品都是整整齐齐的 (见 https://netflix.github.io/),PaaS 云平台是整个云平台工程团队最大的产品输出。

  Netflix 的 CTO 其实是 Chief Talent Officer,负责人才招聘的,公司对人才的重视可见一斑。

  12、无论公司兴衰,始终支付市场最高工资

  不用多解释,这大概是 Netflix 最霸气和牛逼的一点。据我在米国的同学讲,去 Netflix 基本是硅谷顶薪,博士毕业去给开了超过 30 万美金的年薪(这还是前几年的行情)。一般进去难,去了留下来也不容易,不胜任的被客客气气劝退的有。能留下来的一般也不跳,因为再跳也没有更高的待遇了。

  显然,没有顶级的人才密度,就无法支撑其高大上的技术架构和鹤立鸡群的文化。顶级的人才聚集在一起,容易碰撞迸发创新火花,捣腾出颠覆性的东西和理念。

  13 、写在最后

  我在这边总结 Netflix 技术做的牛逼的事情,一方面是因为钦佩,但这不是重点,毕竟目前国内基础环境和人才密度是支撑不起这种类型文化的公司;但是,他山之石,可以攻玉,Netflix 的很多技术、架构、组织和文化思路值得我们学习和借鉴。

  我本人没有在 Netflix 工作过,上面的信息主要通过互联网共享资料 (特别是 slideshare) 学习解读 (有些解读可能还是偏颇的),所谓强者无秘密,Netflix 的强大也体现在它无私分享精神,它在公司内部是信息公开透明分享的,对外部也一样,几乎所有 Netflix 微服务技术栈 (也称 NetflixOSS) 你可以从 github.com/netflix 免费获得,其内部架构和技术相关资料基本上都可以通过 slideshare 或者 Netflix techblog 免费获得。在公开透明一块即使 Google、Amazon 和 Apple 这些互联网巨头都应该是自叹不如的。Netflix 公司大概是地球上开出的一朵特别奇葩耀眼的花。

  向 Netflix 致敬!

[转帖 cnblog 的news ]技术实力超群的Netflix,为何没有CTO的更多相关文章

  1. [转帖] cnblog新闻区 “40岁以上的员工,请自觉离开”

    “40岁以上的员工,请自觉离开” 投递人 itwriter 发布于 2018-04-29 22:36 评论(9) 有2733人阅读 原文链接 [收藏] « » “准确地说,华为目前要裁掉的.清退的,是 ...

  2. [转帖]SSD和内存数据库技术

    SSD和内存数据库技术 自己的理解还是不是很对 SSD 提升的是 随机读 并没有对顺序写有多大的提升, 因为数据库采用的是redo的模式. 理论上写入 时是顺序写 所以 写并发的提升不会很大 但是会很 ...

  3. [转帖]开源的监控技术栈除了ELK,还有InfluxData的TICK

    开源的监控技术栈除了ELK,还有InfluxData的TICK   https://cloud.tencent.com/developer/news/357119 来源 | Influxdata 译者 ...

  4. [转帖]全方位掌握OpenStack技术知识

    全方位掌握OpenStack技术知识 http://www.itpub.net/2019/06/17/2206/ 架构师技术联盟的文章 相当好呢. 大家好,我是小枣君.最近几年,OpenStack这个 ...

  5. [转帖]cnblog 新闻 : 亚太云计算市场报告:腾讯位列前五 份额首超谷歌

    亚太云计算市场报告:腾讯位列前五 份额首超谷歌 投递人 itwriter 发布于 2019-03-18 12:06 评论(1) 有213人阅读 原文链接 [收藏] « » 美国市场研究机构 Syner ...

  6. 【微服务技术专题】Netflix动态化配置服务-微服务配置组件变色龙Archaius

    前提介绍 如果要设计开发一套微服务基础架构,参数化配置是一个非常重要的点,而Netflix也开源了一个叫变色龙Archaius的配置中心客户端,而且Archaius可以说是比其他客户端具备更多生产级特 ...

  7. 蓝牙Bluetooth技术手册规范下载

    [背景] 之前就已经整理和转帖了和蓝牙技术相关的一些内容: [资源下载]bluetooth 协议 spec specification 蓝牙1.1.蓝牙1.2.蓝牙2.0(蓝牙2.0+EDR)区别 但 ...

  8. 蓝牙Bluetooth技术手册规范下载【转】

    蓝牙Bluetooth技术手册规范下载 http://www.crifan.com/summary_bluetooth_specification_download/ [背景] 之前就已经整理和转帖了 ...

  9. Atitit.cto 与技术总监的区别

    Atitit.cto 与技术总监的区别 1. 核心区别1 2. Cto主要职责1 3. 如何提升到cto1 4. CTO五种基本的必备素质:2 5. 2 1. 核心区别 技术总监(Chief Tech ...

随机推荐

  1. 3-1 实现简单的shell sed替换功能

    1.需求 程序1: 实现简单的shell sed替换功能 file1 的内容copy到file2 输入参数./sed.py  $1  $2 $1替换成$2 (把a替换成% ) 2.个人思路 open ...

  2. BZOJ3233【AHOI2013】找硬币

    题面 题解 最优肯定是尽可能用大面值硬币 设$f[i]$表示最小面值为$i$时的最小答案 则:(令$p$是$i$的最小质因子) $$ f[\frac ip]=min(f[\frac ip], f[i] ...

  3. bzoj 2238 Mst

    显然先求出最小生成树 如果删的是非树边就不用管,还是能取最小生成树 如果删的是树边就有非树边可以替代它 反向考虑,每条非树边可以替代最小生成树上一条路径的边 所以树剖加线段树,对每条非树边在树上更新对 ...

  4. JAVAWEB tomcat服务器启动错误原因总结

    tomcat服务器启动错误: org.apache.catalina.LifecycleException    这种异常的原因是  servlet的代码出现了错误 实例: 这里的servlet由于使 ...

  5. Laravel 跨框架队列交互

    公司大部分项目是laravel框架,但有些是yii框架,这两个框架之间有消息需要通信,比如在yii框架发布消息,laravel框架中的队列去处理,用redis作为消息连接纽带 laravel 队列原理 ...

  6. 用Micro:bit控制遥控车

    很多遥控车是用Arduino来控制,同样也可以用Micro:bit来控制.这篇文章我们就来做个测试. 这次需要用到扩展板,管脚比较多,请参考下图 一.材料: •micro:bit 二片 •micro: ...

  7. WCF 学习笔记一

    wcf服务的细节: 1.新建项目的时候有wcf服务应用程序和wcf服务库,两者区别在于前者可以寄宿在IIS上,而后者只能给其他项目使用,可以寄宿在控制台程序.窗体程序等等. 相关定义的链接 http: ...

  8. 解决Ubuntu“下载额外数据文件失败 ttf-mscorefonts-installer”的问题 (转载)

    解决Ubuntu“下载额外数据文件失败 ttf-mscorefonts-installer”的问题 发表于 2017-09-15 | 更新于 2018-04-29 | 分类于 Linux | 评论数: ...

  9. Netty源码分析第7章(编码器和写数据)---->第2节: MessageToByteEncoder

    Netty源码分析第七章: Netty源码分析 第二节: MessageToByteEncoder 同解码器一样, 编码器中也有一个抽象类叫MessageToByteEncoder, 其中定义了编码器 ...

  10. windows docker 安装cloudera/quickstart

    最近需要写一个大数据的项目,但是公司没有测试环境,真是cao蛋,没办法,只能自己搭建一个测试环境,所以就在本地电脑装一个cloudera/quickstart,这个是一个单节点的大数据平台, 是clo ...