引言 随着模型规模和数据量的不断增大,分布式训练已经成为了工业界主流的 AI 模型训练方式.基于 Kubernetes 的 Kubeflow 项目,能够很好地承载分布式训练的工作负载,业已成为了云原生 AI 领域的事实标准,在诸多企业内广泛落地. 尽管 Kubeflow 让基于 Kubernetes 的大规模分布式训练变得可行,但是云原生的极致弹性.降本增效等特性在人工智能场景下没有得到很好地释放. 为了解决目前在云原生 AI 场景下的成本高,资源利用率低等问题,TKE AI 团队在 Kubef…
基于Caffe的MNIST数据集训练与测试 原创:转载请注明https://www.cnblogs.com/xiaoboge/p/10688926.html  摘要 在前面的博文中,我详细介绍了Caffe的网络结构和求解文件,还介绍了如何制作LMDB和Hdf5数据源文件.但是我们还没有完整的介绍过如何在Caffe框架下去训练一个神经网络模型,在本篇博文中我将从最经典.简单的卷积神经网络Lenet(CNN的开端)和最简单的数据集MNIST(手写数字)出发,详细介绍整个网络的训练与测试过程. 1. …
AI时代的到来,给企业的底层IT资源的丰富与敏捷提出了更大的挑战,利用阿里云稳定.弹性的GPU云服务器,领先的GPU容器化共享和隔离技术,以及K8S集群管理平台,好未来通过云原生架构实现了对资源的灵活调度,为其AI中台奠定了敏捷而坚实的技术底座. 在2020年云栖大会上,好未来AI中台负责人刘东东,分享了他对AI云原生的理解与好未来的AI中台实践,本文为演讲内容整理. 大家好,我是好未来AI中台技术负责人刘东东.今天我给大家带来的演讲主题是<好未来AI云原生的浅谈>.我的分享主要分成四个部分:…
[源码解析] 深度学习分布式训练框架 horovod (16) --- 弹性训练之Worker生命周期 目录 [源码解析] 深度学习分布式训练框架 horovod (16) --- 弹性训练之Worker生命周期 0x00 摘要 0x01 Worker 是什么 1.1 角色 1.2 职责 1.3 组网机制 1.3.1 通信环 1.3.2 弹性构建 1.3.2.1 Driver 监控 1.3.2.2 Driver 重新构建 0x02 总体生命流程 0x03 配置过程 0x04 启动过程 4.1 总…
作者 张鹏,腾讯云容器产品工程师,拥有多年云原生项目开发落地经验.目前主要负责腾讯云 TKE 云原生 AI 产品的开发工作. 谢远东,腾讯高级工程师,Kubeflow Member.Fluid(CNCF Sandbox) 核心开发者,负责腾讯云 TKE 在 AI 场景的研发和支持工作. 概述 随着 Kubernetes 的日趋成熟,越来越多的公司.企业开始使用 K8s 来构建自己的云原生平台,基于 kubernetes 良好的扩展性以及成熟稳定的架构,你可以快速部署并管理自己的云原生应用. 目前…
理想汽车在 Hadoop 时代的技术架构 首先简单回顾下大数据技术的发展,基于我个人的理解,将大数据的发展分了4个时期: 第一个时期: 2006 年到 2008 年.2008 年左右,Hadoop 成为了 Apache 顶级项目,并正式发布了 1.0 版本,它的基础主要是基于谷歌的三驾马车,GFS.MapReduce.BigTable 去定义的. 第二个时期: 2009 年到 2013 年阶段.雅虎.阿里.Facebook 等企业对大数据的应用越来越多.2013 年底 Hadoop 正式发布 2…
简介: 数据库将面临怎样的变革?云原生数据库与数据仓库有哪些独特优势?在日前的 DTCC 2020大会上,阿里巴巴集团副总裁.阿里云数据库产品事业部总裁.ACM杰出科学家李飞飞就<云原生分布式数据库与数据仓库系统点亮数据上云之路>进行了精彩分享. 云计算时代,云原生分布式数据库和数据仓库开始崛起,提供弹性扩展.高可用.分布式等特性. 数据库将面临怎样的变革?云原生数据库与数据仓库有哪些独特优势?在日前的 DTCC 2020大会上,阿里巴巴集团副总裁.阿里云数据库产品事业部总裁.ACM杰出科学家…
伴随着以 Kubernetes 为代表的云原生技术体系的日益成熟以及 CNCF 生态的逐渐壮大,“云原生”已然成为了未来云计算时代里一个当仁不让的关键词.但是,到底什么是“云原生”?云原生与 CNCF.Kubernetes 又是什么关系呢?云原生的技术浪潮已经来袭,作为云计算时代的开发者和从业者,我们又该如何将云原生技术在自己所在的组织中落地.在这次名为“云原生”的技术革命中站稳脚跟呢? 作为这个“云原生”技术社区多年的亲历者和实践者,我们深知让技术真正触达每一位开发者的心智绝非易事.为此,我们…
​ 到底什么是“云原生”?云原生与 CNCF.Kubernetes 是什么关系?作为云计算时代的开发者和从业者,我们该如何在“云原生”的技术浪潮中站稳脚跟,将云原生落地.实现个人的自我升级呢? 2019年 4 月 17 日,阿里云与 CNCF(Cloud Native Computing Foundation) 共同开发的<CNCF x Alibaba 云原生技术公开课>就正式上线了.在这门公开课里,来自全球“云原生”技术社区的亲历者和领军人物,将一起来为每一位中国开发者讲解和剖析关于“云原生…
概述 继上一篇 Thanos 部署与实践 发布半年多之后,随着技术的发展,本系列又迎来了一次更新.本文将介绍如何结合 Kvass 与 Thanos,来更好的实现大规模容器集群场景下的监控. 有 Thanos 不够吗 ? 有同学可能会问,Thanos 不就是为了解决 Prometheus 的分布式问题么,有了 Thanos 不就可以实现大规模的 Prometheus 监控了吗?为什么还需要个 Kvass? Thanos 解决了 Prometheus 的分布式存储与查询的问题,但没有解决 Prome…