按照上篇文章<解锁云原生 AI 技能 | 在 Kubernetes 上构建机器学习系统>搭建了一套 Kubeflow Pipelines 之后,我们一起小试牛刀,用一个真实的案例,学习如何开发一套基于 Kubeflow Pipelines 的机器学习工作流. 准备工作 机器学习工作流是一个任务驱动的流程,同时也是数据驱动的流程,这里涉及到数据的导入和准备.模型训练 Checkpoint 的导出评估.到最终模型的导出.这就需要分布式存储作为传输的媒介,此处使用 NAS 作为分布式存储. 创建分布…
7 月 9 日,GOTC 2021 全球开源技术峰会上海站与 WAIC 世界人工智能大会共同举办,峰会聚焦 AI 与云原生两大以开源驱动的前沿技术领域,邀请国家级研究机构与顶级互联网公司的一线技术专家,为参会的开发者和技术爱好者带来了最硬的行业技术干货,提供了一个难得的技术交流平台. 在本次会议上,腾讯云高级工程师高策进行了题为"公有云上构建云原生 AI 平台的探索与实践"的技术分享,介绍了 AI 类业务在公有云上的现状以及相应的技术选型和面临的问题.最后通过分析开源社区和业界的趋势,…
本周六阿里云 Serverless Developer Meetup 即将亮相杭州 ​ 时间:7.24 本周六 13:30 - 17:30 地点:杭州市良睦路 999 号乐佳国际 1-3-7 特洛伊星 ​ 这一次我们邀请了阿里云.初创互联网公司.开源中国 Gitee 的技术专家和独立开发者为你带来: ​ Serverless Devs 全新功能发布,像淘宝一样享受 Serverless 初创互联网公司 Serverless 落地和踩坑全记录 架构师视角:Serverless 应用典型场景及案例剖…
分布式训练与 Kubeflow 当开发者想要讲深度学习的分布式训练搬上 Kubernetes 集群时,首先想到的往往就是 Kubeflow 社区中形形色色的 operators,如 tf-operator.mpi-operator. 这些服务于各种深度学习训练(TensorFlow.PyTorch.MXNet 等)的 operators 主要的工作包括: 在 Kubernetes 集群上创建 Pod 以拉起各个训练进程 配置用作服务发现的信息(如 TF_CONFIG)以及创建相关 Kuberne…
亮点解读 云原生前沿技术分享:阿里经济体“云原生化”宝贵经验与最佳实践成果 OpenKruise 价值几何? 防踩坑指南:国内知名容器平台架构师解读从 ECS 迁移到 K8S 走过哪些坑. ​云原生服务坚定基石:Kata Container 在蚂蚁生产中的云原生核心价值. 现场抽奖,线上线下大礼送不停,价值 199 元学习加油包.天猫精灵等精美礼品等你来领! 1.预约直播(开发者社区):https://developer.aliyun.com/live/1322 2.参与调研,戳:http://…
本系列将利用阿里云容器服务,帮助您上手 Kubeflow Pipelines. 介绍 机器学习的工程复杂度,除了来自于常见的软件开发问题外,还和机器学习数据驱动的特点相关.而这就带来了其工作流程链路更长,数据版本失控,实验难以跟踪.结果难以重现,模型迭代成本巨大等一系列问题.为了解决这些机器学习固有的问题,很多企业构建了内部机器学习平台来管理机器学习生命周期,其中最有名的是 Google 的 Tensorflow Extended, Facebook 的 FBLearner Flow, Uber…
技术控快上车啦秋天的第一场活动一起来收获技术干货吧! 主题: 云原生基础设施建设的现在及未来时间: 2021 年 9 月 11 日 (周六) 13:30-17:00活动地点: 四川省成都市蚂蚁 C 空间 101 猎户座报名方式: 扫描下方海报中 二维码 ,即可报名.​ Erda系列线下 Meetup 成都站由 SOFAStack & Erda 联合举办​ 本次分享将邀请来自蚂蚁集团和 端点Erda 的四位专家,分别带来云原生的四个专题分享,分别是:​ <从云原生视角,解读 Erda 微服务观…
引言 随着模型规模和数据量的不断增大,分布式训练已经成为了工业界主流的 AI 模型训练方式.基于 Kubernetes 的 Kubeflow 项目,能够很好地承载分布式训练的工作负载,业已成为了云原生 AI 领域的事实标准,在诸多企业内广泛落地. 尽管 Kubeflow 让基于 Kubernetes 的大规模分布式训练变得可行,但是云原生的极致弹性.降本增效等特性在人工智能场景下没有得到很好地释放. 为了解决目前在云原生 AI 场景下的成本高,资源利用率低等问题,TKE AI 团队在 Kubef…
作者 张鹏,腾讯云容器产品工程师,拥有多年云原生项目开发落地经验.目前主要负责腾讯云 TKE 云原生 AI 产品的开发工作. 谢远东,腾讯高级工程师,Kubeflow Member.Fluid(CNCF Sandbox) 核心开发者,负责腾讯云 TKE 在 AI 场景的研发和支持工作. 概述 随着 Kubernetes 的日趋成熟,越来越多的公司.企业开始使用 K8s 来构建自己的云原生平台,基于 kubernetes 良好的扩展性以及成熟稳定的架构,你可以快速部署并管理自己的云原生应用. 目前…
2019 年经济减速的阴云笼罩了所有行业,势如破竹的发展势头被打破,小微创新型企业生存艰难.越来越多的企业更加关注客户和业务之间的交付价值,精益化公司运营,降低成本,驱动业务发展.是否要拥抱云原生?开发团队的效率问题的根本原因在哪里?DevOps 是不是万能的良药?是不是现在需要做出改变?进行改变的过程中会碰到哪些落地的问题? 腾讯云大学现邀请 CODING 创始人兼 CEO 张海龙 为开发者们开讲大咖分享课程! 课程主题 当 DevOps 邂逅云原生 课程时间 12 月 11 日(周三)20:…