作者简介 王振华,趣头条大数据总监,趣头条大数据负责人. 王海胜,趣头条大数据工程师,10 年互联网工作经验,曾在 eBay.唯品会等公司从事大数据开发相关工作,有丰富的大数据落地经验. 高昌健,Juicedata 解决方案架构师,十年互联网行业从业经历,曾在知乎.即刻.小红书多个团队担任架构师职位,专注于分布式系统.大数据.AI 领域的技术研究. 背景 趣头条大数据平台目前有一个近千节点的 HDFS 集群,承载着存储最近几个月热数据的功能,每日新增数据达到了百 TB 规模.日常的 ETL 和…
王振华,趣头条大数据总监,趣头条大数据负责人 曹佳清,趣头条大数据离线团队高级研发工程师,曾就职于饿了么大数据INF团队负责存储层和计算层组件研发,目前负责趣头条大数据计算层组件Spark的建设 范振,花名辰繁,阿里云计算平台EMR高级技术专家,目前主要关注开源大数据技术以及云原生技术. 1. 业务场景与现状 趣头条是一家依赖大数据的科技公司,在2018-2019年经历了业务的高速发展,主App和其他创新App的日活增加了10倍以上,相应的大数据系统也从最初的100台机器增加到了1000台以上规…
本文由趣头条实时平台负责人席建刚分享趣头条实时平台的建设,整理者叶里君.文章将从平台的架构.Flink 现状,Flink 应用以及未来计划四部分分享. 一.平台架构 1.Flink 应用时间线 首先是平台的架构,2018 年 3 月之前基本都是基于 Storm 和 Spark Streaming 来做的.目前,基本已经把 Spark Streaming 和 Storm 淘汰了,主要都是 Flink SQL 来做的.起初还比较传统,一般是接需求然后开发类似于 Flink SQL 的任务,基本是手工…
项目简介 爬取趣头条新闻(http://home.qutoutiao.net/pages/home.html),具体内容: 1.列表页(json):标题,简介.封面图.来源.发布时间 2.详情页(html):详细内容和图片 目录结构 生成的数据文件-单条记录 主要代码说明 爬虫: #爬取趣头条列表和详情页 qutoutiao.spiders.qutoutiaos.QutoutiaosSpider管道文件: #封面图片处理类 qutoutiao.imagepipelines.CoverImageP…
前言 博主目前从事Android开发3年,前两年一直在抖音工作.我这篇文章并不是简单的描述一些面试中的题,或者总结一些Android的知识,而是想记录我整个的想法和准备的过程,以及一些心得体会,让大家更加全面的去看待工作.跳槽和生活(从我的角度,当然肯定有不合理的地方,大家借鉴就好) 抖音两年 在字节跳动的两年时间中见证了抖音从百万日活到2.5亿.团队从10人到100多人的过程,技术上不同时期的选型以及迭代.沉淀和更替.项目上经历了一个工程到模块化再到组件化最后插件化,深刻理解项目不同阶段和不同…
自动驾驶是最近几年的热门领域,专注于自动驾驶技术的创业公司.新造车企业.传统车厂都在这个领域投入了大量的资源,推动着 L4.L5 级别自动驾驶体验能尽早进入我们的日常生活. 自动驾驶技术实现的核心环节是自动驾驶模型的训练,训练数据是由汽车实际采集回来的真实道路驾驶视频,数据规模有数 PB 到数十 PB 之多.在模型训练之前,先要对这些原始视频进行处理,截取其中的关键帧保存为照片.然后再由专业数据标注团队在图片上标记关键信息,比如红绿灯.道路标记等.最终经过标记的数十亿图片和标记数据成为真正要「喂…
问题 JuiceFS 是一个基于对象存储的分布式文件系统,在之前跟对象存储比较的文章中已经介绍了 JuiceFS 能够保证数据的强一致性和极高的读写性能,因此完全可以用来替代 HDFS.但是数据平台整体迁移通常是一个费时费力的大工程,需要做到迁移超大规模数据的同时尽量不影响上层业务.下面将会介绍如何通过 JuiceFS 的迁移工具来实现平滑迁移 HDFS 中的海量数据到 JuiceFS. 平滑迁移方案 数据平台除了我们在 HDFS 上实际看到的文件以外,其实还有一些同样重要的信息,也就是所谓的「…
现在大多手机新闻APP都需要输入码,在网上找了很久,最终找到一个比较全的文章,本人试过,都是可以使用的! 第1个比较好,可边看新闻,边收益!嘻嘻!平时写代码累了,休息刷一下!或者在睡觉前刷新一下,每天积累,够买早餐! 1.今日头条极速版(邀请码)DHQPJ63A 2.天天快报(邀请码)DVRR5V 3.东方头条(邀请码)025971713 4.趣头条(邀请码)A186368472 5.惠头条(邀请码)10712906 6.淘新闻(邀请码)73369541…
大家好,我是来自 Juicedata 的高昌健,今天想跟大家分享的主题是<JuiceFS 在数据湖存储架构上的探索>,以下是今天分享的提纲: 首先我会简单的介绍一下大数据存储架构变迁以及它们的优缺点,然后介绍什么是 JuiceFS,其次的话会再重点介绍一下关于 JuiceFS 和数据湖的一些结合和关联,最后会介绍一下 JuiceFS 和数据湖生态的集成. 大数据存储架构变迁 纵观整个大数据存储架构的变迁,可以看到有非常明显的三个阶段:第一个阶段就是从最早的 Hadoop.Hive 等项目诞生之…
Hadoop HDFS负载均衡 转载请注明出处:http://www.cnblogs.com/BYRans/ Hadoop HDFS Hadoop 分布式文件系统(Hadoop Distributed File System),简称 HDFS,被设计成适合运行在通用硬件上的分布式文件系统.它和现有的分布式文件系统有很多的共同点.HDFS 是一个高容错性的文件系统,提供高吞吐量的数据访问,非常适合大规模数据集上的应用. HDFS副本摆放策略 第一副本:放置在上传文件的DataNode上:如果是集群…