最近在搞关于数据分析的项目,做了一点总结. 下图是系统的数据流向.容易出现错误的地方.1.数据进入hadoop仓库有四种来源,这四种是最基本的数据,简称ods,original data source,后续 的数据都是有这些组合而来a.日志文件b.http接口c.DB查询d.建表指向最后数据都是以hadoop文件的形式存放在hadoop中. 日志文件: 新增机器没有通知数据分析组抓日志 根据约定获取日志是遇到错误,例如:约定获取gz的压缩日志,结果没有 数据提供方rsync日志出现问题 http…