虚拟机: hadoop:3.2.0 hive:3.1.2 win10: eclipse 两阶段数据清洗: (1)第一阶段:把需要的信息从原始日志中提取出来 ip:    199.30.25.88 time:  10/Nov/2016:00:01:03 +0800 traffic:  62 文章: article/11325 视频: video/3235 (2)第二阶段:根据提取出来的信息做精细化操作 ip--->城市 city(IP) date--> time:2016-11-10 00:01…
Result文件数据说明: Ip:106.39.41.166,(城市) Date:10/Nov/2016:00:01:02 +0800,(日期) Day:10,(天数) Traffic: 54 ,(流量) Type: video,(类型:视频video或文章article) Id: 8701(视频或者文章的id) 文件部分如下: 1.192.25.84 2016-11-10-00:01:14 10 54 video 5551 1.194.144.222 2016-11-10-00:01:20 1…
第二节 将文本文件数据导进数据库 该小节介绍如何用BIML生成ssis包,将货币文本导入到数据库currency的表中. SSIS组件: Connection Manager组建管理connection,数据库链接和文本链接 SQL task组件来把Currency表清空 OELEDE destination来插入数据到目标Currency表 输入 文本文件如下,目标表Currency存在于数据库中. Currency.csv CurrencyCode Name CNY 元 USD 美元 JPY…
转载自:http://blog.csdn.net/erfucun/article/details/52312682 本博文主要内容包括: 技术实现foreachRDD与foreachPartition解析 foreachRDD与foreachPartition实现实战 一:技术实现foreach解析: 1.首先我们看一下Output Operations on DStreams提供的API:   SparkStreaming的DStream提供了一个dstream.foreachRDD方法,该方…
将excel内容首先保存成csv格式,然后在MySQL数据库中导入,结果汉字出现了乱码. 解决过程: 1.csv文件以txt形式打开,另存为,选择utf-8编码. 2.数据库,设置,collation选择utf-8. 3.再次导入,ok…
先启动hive 在mydb2这个数据库中创建表: create external table mydb2.access(ip string,day string,url string,upflow string) row format delimited fields terminated by ','; 把清洗后的数据导入到刚刚创建的hive表中 load data inpath '/uvout/hive/' into table mydb2.access;…
本人连接过SQLServer跟SQLite Ⅰ.SQLServer,百度,转一下:http://jingyan.baidu.com/article/7f766daf465e9c4101e1d0d5.html 只复制了文字,图片麻烦,只是以防链接失效 1.当建立好表结构之后,选择导航栏中的“数据库”,然后选择"Configure Connections" 如下图所示: 2.添加数据源,点击下图标红位置,然后选择“文件数据源(与机器无关)”然后选择“下一步”,在列表中找到SQL Serve…
spss-数据清洗-处理重复数据 数据导入之后就需要对数据进行清洗.数据清洗主要是对多余重复的数据筛选清除,将缺失的数据补充完整,将错误的数据纠正或者删除.接下来操作如何将重复数据处理操作. 步骤一: 选择[数据]-[标记重复个案],在[标记重复个案]对话框中,将所有的变量都放入[定义匹配个案的依据]框中,其他选项如果没有特殊要求,保持默认设置即可.如图: 这时就会生成一个重复数据记录标识变量"最后一个基本个案" 步骤二: 将"最后一个基本个案"变量进行排序,[数据…
1. log4j(具体见log4j文档) log4j是一个java系统中用于输出日志信息的工具.log4j可以将日志定义成多种级别:ERROR  /  WARN  /  INFO  /  DEBUG log4j通过获取到一个logger对象来输出日志: val logger = Logger.getLogger("logger名称"); logger.info("日志内容") 所拿到的这些logger对象之间是有"父子"关系的,所有logger都…
mysql5.x升级至mysql5.7后导入之前数据库date出错的解决方法! 修改mysql5.7的配置文件即可解决,方法如下: linux版:找到mysql的安装路径进入默认的为/usr/share/mysql/中,进行对my-default.cnf编辑 利用查找功能"/"找到"sql_mode=NO_ENGINE_SUBSTITUTION,STRICT_TRANS_TABLES" 将其删除或者是注释即可. windows版:32位找到mysql安装路径直接修改…