Hive中有一表,列分隔符为冒号(:),有一列utime是Timestamp格式,需要转成Weekday存到新表. 利用Python写一个Pipeline的Transform,weekday.py的代码也很简单: import sys import datetime for line in sys.stdin:  line=line.strip()  uid,mid,rating,utime=line.split(':')  weekday=datetime.datetime.fromtimes…
问题: 写了一个server和一个client,UNIX套接字的,server不断接收消息并打印出来,client是一个交互程序,输入一个消息回车发送,接着又可以输入消息.出问题了:当server监听着,client第一次发送消息成功,server接收并打印出来了.client第二次发送消息没成功并且结束程序了,server没接收到消息,保持继续监听.我用GDB调试时,发现client第二次发送消息时,client收到SIGPIPE(Broken Pipe)信号.server明明还监听着,而且再…
当我们出现这种情况时 FAILED: SemanticException [Error 10096]: Dynamic partition strict mode requires at least one static partition column. To turn this off set hive.exec.dynamic.partition.mode=nonstrict 这时候我们需要改变一下设置 set hive.exec.dynamici.partition=true;set h…
oracle数据库中Date类型倒入到hive中出现时分秒截断问题解决方案 1.问题描述: 用sqoop将oracle数据表倒入到hive中,oracle中Date型数据会出现时分秒截断问题,只保留了‘yyyy-MM-dd',而不是’yyyy-MM-dd HH24:mi:ss'格式的,后面的‘HH24:mi:ss’被自动截断了,在对时间要求到秒级的分析处理中这种截断会产生问题. 2.解决方案: 在用sqoop倒入数据表是,添加--map-column-hive 和--map-column-jav…
一. 分区函数Partition By与row_number().rank().dense_rank()的用法(获取分组(分区)中前几条记录) 一.数据准备 --1.创建学生成绩表 id int,  --主键 Grade int, --班级 Score int --分数 CREATE TABLE Student3(id INT, grade INT,score int) CLUSTERED by(id) INTO 7 BUCKETS STORED AS ORC  tblproperties('t…
1.SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame 场景:运用pandas修改某个序号所对应的key值时出现了该类警告 https://stackoverflow.com/questions/26724378/pandas-settingwithcopywarning 代码: df_index = df.loc[index]df_index[key] = value…
hive中一般取top n时,row_number(),rank,dense_ran()这三个函数就派上用场了, 先简单说下这三函数都是排名的,不过呢还有点细微的区别. 通过代码运行结果一看就明白了. 示例数据: 1 a 10 2 a 12 3 b 13 4 b 12 5 a 14 6 a 15 7 a 13 8 b 11 9 a 16 10 b 17 11 a 14 sql语句 select id, name, sal, rank()over(partition by name order b…
问题: 今天往Hive中导入Oracle数据的时候碰到了如下错误:Listener refused the connection with the following error: ORA-12505, TNS:listener does not currently know of SID given in connect descriptor 解决办法: 导入数据的语句如下: /usr/bin/sqoop import --connect jdbc:oracle:thin:@20.20.20.…
被该问题困扰的人还是挺多的,所以又对这个问题进行了一些更深入的分析,希望可以解决读者的问题新版本:Python 的 Broken Pipe 错误问题分析 遇到一个很奇怪的问题, web.py代码里面报错IOError: [Errno 32] Broken pipe 启动命令: nohup python xxx.py > xxx.log & ssh登录到机器上, 启动, 不会出现远程ssh执行启动脚本, 就会出现IOError问题 查看进程pid, ll /proc/<pid>/f…
用用C3中的animation和transform写的一个模仿加载的时动画效果! 不多说直接上代码; html标签部分 <div class="wrap"> <h2>用C3中的animation和transform写的一个模仿加载的时动画效果</h2> <div class="demo"> <div></div> <div></div> <div></d…
配置python+mod_wsgi+apache 时 在浏览器中访问服务器时报错:Invalid HTTP_HOST header: 'XXXXX'. You may need to add u'XXXXX'  to ALLOWED_HOSTS,在setting.py中添加ALLOWED_HOSTS['*"]无效的原因:是apache没有配置ServerName localhost:80 .配置完成后,解决了以上的问题 故障表现的现象是:使用localhost 访问apache是ok的,单无法使…
写出一个不是code的bug,很烦恼,解决了挺长时间,都翻到外文来看,不过还是解决了,只尝试了一种简单可观的方法,希望对大家有用 我正在使用Django与Keras(tensorflow)来训练一个模型来识别python中的图像.在python中使用print()时,raw write()返回无效的长度, 即使我想把print()注释掉,也时不时的蹦出来,错误如下: Traceback (most recent call last): File "D:\AI\Python35\lib\site-…
在Hive中执行DDL之类的SQL语句时遇到的一个问题 作者:天齐 遇到的问题如下: hive> create table ehr_base(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:For direct MetaStore DB connections, we don't support retries…
背景: 根据<Hive权威指南>上讲,在hive-0.8.0以后可以使用--define key=value命令定义用户自定义的变量以便在Hive脚本中引用.当用户使用这个功能时,Hive会将这个键值对放在hivevar命名空间下.并且,hivevar这个命名空间在使用过程中是可选的,也就是说可写可不写,自定义的变量都会放在hivevar这个命名空间下. 为了支持上面的观点,书上做了下面的操作.我为了亲自体会,使用的是hive-0.13.0. 1.使用hive --define foo=bar…
场景 在cmd中使用pip install moviepy时,需要安装一些依赖库,很长时间后提示: 远程主机中断了一个现有的连接. 原因是默认镜像源下载过慢,将其修改为国内或者设置安装时的源. 这里以设置豆瓣镜像源为例. 实现 pip install moviepy -i http://pypi.douban.com/simple --trusted-host pypi.douban.com 效果 可以看到安装速度很快,成功实现安装.…
在Hive语句中使用脚本(如python和shell)进行map和reduce:利用命令transform(或者指定map和reduce),配合加入的脚本文件add file 请看:http://www.coder4.com/archives/4052 别名后面as省略也行,空格直接加,如: table app_stats t1, app_data t2; 先举一个小例子: add file ${python_script_path}/lanch_interval_count.py; drop…
反垃圾rd那边有一个hql,在执行过程中出现错误退出,报java.io.IOException: Broken pipe异常,hql中使用到了python脚本,hql和python脚本最近没有人改过,在10.1号时还执行正常,可是在10.4号之后执行就老是出现同样的错误,并且错误出如今stage-2的reduce阶段,gateway上面的错误提演示样例如以下: 2014-10-10 15:05:32,724 Stage-2 map = 100%, reduce = 100% Ended Job…
HIVE表中默认将NULL存为\N,可查看表的源文件(hadoop fs -cat或者hadoop fs -text),文件中存储大量\N, 这样造成浪费大量空间.而且用java.python直接进入路径操作源数据时,解析也要注意. 另外,hive表的源文件中,默认列分隔符为\001(SOH),行分隔符为\n(目前只支持\n,别的不能用,所以定义时不需要显示声明).元素间分隔符\002,map中key和value的分隔符为\003. 举例,如源文件中一条记录为: 10000042SOH77SOH…
业务场景大概是这样的,这里由两个hive表格,tableA 和 tableB, 格式内容都是这样的: uid cate1 cate2 在hive QL中,我们知道union有着自动去重的功能,但是那是真对几行内容完全一致的情况下才可以.现在我们要进行去重的情况是根据uid进行去重. 也就是说可能存在这种情况: 1234 老师 唱歌 1234 老师 跳舞 对于hive表格中的这两行数据我们只想要保留其中的一行. 针对这种情况,我们做的大致思路就是,取两个表格数据的时候同时人为加上一个flag,然后…
本文根据 Apache Flink 系列直播课程整理而成,由 Apache Flink PMC,阿里巴巴高级技术专家 孙金城 分享.重点为大家介绍 Flink Python API 的现状及未来规划,主要内容包括:Apache Flink Python API 的前世今生和未来发展:Apache Flink Python API 架构及开发环境搭建:Apache Flink Python API 核心算子介绍及应用. 一.Apache Flink Python API 的前世今生和未来发展 1.…
#!/usr/bin/env python a = 10/3 print(a) #divmod计算商与余数 r = divmod(10001,20) print(r) #eval可以执行一个字符串形式的表达式 ret = eval("1 + 3") c = eval("a + 60",{"a": 99}) print(ret) print(c) """exec语句用来执行储存在字符串或文件中的Python语句. 例如…
由于自己一直使用的是eclipse这个IDE,在写spark,java等都是用它,主要是用它比较顺手,也并不是觉得它有什么特别好的之处.下面主要介绍一下,在window系统下,eclipse中搭建python的开发环境. 1.首先安装python 下载网站:https://www.python.org/downloads/ 并设置环境变量,测试安装是否成功,如下:…
首先声明,此文是属于纯粹收藏文,感觉讲的很不错. 本文介绍了Facebook公司数据分析系统中的RCFile存储结构,该结构集行存储和列存储的优点于一身,在MapReduce环境下的大规模数据分析中扮演重要角色. Facebook曾在2010 ICDE(IEEE International Conference on Data Engineering)会议上介绍了数据仓库Hive.Hive存储海量数据在Hadoop系统中,提供了一套类数据库的数据存储和处理机制.它采用类SQL语言对数据进行自动化…
使用hive时,我们偶尔会遇到这样的问题,当你将结果输出到屏幕时,查出的数据往往显示为null,但是当你将结果输出到文本时,却显示为空(即未填充),这是为什么呢? 在hive中有一种假NULL,它看起来和NULL一样,但是实际却不是NULL. 比如下面这样: [hdfs@dsdc04 ~]$ cat /data6/chenye/baidu_djzs_sessionid/test\NNULL Krisnull 本地的test文件内有五行数据,分别为\N.NULL.   .Kris.null 我们建…
由于python 3 已是目前稳定,且是将来版本版本.新学者可以直接从python3入手学习.但是目前还有很多企业级应用使用的是python 2,可能还得要维护.所以,我们在本地windows中可以安装python多版本,进行熟悉. 一:下载 python 3 官网地址:https://www.python.org 二:安装 python 3 安装时,勾选“Add Python 3.x to PATH” 或者安装后配置环境变量 三:配置 1.修改python.exe 将安装目录下的 C:\Pyt…
在应用中嵌入Python 前面的章节讨论如何扩展Python,如何生成适合的C库等.不过还有另一种情况:通过将Python嵌入C/C++应用以扩展程序的功能.Python嵌入实现了一些使用Python更合适的功能.这可以有很多用途,一个例子是允许用户裁减需要的Python功能.也可以用于默写使用Python编写更加方便的功能. 嵌入Python与扩展很像.扩展Python时,主程序是Python解释器,但是嵌入Python则主程序并不是Python的-是程序的其他部分调用Python来实现一些功…
C++中调用Python脚本的意义就不讲了,至少你可以把它当成文本形式的动态链接库, 需要的时候还可以改一改,只要不改变接口, C++的程序一旦编译好了,再改就没那么方便了 先看Python的代码 代码: #test function def add(a,b): print "in python function add" print "a = " + str(a) print "b = " + str(b) print "ret =…
        Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql.postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中. 1.问题背景 使用Sqoop把oracle数据库中的一张表,这里假定为student,当中的数据导入到hdfs中,然后再创建hive的external表,location到刚才保…
一:基本用法 1.新建数据库 2.删除数据库 3.删除非空的数据库 4.指定数据库的位置 LOCATION:指定数据库的位置,不会在系统的默认文件下. 5.在指定数据库中新建表(验证在指定的数据库中可以建表) 6.在页面上观看表 可以看到在指定的目录下有一张新建的表. 但是,没有看到指定的数据库. 7.新建表 8.删除一张表 drop  table if exists student; 9.清空一张表 10.加载数据 1)从本地加载 2)从HDFS上加载 3)区别: 移动. 11.查询 12.描…
#Python运行Google App Engineer时出现的UnicodeDecodeError错误解决方案   ##问题描述 使用Python2.7.x运行GAE时有时会报这个错误 ```py UnicodeDecodeError: 'ascii' codec can't decode byte 0xb0 in position 1: ordinal not in range(128) ``` 这个错误发生在 File "\Python27\lib\mimetypes.py",…