Query hive data

背景

有Hue可以用来查询hive和impala的数据,但是使用起来不是特别方便,尤其想要同时把数据导出来的时候。

原来想尝试用java的方式,也向同事要了demo,但是需要keytab,而且还是倾向于用python。

最后尝试了一些python库失败(主要是这些module依赖的东西比较多,需要很多环境的配置,但是都没有权限,比较麻烦),从同事那得知他们的Tableau本地用的是odbc的连接方式。

之前试过用pyodbc去连接sql server数据库,而且理论上使用odbc,只要数据源配置好就可以了,api的使用是共通的,不管什么语言都可以用odbc的方式去访问。

Read more

HDFS Space Usage

背景

需要统计HDFS的空间使用情况,有命令hadoop fs -du /path支持查看(hdfs dfs等效)。

但这样子只能看一个目录的情况,如果想要遍历所有的目录没有直接支持的。

Read more
">