Query hive data

背景

有Hue可以用来查询hive和impala的数据,但是使用起来不是特别方便,尤其想要同时把数据导出来的时候。

原来想尝试用java的方式,也向同事要了demo,但是需要keytab,而且还是倾向于用python。

最后尝试了一些python库失败(主要是这些module依赖的东西比较多,需要很多环境的配置,但是都没有权限,比较麻烦),从同事那得知他们的Tableau本地用的是odbc的连接方式。

之前试过用pyodbc去连接sql server数据库,而且理论上使用odbc,只要数据源配置好就可以了,api的使用是共通的,不管什么语言都可以用odbc的方式去访问。

Read more

Not in replacement

背景

最近解决了一个 hive 中报错的问题。HY 从最底层的 view 开始检查,最后发现在当前的 Sandbox/UAT2 环境中,对于 not in 中使用子查询的支持有问题。

这个问题导致了后续引用的 view 在建立时解析出错,会出现 Range Error 和 hive sql 解析出错。

解决的办法是使用别的语句替换,比如 not exists。

今天就想记录一下一些可行的替换方法,主要还是 not exists 和用 join

Read more