Tinkter Demo

背景

最近在做数据的交互与导入导出,刚开始还是按照原先的方式,把所有的参数写在配置文件中。

在运行前需要把配置改掉,这样很容易遗漏。

所以想到了写点简单的界面来配置一些选项,相对来说所见即所得。

Python 里可以写界面的选择很多,也有很强大和专业的库(e.g. PyQt),但是我们这种程度的使用,用原生的 tinkter 就足够了。

Read more

Convert EST/EDT to GMT datetime

背景

最近在导数据的时候,需要把日期型字符串转换成 datetime 类型再导入数据库,其中一些带时区的数据,不能直接使用 strftime 格式化。

数据主要带 EST 和 EDT,需要先转成 GMT 再处理。

Read more

Update CSV Column Values

背景

在一些 csv 文件中会有日期类型,而如果我们想按日期类型导入到数据库中,那么就需要在 insert 前以 date(datetime)的类型传入。

假设简单的 csv 文件(sample.csv)如下:

1
2
3
4
5
6
7
8
9
HolidayDate,Region
2019-01-01,China
2019-01-02,China
2019-04-01,China
2019-05-01,China
2019-07-07,China
2019-10-01,China
2019-01-05,US
2019-06-01,US
Read more

Generate Business Days

背景与需求

这两天有个小的需求,想要使用 Stored Procedure 根据 Holiday 的信息,将新的一年每月的 Business Day 数量计算出来并插入一张表中。

这个功能我已经实现,现在就记录一下一些觉得有意思的信息,简单的介绍下自己的思路。

Read more

Difference between Python2 and Python3

Python2.x 与 3​​.x 版本区别

Python 的 3​​.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。

为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下相容。

许多针对早期 Python 版本设计的程式都无法在 Python 3.0 上正常执行。

为了照顾现有程式,Python 2.6 作为一个过渡版本,基本使用了 Python 2.x 的语法和库,同时考虑了向 Python 3.0 的迁移,允许使用部分 Python 3.0 的语法与函数。

新的 Python 程式建议使用 Python 3.0 版本的语法。

除非执行环境无法安装 Python 3.0 或者程式本身使用了不支援 Python 3.0 的第三方库。目前不支援 Python 3.0 的第三方库有 Twisted, py2exe, PIL 等。

大多数第三方库都正在努力地相容 Python 3.0 版本。即使无法立即使用 Python 3.0,也建议编写相容 Python 3.0 版本的程式,然后使用 Python 2.6, Python 2.7 来执行。

Python 3.0 的变化主要在以下几个方面:

Read more

Hadoop HDFS Operation

背景

之前搭好了 Hadoop 环境,但是在使用的过程中还是有一些问题,现在终于解决了,至少最基础的环境没有问题了。

基本环境

Hadoop-2.7.3 / Java7

四台机子如下,hadoop00mater, 其余为 slave

1
2
3
4
192.168.137.100 hadoop00
192.168.137.101 hadoop01
192.168.137.102 hadoop02
192.168.137.103 hadoop03
Read more

Compare Excel

背景

下周可能有一个小任务是由于系统升级,需要保证生成的 excel 是一致的,所以写了一个非常简单的对比脚本。

Read more

Setup Hadoop Cluster

背景

最近终于在虚拟上搭好了 Hadoop 的集群环境,记录一下。

资源准备

  • jdk-8u40-linux-x64.gz
  • hadoop-2.7.3.tar.gz
  • CentOS Linux release 7.4.1708 (Core)

四台机子如下,hadoop00 为mater, 其余为slave

1
2
3
4
192.168.137.100 hadoop00
192.168.137.101 hadoop01
192.168.137.102 hadoop02
192.168.137.103 hadoop03
Read more

VMware Centos7 Network Setup

背景

没想到搞虚拟机搞了这么久,终于配置成功了,不过踩坑也是难免的,记录一下。

目前要做的是搭建 Hadoop 集群环境,但是在配置多台 linux 虚拟机时网络一直没有弄好,远程无法访问,出现各种问题。主要原因是自己这块基础不牢,网上的资料也太杂。

更重要的是,我使用的是带 GUI 的 CentOS,导致了有两套 Network 管理,所以冲突了,尴尬。

Read more

Analyze 1.usa.gove from bit.ly

背景

最近在看数据分析相关的知识点,同事那借了本 Python for Data Analysis 在看,接下来会记录一下学习心得和书上的例子,温故知新。

数据分析的门道还是挺多的,Python 的一些库(pandas, numpy, matplotlib)也很好用,不用自己去用标准库辛苦的写了,之前分析 log 如果了解这些知识点的话,效率会很高。

今天介绍书中的例子。

Read more