Blog.YHT.Web.ID

Icon

Bosan adalah awal dari penciptaan perubahan.

Load Data CSV ke Hadoop dengan Impala

Beberapa minggu terakhir ini saya harus berkutat dengan Hadoop yang digunakan sebagai basis data terpusat yang digunakan oleh unit kecil dimana saya bertugas. Pengaplikasian Hadoop adalah sebagai gudang data dimana semua data akan dimasukkan tanpa terkecuali.

Tugas saya adalah melakukan pengolahan data terhadap pola-pola tertentu oleh pihak-pihak tertentu yang identitasnya terdapat dalam basis data. Tugas ini memerlukan akses tulis untuk membuat tabel referensi.

Mencari melalui gugel, saya menemukan artikel ini yang setelah saya coba implementasikan dapat berjalan dengan baik. Namun antar muka ke Hadoop tidak menggunakan Hive, melainkan Impala.

Pertama-tama siapkan berkas tanpa kolom judul ke server Hadoop. Bisa menggunakan FileZilla atau psftp milik putty. Saya sendiri lebih suka sftp, karena menggunakan console GNU/Linux.

yht@blankon:~$ sftp server-dev.kalamangga.net
yht@server-dev.kalamangga.net’s password:
Connected to server-dev.kalamangga.net.
sftp> put data.csv
Uploading data.csv to /home/yht/data.csv
data.csv 100% 102 0.1KB/s 00:00
sftp>

Kedua, login ke mesin server.

yht@blankon:~$ ssh server-dev.kalamangga.net
yht@server-dev.kalamangga.net’s password:
Linux debian 3.2.0-4-amd64 #1 SMP Debian 3.2.65-1+deb7u2 x86_64

The programs included with the Debian GNU/Linux system are free software;
the exact distribution terms for each program are described in the
individual files in /usr/share/doc/*/copyright.

Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent
permitted by applicable law.
You have new mail.
Last login: Mon Apr 13 21:23:17 2015 from 192.168.10.222
yht@server-dev:~$

Ketiga, muat berkas csv tersebut ke HDFS. Berikut perintahnya :

yht@server-dev:~$ hadoop fs -put /home/yht/data.csv /user/impala

Keempat, masuk ke impala.

yht@server-dev:~$ impala-shell -i node1
Starting Impala Shell without Kerberos authentication
Connected to node1:21000
Server version: impalad version 2.0.0-cdh5 RELEASE (build ecf30af0b4d6e56ea80297df2189367ada6b7da7)
Welcome to the Impala shell. Press TAB twice to see a list of available commands.

Copyright (c) 2012 Cloudera, Inc. All rights reserved.

(Shell build version: Impala Shell v2.0.0-cdh5 (ecf30af) built on Sat Oct 11 13:56:06 PDT 2014)
[node1:21000] >

Lalu buat tabel.

[node1:21000] > create table example1(name String, address String, price int) row format delimited fields terminated by ‘|’ stored as textfile;

Muat berkas dengan perintah :

[node1:21000] > LOAD DATA INPATH ‘/home/impala/data.csv’ OVERWRITE INTO TABLE example1;

Lalu coba pilih 5 baris dari tabel.

[node1:21000] > select * from example1 limit 5;

Semoga bermanfaat…

Kategori: /tips-n-trick

Tag: , , ,

Leave a Reply