Blog.YHT.Web.ID

Icon

Bosan adalah awal dari penciptaan perubahan.

Gagal Install Hortonworks Data Platform di Debian Wheezy

Menggunakan perangkat paling mutakhir dari pengembang distribusi belum tentu membuat perangkat berfungsi. Dalam mengembangkan sebuah paket aplikasi perlu dilihat pembuatan paket oleh vendor belum tentu menggunakan paket-paket yang telah diperbaharui oleh pengembang sistem operasi.

Baru saja saya mengalami kegagalan saat instalasi Hortonworks Data Platform versi 2.4.2.0 di Debian Wheezy. Kegagalan instalasi disebabkan adanya dependency hell, paket yang terinstal lebih baru dari pada yang dibutuhkan, sedangkan dalam pemaketan dipakai tanda “=” (sama dengan) dalam dependency versi.

Kesimpulan saya sementara adalah:

  • Gunakan ISO CD Debian Wheezy 7.0 sebagai media saat instalasi; dan
  • Repository tanpa wheezy-updates dan wheezy/updates (debian-security).

Semoga saja benar tebakan saya.

Impala ODBC

Karena setiap hari mengakses data di Impala dan melakukan export hasil pengolahan menjadi text delimited dan mengubahnya menjadi format spreadsheet excel merupakan rutinitas, maka saya mulai mencari celah untuk mempermudah rute yang selalu saja saya jalani ini tiap hari. Hal pertama adalah mencari konektor yang bisa langsung terhubung dengan Impala. Dan saya menemukan halaman unduhan dari situs resmi Cloudera.

Karena menggunakan Debian 8.x (jessie) 64bit, maka saya mengunduh untuk paket Debian yang ada di sana. Saya mengunduh paket untuk Debian 7 64-bit. Dari banyak referensi instalasi yang beredar semua bisa digunakan, namun ada beberapa hal yang menjadi alasan saya mengapa saya harus mencatat konfigurasi pada mesin saya. Koneksi tidak serta merta dapat dilakukan karena pustaka ODBC tidak otomatis di load.

Instalasi Driver

Pertama kita cek apakah unixodbc telah terpasang. Selengkapnya… »

Load Data CSV dengan Hive

Pada tulisan terdahulu, saya menulis mengenai Load Data CSV ke Hadoop dengan Impala. Perintah dalam tulisan tersebut masih bisa dilakukan, namun untuk memperpendek langkah dan baris perintah saya akhir-akhir ini lebih suka menggunakan Hive.

Langkah pertama dan kedua masih sama dengan tulisan sebelumnya, silakan cek. Pada langkah ketiga terdapat perbedaan dimana dengan Hive kita tidak perlu melakukan pengunggahan ke HDFS terlebih dahulu karena memiliki fitur ‘LOCAL INPATH’. Berikut beberapa langkah perintahnya sebagai pengganti langkah ketiga dan seterusnya.

yht@server-dev:~$ hive
2015-12-18 10:59:51,040 WARN [main] conf.HiveConf (HiveConf.java:initialize(1491)) – DEPRECATED: Configuration property hive.metastore.local no longer has any effect. Make sure to provide a valid value for hive.metastore.uris if you are connecting to a remote metastore.
Logging initialized using configuration in jar:file:/opt/cloudera/parcels/CDH-5.2.4-1.cdh5.2.4.p0.3/jars/hive-common-0.13.1-cdh5.2.4.jar!/hive-log4j.properties
hive>

Selengkapnya… »

Load Data CSV ke Hadoop dengan Impala

Beberapa minggu terakhir ini saya harus berkutat dengan Hadoop yang digunakan sebagai basis data terpusat yang digunakan oleh unit kecil dimana saya bertugas. Pengaplikasian Hadoop adalah sebagai gudang data dimana semua data akan dimasukkan tanpa terkecuali.

Tugas saya adalah melakukan pengolahan data terhadap pola-pola tertentu oleh pihak-pihak tertentu yang identitasnya terdapat dalam basis data. Tugas ini memerlukan akses tulis untuk membuat tabel referensi.

Mencari melalui gugel, saya menemukan artikel ini yang setelah saya coba implementasikan dapat berjalan dengan baik. Namun antar muka ke Hadoop tidak menggunakan Hive, melainkan Impala.

Pertama-tama siapkan berkas tanpa kolom judul ke server Hadoop. Selengkapnya… »

Arsip