Big Data dengan Hadoop

hadoop

Salah satu implementasi dari Big Data yang cukup terkenal adalah Hadoop atau nama resminya Apache Hadoop. Hadoop adalah teknologi yang dibuat dari sebuah artikel atau paper. Paper ini di bawakan oleh Google untuk menggambarkan Big Data yang mereka gunakan untuk menampung data mereka yang sangat besar. Jadi, Google menginspirasi lahirnya Hadoop. Bedanya Big Data Google tidak bersifat open source sementara Hadoop open source.

Hadoop disini disebut lebih dari sekedar software atau perangkat lunak. Hadoop adalah sekumpulan software yang saling bekerja sama untuk mengolah data. Bisa disebut Hadoop adalah sebuah ekosistem yang terdiri dari software-software yang bekerja sama. Secara garis besar saya pribadi membagi ekosistem menjadi beberapa bagian:

  1. Inti atau core dari Hadoop: Ini adalah software utama yang menjadi dasar dari ekosistem. Software ini bisa didapat di web site Apache Hadoop. Inti hadoop ini terdiri dari beberapa bagian yaitu Hadoop Distributed File System (HDFS) dan Map Reduce. HDFS adalah tempat data-data dan file disimpan. Map Reducedisini adalah program untuk melakukan datamining dan pengolahan data lainnya dari file atau data yang disimpan di HDFS.
  2. Data mining. Bagian ini sebenarnya bisa dikatan adalah API untuk menjalankan Map Reduce. Bagian ini mempermudah membuat dan menjalankan Map Reduce. Dengan demikian akan lebih mudah membuat dan menjalankan query. Contoh dari bagian ini adalah Apache Pig dan Apache Hive
  3. Database NoSQL (Not Only SQL). Bagian ini ada karena proses map reduce biasanya makan waktu lama (karena data yang diproses baisanya besar) dan dilakukan secara periodik dan tidak sewaktu-waktu. Bagian ini memberikan akses data yang lebih cepat dan bisa sewaktu-waktu. Contoh NOSQL yang baisa dipakai adalah Apache HBase dan Apache Cassandra.
  4. Bagian pendukung lain. bagian ini padaumumnya dalah pendukung operasional Hadoop. Contohnya adalah Apache Zookeeper yang berfungsi untuk mengatur distribusi data dan pemrosesan data. Zookeeper dipakai oleh Apache HBase. Apache Flume berfungsi untuk mengatur input kedalam hadoop dari sumer data yang bersifat streaming misalnya dari Twitter. Ada banyak lagi software pendukung Hadoop ini. Seperti Apache Ambari, Apache Oozie dsbnya. Tidak mutlak harus memakai semuanya. Hanya tergantung kebutuhan saja.

Hadoop bisa dijalankan disatu komputer saja (single node) ataupun dalam cluster yang berisi banyak komputer (multi node). Single node biasanya untuk development atau training saja. Hadoop memerlukan Java untuk bisa berjalan. Untuk proses instalasinya juga cukup sederhana. Setelah file core Hadoop di download disitu ada petunjuk menjalankannya. Selanjutnya bisa dipilih mana saja komponen lain yang dibutuhkan.

6 respons untuk ‘Big Data dengan Hadoop’

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout /  Ubah )

Foto Google

You are commenting using your Google account. Logout /  Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout /  Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout /  Ubah )

Connecting to %s