Big Data dengan Hadoop

hadoop

Salah satu implementasi dari Big Data yang cukup terkenal adalah Hadoop atau nama resminya Apache Hadoop. Hadoop adalah teknologi yang dibuat dari sebuah artikel atau paper. Paper ini di bawakan oleh Google untuk menggambarkan Big Data yang mereka gunakan untuk menampung data mereka yang sangat besar. Jadi, Google menginspirasi lahirnya Hadoop. Bedanya Big Data Google tidak bersifat open source sementara Hadoop open source.

Hadoop disini disebut lebih dari sekedar software atau perangkat lunak. Hadoop adalah sekumpulan software yang saling bekerja sama untuk mengolah data. Bisa disebut Hadoop adalah sebuah ekosistem yang terdiri dari software-software yang bekerja sama. Secara garis besar saya pribadi membagi ekosistem menjadi beberapa bagian:

  1. Inti atau core dari Hadoop: Ini adalah software utama yang menjadi dasar dari ekosistem. Software ini bisa didapat di web site Apache Hadoop. Inti hadoop ini terdiri dari beberapa bagian yaitu Hadoop Distributed File System (HDFS) dan Map Reduce. HDFS adalah tempat data-data dan file disimpan. Map Reducedisini adalah program untuk melakukan datamining dan pengolahan data lainnya dari file atau data yang disimpan di HDFS.
  2. Data mining. Bagian ini sebenarnya bisa dikatan adalah API untuk menjalankan Map Reduce. Bagian ini mempermudah membuat dan menjalankan Map Reduce. Dengan demikian akan lebih mudah membuat dan menjalankan query. Contoh dari bagian ini adalah Apache Pig dan Apache Hive
  3. Database NoSQL (Not Only SQL). Bagian ini ada karena proses map reduce biasanya makan waktu lama (karena data yang diproses baisanya besar) dan dilakukan secara periodik dan tidak sewaktu-waktu. Bagian ini memberikan akses data yang lebih cepat dan bisa sewaktu-waktu. Contoh NOSQL yang baisa dipakai adalah Apache HBase dan Apache Cassandra.
  4. Bagian pendukung lain. bagian ini padaumumnya dalah pendukung operasional Hadoop. Contohnya adalah Apache Zookeeper yang berfungsi untuk mengatur distribusi data dan pemrosesan data. Zookeeper dipakai oleh Apache HBase. Apache Flume berfungsi untuk mengatur input kedalam hadoop dari sumer data yang bersifat streaming misalnya dari Twitter. Ada banyak lagi software pendukung Hadoop ini. Seperti Apache Ambari, Apache Oozie dsbnya. Tidak mutlak harus memakai semuanya. Hanya tergantung kebutuhan saja.

Hadoop bisa dijalankan disatu komputer saja (single node) ataupun dalam cluster yang berisi banyak komputer (multi node). Single node biasanya untuk development atau training saja. Hadoop memerlukan Java untuk bisa berjalan. Untuk proses instalasinya juga cukup sederhana. Setelah file core Hadoop di download disitu ada petunjuk menjalankannya. Selanjutnya bisa dipilih mana saja komponen lain yang dibutuhkan.

Apa itu Big Data?

hadoopbigdata

Akhir-akhir ini istilah Big Data marak di gunakan sebagai teknologi yang akan menjadi trend masa depan. Sebenarnya apa sih Big Data itu? Manfaat apa yang diberikan oleh Big Data? Siapa saja yang sudah menggunakan dan mendapatkan manfaat dari Big Data? Berikut sedikit ulasan tentang Big Data.

Big Data adalah sebuah teknologi baru di dunia teknologi informasi dimana memungkinan proses pengolahan, penyimpanan dan analisis data dalam beragam bentuk/format, berjumlah besar dan pertambahan data yang sangat cepat. Pengolahan dan analisis data dalam jumlah sangat besar ini memerlukan waktu yang relatif jauh lebih singkat dengan menggunakan Big Data dibanding teknologi data sebelumnya, misalnya. database relational seperti MySQL.

Ciri-ciri data yang ditangani oleh Big Data:

  1. Jumlah nya sangat besar (Volume). Biasanya ukuran total data dalam terabytes keatas.
  2. Pertumbuhan data sangat cepat (Velocity) sehingga data bertambah dalam jumlah yang sangat banyak dalam kurun waktu relatif singkat.
  3. Bentuk atau format datanya beraneka ragam (Variety). Format disini bisa berupa data dalam tabel-tabel relasional database seperti MySQL, file text biasa, File Excel atau bentuk apapun.

Manfaat yang bisa diberikan dari Big Data antara lain bisa memberikan gambaran yang lebih lengkap dari sebelumnya karena biasanya data yang dianalisis adalah data terstruktur misalnya data relasional database.

Contoh skenario dimana Big Data digunakan misalnya adalah pemanfaatan data dari social media, twitter, facebook dsbnya dipadukan dengan data dari perusahaan sendiri misalnya data dari penjualan atau data pelanggan yang sudah ada di relasional database. Dengan demikian bisa didapatkan analisis untuk melakukan strategi marketing yang jitu. Misalnya dengan menganalisis orang-orang di social media yang berpengaruh untuk memasarkan produk.

Contoh real dimana Big Data benar-benar dinikmati manfaatnya adalah sebuah startup bernama Klarna. Klarna adalah startup dari Swedia yang memberikan pelayanan semacam micro financing untuk e-commerce. Yang ditawarkan Klarna adalah pembeli online bisa langsung beli barang online tanpa membayar langsung. barang akan dikirimkan ke alamat pembeli. Selanjutnya  pembeli diberi waktu untuk membayar barang jika dia sukai dengan barang yang dikirim atau mengembalikan barang tersebut jika tidak disukai.

Nah bagaimana jika pembeli tersebut tidak bertanggung jawab dan tidak membayar barang yang sudah dia terima? Disinilah Klarna memberikan solusi berbasis Big Data. Klarna melakukan analisis terhadap data dari pembeli tersebut sehingga meminimalkan resiko dimanan pembeli tidak membayar barang yang sudah dia terima. Hasilnya Klarna tumbuh menjadi perusahaan micro financing besar untuk pasar e-commerce di Eropa.

Sayangnya untuk Indonesia, berdasarkan survey beberapa perusaahn besar, penggunaan Big Data masih belum optimal. Teknologi ini masih dianggap asing dan belum dianggap akan memberikan hasil yang menguntungkan.