Kecerdasan Buatan (Artificial Intelligence) di Hadoop

Tulisan kali ini mengenai penggunaan kecerdasan buatan atau Artificial Intelligence (AI) di Hadoop. Untuk mengawali akan kita bahas dulu dua jenis fungsi analisis Big Data berdasarkan jenis atau tipe teknologi yang digunakan. Ada dua jenis analisis Big Data berdasarkan penggunaan teknologinya.

  1. Analisis untuk memberikan gambaran lengkap data (informasi yang tersurat) yang disimpan di Big Data. Analisis jenis ini hanya menampilkan data yang disimpan di Big Data.Contoh dari jenis analisis ini misalnya adalah grafik penjualan per hari di supermarket atau jumlah hashtags berikut namanya dari tweets yang didapat dari twitter. Karena hanya menampilkan data, maka tidak diperlukan sentuhan AI. Algortima biasa yang sederhana cukup untuk analisis jenis ini. Komponen inti yang wajib ada untuk analisis ini, selain Big Data, adalah visualization software. Karena melihat data ini yang cukup banyak, akan lebih mudah jika disajikan dengan tampilan yang baik misalnya dengan menggunakan grafik dan sebagainya. Selain itu visualization tool juga memungkinkan drill-down untuk melihat lebih detil dari data tersebut. Semua aplikasi business intelligence konvensional memiliki kemampuan ini.
  2. Analisis untuk mencari informasi tersembunyi (informasi yang tersirat) dari data yang disimpan di Big Data. Analisis yang kedua ini tidak hanya menampilkan data yang ada tetapi menampilkan data baru yang diambil melalui proses analisis khusus dari data yang diambil dari Big Data. Data baru ini didapat dengan menerapkan algoritma artificial intelligence (umumnya machine learning) dan tidak bisa hanya dengan membaca data secara tersurat. Contoh analisis kedua ini adalah membaca sentimen analisis dari tweets, mengelompokkan berita berdasarkan sifat dan isinya secara otomatis atau klasifikasi email (spam atau bukan).

Kedua analisis ini diperlukan untuk analisis Big Data. Tulisan kali ini akan lebih membahas jenis analisis kedua. Jenis algoritma AI yang banyak digunakan adalah machine learning (ML) atau pembelajaran mesin. Sifat umum dari algoritma ini adalah membutuhkan pelatihan untuk menyempurnakan hasil dari algoritma ML. Selain itu pembacaan data juga berulang-ulang untuk terus meningkatkan akurasi dari algoritma ML.

download

Analisis kedua ini hanya bisa diimplementasikan di Hadoop versi 2.X atau versi Hadoop yang sudah mengimplementasikan YARN (Yet Another Resource Negotiator). Hal ini karena sifat data analisis diatas yang berbeda dengan map reduce biasa. Untuk fungsi ML di Hadoop ini ada beberapa alternatif. Dua alternatif yang paling banyak digunakan adalah dengan menggunakan Apache Mahout dan Apache Spark.

spark

Perbedaan diantara kedua software ML untuk Hadoop diatas adalah tempat data yang dianalisis. Untuk Apache Mahout data yang  dianalisis berada di disk atau media penyimpanan Hadoop / HDFS. Sedangkan Apache Spark menganalisis data yang disimpan di memory Big Data (bukan di disk). Karena tempatnya inilah untuk Mahout analisis datanya membutuhkan waktu yang relatif lebih lama akan tetapi data yang dianalisis juga relatif lebih besar daripada Spark. Sedangkan Spark memerlukan waktu yang relatif singkat untuk mengalisis data akan tetapi data yang dianalisis juga relatif lebih kecil karena kapasitas memory lebih kecil dibanding disk.

Algoritma ML yang biasanya digunakan untuk Big Data antara lain:

  1. Regression. Regression ini adalah untuk mencari trend dari data. Fungsi ini mirip bahkan banyak digunakan di Business Intelligence software. Biasanya regression ditampilkan dalam bentuk grafik
  2. Classification. Pengelompokan dokumen atau data berdasarkan kelas atau kategori yang kita tentukan. Misalnya klasifikasi email untuk menentukan email itu adalah spam atau bukan.
  3. Clustering. Pengelompolan data secara otomatis bukan berdasarkan kategori yang  sebelumnya kita tentukan. COntohnya adalah Google News yang secara otomatis mengelompokkan berita secara otomatis.
  4. Collaborative filtering atau recommendation. Adalah sebuah sistem untuk memberikan rekomendasi data. Contohnya adalah rekomendadi barang yang dilakukan oleh Amazon dan rekomendasi film yang ada di netflix.
  5. Frequent Item set. Adalah suatu algoritma yang digunakan untuk menghitung kemunculan item dari keseluruhan data di Big data. Contoh algoritma ini digunakan di supermarket untuk mencari barang-barang apa saja yang sering muncul bersamaan di struk belanjaan. Selain itu output dari algoritma ini bisa juga menjadi input untuk collaborative filtering.

Semoga tulisan ini membantu.

 

3 respons untuk ‘Kecerdasan Buatan (Artificial Intelligence) di Hadoop

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout /  Ubah )

Foto Google

You are commenting using your Google account. Logout /  Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout /  Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout /  Ubah )

Connecting to %s