Mengenal Big Data dan Hadoop

Beberapa tahun belakangan ini, jika ditanyakan tentang apa yang sedang menjadi trend dalam dunia Teknologi Informasi (TI), mungkin banyak yang akan menjawab "Cloud Computing". Tetapi, sejak awal tahun 2011 muncul istilah "Big Data" yang kemudian menarik perhatian banyak profesional maupun pemerhati Teknologi Informasi. Sejauh ini, perusahaan-perusahaan terkemuka telah memberdayakan infomasi dan data dengan beragam teknologi manajemen data guna menunjang kemajuan bisnisnya. Sebagian besar telah menggunakan tools seperti Data Warehouse (DWH) maupun Business Intelligence (BI) serta aplikasi manajemen harga dan penjualan lainnya sebagai alat pengolah data yang mereka perlukan dalam aktifitas bisnis.


Big Data adalah istilah yang menggambarkan volume data yang besar, baik data yang terstruktur maupun data yang tidak terstruktur. Big Data telah digunakan dalam banyak bisnis. Tidak hanya besar data yang menjadi poin utama tetapi apa yang harus dilakukan organisasi dengan data tersebut. Big Data dapat dianalisis untuk wawasan yang mengarah pada pengambilan keputusan dan strategi bisnis yang lebih baik

Konsep Big Data yang terdiri dari tiga bagian penting, diantaranya:

Volume
Organisasi mengumpulkan data dari berbagai sumber, termasuk transaksi bisnis, media sosial dan informasi dari sensor atau mesin. Di masa lalu, aktivitas semacam ini menjadi masalah, namun dengan adanya teknologi baru (seperti Hadoop) bisa meredakan masalah ini.
Kecepatan
Aliran data harus ditangani dengan secara cepat dan tepat bisa melalui hardware maupun software. Teknologi hardware seperti tag RFID, sensor pintar lainnya juga dibutuhkan untuk menangani data yang real-time.
Variasi
Data yang dikumpulkan mempunyai format yang berbeda-beda. Mulai dari yang terstruktur, data numerik dalam database tradisional, data dokumen terstruktur teks, email, video, audio, transaksi keuangan dan lain-lain.

Potensi Big Data

Jumlah data yang telah dibuat dan disimpan pada tingkat global hari ini hampir tak terbayangkan jumlahnya. Data tersebut terus tumbuh tanpa henti. Artinya, Big Data memiliki potensi tinggi untuk mengumpulkan wawasan kunci dari informasi bisnis. Sayangnya sampai saat ini, baru sebagian kecil data yang telah dianalisis. Big Data dalam bisnis menjadi strategi yang baik dalam mengolah informasi mentah menjadi keuntungan yang terus mengalir ke organisasi bisnis setiap hari.

Mengapa Big Data Penting?

Pentingnya Big Data, tidak hanya berputar pada jumlah data yang organisasi miliki, tetapi hal yang penting adalah bagaimana mengolah data internal dan eksternal. Kita dapat mengambil data dari sumber manapun dan menganalisanya untuk menemukan jawaban yang diinginkan dalam bisnis seperti: 1) pengurangan biaya; 2) pengurangan waktu; 3) pengembangan produk baru dan optimalisasi penawaran produk; dan 4) pengambilan keputusan yang cerdas.

Jika berbicara mengenai big data, rasanya kurang afdol jika tidak membahas tentang Hadoop. 

Hadoop adalah suatu software platform yang menghubungkan beberapa komputer sehingga dapat saling bekerja sama dan sinkron dalam menyimpan dan mengolah data sebagai satu kesatuan.Hadoop didesain untuk dapat bekerja secara efektif baik dalam skala terkecil yang hanya melibatkan satu server hingga skala besar yang memperkerjakan ribuan komputer dimana masing-masing komputer tersebut memfasilitasi komputasi dan penyimpanan data secara lokal.

Pada Hadoop perhitungan atau proses komputasi itu bisa dibagi ke komputer lainnya tanpa banyak tumpang tindih sehingga hasil menjadi cepat. Bisa diibaratkan seperti gotong royong, semakin banyak komputer dihubungkan maka akan semakin cepat melakukan proses perhitungan. Ketika seluruh komputer Hadoop dihubungkan, kita seperti memiliki harddisk besar. Data akan disebar ke seluruh komputer yang ada, dan jika ada satu atau dua komputer yang mati data tetap akan terjaga dengan lengkap. Berikut adalah gambaran sederhana proses kerja Hadoop

Cara kerja Hadoop: 
Proses kerja Hadoop
3 prinsip penting pada Hadoop, yaitu :
  1. Hadoop dapat menggabungkan banyak komputer menjadi satu kesatuan sistem.
  2. Sistem tersebut dapat membagi proses perhitungan atau komputasi yang biasanya memakan waktu yang sangat lama atau hampir tidak mungkin dilakukan oleh satu komputer. Secara teknis, proses ini biasanya memakai teknik map reduce dan dikoordinasikan oleh sesuatu yang disebut job tracker.
  3. Sistem tersebut dapat membagi beban penyimpanan ke berbagai komputer sehingga jika salah satu atau beberapa komputer mati, data tetap akan terjaga. Sistem ini disebut sebagai Hadoop Distributed File System (HDFS).

Komentar