Sejak manusia mulai mensistematisasikan pengetahuan, ia mempunyai kebutuhan untuk mengklasifikasikan dan mendefinisikan realitas di sekitarnya. Untuk melakukan hal ini ia memperkenalkan metode kuantitatif untuk menggambarkan segala sesuatu di sekitarnya.
Basis data adalah alat TI yang bertujuan untuk memudahkan dan efisien tidak hanya menyimpan deskripsi realitas yang diinginkan, tetapi yang terpenting, mengambil data dengan cara yang berkorelasi untuk mengekstrak informasi.
Mari kita ambil contoh sederhana. Produk yang dijual di supermarket dapat dijelaskan berdasarkan merek, nama dagang, deskripsi dan harga. Pelanggan tetap mungkin memiliki "kartu loyalitas" yang dikaitkan dengan beberapa data pribadi, komposisi unit keluarga, dan kualifikasi pendidikan. Setiap resi supermarket menghubungkan pelanggan dengan produk yang dibeli pada tanggal dan waktu tertentu. Ini adalah datanya.
Namun informasi apa yang dapat kita peroleh? Misalnya, hari apa dalam seminggu yang paling banyak menjual bir, atau jenis makanan yang dibeli oleh keluarga yang setidaknya salah satu anggotanya memiliki gelar sarjana.
Semakin banyak detail yang kita simpan untuk suatu realitas tertentu, semakin besar kemungkinan untuk menginterogasi sistem untuk mengekstrak informasi berharga. Dalam bahasa Inggris kata kerja yang digunakan untuk menyatakan konsep mempertanyakan sistem adalah pertanyaan yang sebenarnya memiliki akar bahasa Latin, kata kerja quaero (meminta untuk mendapatkan sesuatu). Rahasia untuk membuat database yang berpotensi digunakan untuk berbagai macam query adalah dengan merepresentasikan data deskriptif dari suatu realitas dalam bentuk atom dan non-agregat.
Pada contoh sebelumnya deskripsi produk bukanlah cara yang baik jika kita memasukkan detail seperti misalnya. berat suatu produk atau jumlah paket yang dikemas bersama. Data yang tidak dikatalogkan secara eksplisit membuat pemrosesannya menjadi sangat rumit karena memerlukan interpretasi konten.
Untuk membuat katalog data menjadi intuitif, konstruksi tabel digunakan, di mana entitas yang diminati diwakili oleh baris (misalnya produk yang dijual, pasien, dll.) dan karakteristiknya berdasarkan kolom (misalnya, merek, nama produk, harga , dll.). Tabel juga dapat mewakili hubungan antar entitas yang berbeda. Misalnya, jika saya perlu merepresentasikan hubungan kepemilikan suatu kendaraan, yang saya perlukan hanyalah tabel yang setiap barisnya menunjukkan kode pajak pemilik dan pelat nomor kendaraan, yaitu dua karakteristik yang memungkinkan saya mengidentifikasi pemilik dan kendaraan secara unik. .
Yang dijelaskan sejauh ini adalah model data relasional yang diusulkan oleh Edgar Codd (IBM1) yang masih mewakili standar representasi data, juga berkat kesederhanaan bahasa yang dikembangkan untuk query sistem (SQL, kadang-kadang disebut sebagai singkatan dari Structured Query Language, meskipun pada kenyataannya ini adalah nama yang diberikan untuk standar tersebut). bahasa untuk membedakannya dari nama komersial yang digunakan oleh IBM, SEQUEL).
Ketersediaan sejumlah besar informasi rinci yang disimpan dalam database relasional memungkinkan ekstraksi informasi yang berguna untuk pemantauan, pengelolaan, dan perencanaan strategis suatu organisasi. Misalnya, agregasi penerimaan individu dari suatu perusahaan komersial, atau penilaian keuntungan seorang pelajar, memungkinkan kita mempelajari tren keseluruhan penjualan (menurut slot waktu dalam sehari, berdasarkan jenis pelanggan, dll.) atau karir siswa (hasil ujian universitas per semester, program studi, dll.). Operasi ini dilakukan di Gudang data, arsip tempat data disimpan dalam bentuk agregat. Alat analisis data yang digunakan dalam gudang data disebut Business Intelligence dan mencakup beberapa teknik statistik dan statistik Mesin belajar. Istilah ini telah digunakan di masa lalu Data Mining menunjukkan bahwa data adalah tambang untuk mengekstraksi nilai.
Model relasional memungkinkan data disimpan secara efisien dan dapat melakukan berbagai jenis korelasi, tetapi dengan kelambatan pemrosesan intrinsik karena pemisahan informasi ke dalam tabel-tabel berbeda yang memerlukan beberapa operasi pembacaan dari sistem penyimpanan untuk menghasilkan hasilnya. Model NoSQL telah menyebar selama 20 tahun terakhir2 (Tidak hanya SQL) khusus untuk menyimpan agregat. Contoh dari sektor e-commerce dapat memperjelas konsep tersebut. Saat kita mencari suatu produk, dan membandingkan alternatif yang berbeda, kita mempunyai kesempatan untuk memilih karakteristik yang diinginkan. Ini adalah fungsi khas model relasional yang menyimpan karakteristik produk secara terstruktur. Misalnya untuk sebuah televisi kita dapat memilih ukuran layar, resolusi, ada tidaknya port koneksi tertentu, dll. Saat kami melanjutkan pembelian, kami akan dapat menggunakan kode diskon atau penawaran hari ini. Semua detail ini disimpan dalam satu elemen database NoSQL yang mewakili tanda terima atau faktur yang setara. Faktanya, akan sulit untuk menghafal sejarah berbagai versi produk yang dijual, kampanye promosi dan kode diskon melalui model relasional.
Oleh karena itu, dalam organisasi modern, kami menemukan database yang berbeda, masing-masing dikhususkan untuk tujuan tertentu: database relasional untuk menyimpan semua detail realitas tertentu, dan database NoSQL untuk mewakili agregat yang mudah diambil tanpa perlu mengkorelasikan informasi setiap waktu. Oleh karena itu kita sering berbicara tentang hafalan yang gigih poliglot3.
Kebutuhan untuk menyimpan data dan kemudian memprosesnya telah meningkat drastis saat ini berkat berkembangnya berbagai jenis sensor yang sering kita sebut dengan istilah umum. Internet of Things. Dalam kehidupan kita sehari-hari, kita mungkin menggunakan perangkat yang dapat dikenakan untuk memantau beberapa parameter aktivitas kita. Banyak kendaraan (mobil, skuter, sepeda, dll.) memungkinkan penghafalan rute yang diambil dan pemakaian beberapa komponen. Di rumah kita ada meteran utilitas rumah tangga pintar karena mereka berkomunikasi, pada interval waktu yang konstan, informasi mengenai konsumsi listrik, gas atau air. Data ini relevan baik untuk mengidentifikasi situasi anomali atau berbahaya secara instan, namun yang terpenting, data ini berguna bila dikumpulkan untuk mengidentifikasi tren dan kebiasaan.
Kelimpahan data, terstruktur dan tidak terstruktur, dikelola dengan model dan teknologi berbeda (sering disebut sebagai danau data), dalam beberapa tahun terakhir telah memunculkan sosok profesional ilmuwan data, yaitu, spesialis dalam rantai data mulai dari produksinya, hingga pemfilteran, pembersihan, dan agregasinya untuk sampai pada teknik kueri yang memungkinkan informasi diekstraksi.
Kita hidup dalam apa yang disebut masyarakat informasi4, di mana penyimpanan, representasi, dan korelasi antar data merupakan kekayaan sejati. Bukan suatu kebetulan jika pada tahun 2006 pepatah itu menjadi terkenal “Data adalah minyak baru”5, dan yang lebih baru lagi “kecerdasan buatan adalah listrik baru”6.
1https://www.ibm.com/history/edgar-codd
2https://sheinin.github.io/nosql-database.org/
3https://martinfowler.com/articles/nosqlKeyPoints.html
4https://www.manuelcastells.info/en/
5https://www.sheffield.ac.uk/cs/people/academic-visitors/clive-humby
6https://www.gsb.stanford.edu/insights/andrew-ng-why-ai-new-electricity