Dengan berkembangnya era digital, pekerjaan sebagai data science juga ikut berkembang. Salah satu tempat yang bermanfaat untuk dijelajahi dalam dunia data science adalah Kaggle. Yang mana tempat ini akan menjadi tempat bagi pekerja yang bekerja di bidang tersebut. Artikel ini akan membahas tentang apa itu Kaggle secara mendetail.
Pengertian
Kaggle merupakan sebuah situs daring yang menyediakan berbagai sumber daya dan kompetisi dalam bidang ilmu data dan coding. Ada banyak data-data yang bisa kita pelajari di Kaggle dan semuanya bersifat gratis. Semua data-data tersebut merupakan data yang asli, bukan karangan dan semua data tersebut ada yang bersifat sederhana, bahkan ada yang bersifat sangat kompleks.
Selain hal-hal yang bisa dipelajari, terdapat juga kompetisi-kompetisi yang mana kita diminta untuk membuat sesuatu berdasarkan data yang diberi oleh Perusahaan. Hadiah yang bisa diperoleh dari kompetisi tersebut ada yang bersifat uang, ada juga rekrutmen untuk bekerja di sebuah Perusahaan.
Menu-menu
Kaggle terdiri dari berbagai menu yang bisa dijelajahi secara gratis, dari kompetisi, dataset, model, code, diskusi, dan belajar.
Kompetisi
Menu kompetisi di ini terdiri dari berbagai macam, ada kompetisi yang berhadiah jutaan rupiah seperti 100.000$, 80.000$ dll. Ada juga kompetisi untuk mengenal lebih jauh tentang data science. Kompetisi yang dibuat oleh komunitas, dan playground tempat untuk latihan menyelesaikan masalah.
Ketika kita mengikuti kompetisi, maka akan ada beberapa istilah yang akan muncul, yakni:
1. Overview
Overview berisi informasi-informasi tentang kompetisi, seperti syarat-syarat yang diperlukan, permasalahan yang perlu diselesaikan, serta solusi yang diharapkan dari permasalahan tersebut.
2. Data
Terdiri dari data training dan data test. Data training digunakan untuk mencoba penyelesaian yang kita lakukan, setelah berhasil, baru code-code tersebut dimasukkan ke data test yang akan diterima oleh Perusahaan untuk mereka nilai.
3. Kernel
Kernel adalah tempat kita menulis kode-kode untuk menyelesaikan permasalahan di kompetisi tersebut.
Dataset
Setelah mengetahui menu yang ada di kompetisi, menu selanjutnya adalah dataset. Banyak data-data yang bisa kita manfaatkan untuk belajar lebih lanjut seputar data science. Data tersebut dari hal-hal yang sederhana bahkan sampai yang rumit sekalipun.
Data yang disediakan di sini tidak hanya berbahasa Inggris, tetapi juga ada Kaggle dataset Indonesia yang bisa dimanfaatkan apabila tidak terlalu pandai berbahasa Inggris. Dataset yang tersedia di terdiri dari berbagai format seperti CSV, JSON, SQLite, dan BigQuery.
Adapun cara mencari data di Kaggle sangatlah gampang, dari menu home, cari tulisan data, setelah itu barulah muncul menu data yang bisa dicari sesuai keinginan kita.
Data-data yang tersedia terdiri dari berbagai kategori, ada kategori game, education (edukasi), internet, image (gambar), dan news (berita). Bahkan kita bisa memilih data-data yang digunakan untuk pembelajaran, penelitian, data yang sudah dijaga, data yang original, dan lain-lain.
Contoh dataset yang sedang trending saat ini adalah NFL stadium attendance dataset, anime dataset, flight price prediction, dan E-commerce customer behavior dataset.
Models
Kita bisa mencari dan menemukan ratusan machine learning models yang tersedia gratis di website ini. Bahkan model-model yang tersedia ini bisa kita pilih berdasarkan tipe data, seperti data tipe gambar, teks, audio, video, multimodal, tabular, dan categorical.
Bahasa-bahasa yang digunakan di model ini sangat beragam, ada yang dari bahasa Inggris, Rusia, Jerman, Arab, Cina, Korea, Spanyol, Turki dan Multilingual. Adapun model yang saat ini sedang trending di Kaggle adalah mistral, marathi-numbers, CodeLlama, dan Ilama-2
Code
Setelah data dan model, tersedia juga Code-code yang bisa kita nikmati secara gratis. Code-code tersebut bisa kita pilih sesuai kategori, ada code khusus kompetisi, code Python, code R, dan code untuk pemula.
Code-code yang saat ini sedang trending adalah code Customer-Behavior-Analysis, 11 flags – ctf solutions, DEFCON31 CTF – Top 6%, 22 flag solutions, dan CTF-23-Flags-Solution.
Discussions
Menu yang tidak kalah penting di Kaggle ini adalah menu diskusi, yang mana kita bisa berdiskusi dengan orang-orang yang ada di forum. Ada beberapa topic yang telah disediakan di menu diskusi tersebut, di antaranya adalah:
1. General
General terdiri dari pengumuman, sumber daya, dan diskusi yang menarik.
2. Getting Started
Ini tempat orang-orang yang baru saja mendaftar dan ingin mengetahui seputar hal-hal yang ada di website.
3. Product Feedback
Ini tempat untuk meminta tanggapan atas sesuatu dari code-code yang kita buat, sehingga orang-orang yang ada di Kaggle ini bisa memberi masukan.
4. Question & Answer
Tempat untuk bertanya tentang segala sesuatu selain tentang data science.
5. Competition Hosting
Tempat diskusi untuk meminta pendapat dan support dalam menjalankan kompetisi.
6. Accomplishments
Tempat diskusi tempat kita menceritakan keberhasilan kita dan pencapaian yang telah kita raih.
Learn
Menu terakhir yang bisa kita lihat adalah learn, tempat kita belajar tentang skill-skill seputar data science. Menu Learn ini terdiri dari dua, yakni Courses dan Guides.
1. Courses
Di courses kita bisa belajar mandiri seputar ilmu-ilmu yang berkaitan dengan data science secara mandiri. Ilmu-ilmu yang bisa dipelajari adalah:
- Intro to Programming
Pengenalan tentang Python untuk orang-orang yang belum mempunyai pengalaman dalam hal coding.
- Python
Berisi bahasa utama untuk belajar data science.
- Intro to Machine Learning
Berisi pembahasan tentang machine learning dan membuat model pertama.
- Pandas
Tes-tes simpel untuk melatih skill data.
- Intermediate Machine Learning
Berisi hal-hal data yang mulai sedikit sulit.
- Data Visualization
Di sini kita belajar cara membuat visual data.
- Feature Engineering
Belajar untuk membuat model yang lebih baik.
- Intro to SQL
Belajar tentang SQL dengan menggunakan Google BigQuery.
- Advance SQL
Mempelajari lebih lanjut seputar SQL.
- Intro to Deep Learning
Belajar menggunakan TensorFlow dan Keras untuk membangun dan melatih jaringan dalam struktur data.
- Data Cleaning
Belajar untuk membuat tempat kerja bersih dari data-data yang berantakan.
2. Guides
Setelah course, di menu learn, kita akan melihat guides (petunjuk), yang berisi petunjuk-petunjuk yang ada di seputar komunitas seperti TensorFlow Guide, Kaggle Competition Guide, dan yang lainnya.
Bisa saja bagi kita untuk belajar secara mandiri untuk menjadi data scientist. Tetapi jika kita hanya belajar secara mandiri, susah bagi kita untuk mengetahui apabila terjadi kesalahan dan kalaupun bisa pergi ke forum diskusi, tidak banyak orang yang akan menjelaskan masalah yang kita hadapi secara mendetail. Mereka hanya akan memberi jawaban secara singkat, sehingga kita harus mencari tahu penjelasan detail dari sumber lain.
Akan lebih baik bagi kita untuk belajar untuk menjadi data scientist di CourseNet. Karena pembelajaran yang dimiliki sudah diakui oleh negara, sehingga sertifikat hasil pembelajaran bisa digunakan untuk mencari kerja. Bahkan kita juga akan dibantu untuk mendapatkan pekerjaan kepada beberapa perusahaan yang sedang membutuhkan tenaga kerja.
Itulah beberapa penjelasan tentang platform daring yang banyak membantu data scientist, yakni Kaggle.