18 Şubat 2016 Perşembe

Kaggle Veri Bilimi Proje Yarışmasına Giriş

Şubat ayı için belirlediğim yol haritasında  1.durak olan web scraping çalışmasını  tamamladıktan sonra sırada 2.durak olan Kaggle Competition (veri bilimi proje yarışması )  beni bekliyor.Bunun için dün Kaggle platformuna üye oldum .Üye olduktan sonra hesabımı, spam tespit etme algoritması ile sınamak için  bir matematik problemi sordular.Problemi çözmek için python'da üç beş satırlık bir for döngüsü yazdım.Her ne kadar hoş bir karşılama olmasa da yaptıkları iş kötü niyetli robot yazılımları engellemek için çok faydalı bir işti.


Biraz Kaggle platformundan bahsedeyim.Kaggle'da şu an itibariyle 4 'ü para ödüllü olmak üzere toplam da 9 veri bilimi yarışması bulunuyor.En büyük para ödüllü turnuva   200 bin dolar ile Sağlık sektöründe kardiyoloji verileri üzerinden Kalp Hastalıklarını teşhis tanıma ile ilgili bir veri bilimi projesine adanmış.Turnuvanın tamamlanmasına tam 25 gün kala  535  veri bilimi  ekibi ve 632  bireysel katılımlı veri bilimciler birbirleri arasında mücadele veriyorlar.Veri bilimi turnuvaları  dışında Kaggle'da projelerinizde kullanabileceğiniz veri setleri,kod örnekleri,iş ilanları ve forum bulunuyor.

Son olarak  Kaggle'da yapmak istediğim veri bilimi projesinden bahsedeyim.Proje konusunu Kaggle'ın 101 olarak kategorilendirdiği yeni başlayan veri bilimciler için düzenlenen turnuvalarından seçtim.İki alternatifim vardı ben Digit Recognizer ve Titanic arasından  Titanic:Machine Learning from Disaster konulu turnuvayı seçtim.Amacım burada yarışmak değil veri bilimi bilgilerimi test etme,sınama ve eksiklerimi görmek olacak.Projenin amacı, Titanik gemisinin mevcut sefer verileri üzerinden hangi yolcuların hayatta kalabileceğini tahmin edebilen bir Makine Öğrenmesi modeli tasarlamak.Bunu daha anlaşılır bir şekilde açıklamak gerekirse ; kazanın olduğu 15 Nisan 1942 gününden bir gün öncesine 14 Nisan 42'ye zaman yolculuğu yaparak döndük diyelim.Kazanın sonuçlarını gösteren tabloyu  da yanımıza almayı unuttuk.Elimizde sadece Titanik gemisine ait yolcu bilgilerini ve diğer gemi ile ilgili teknik bilgileri gösteren veriler ve kafamızda kaza sonuçları tablosundan yaptığımız analiz bilgileri var.Görevimiz burada bir nevi medyumluk yaparak John ve Marry 'lerin arasından olacak gemi kazasında hayatta kalabilecek vatandaşları tahmin edebilmek.Buradaki gri çizgi ise geçmişte yaptığımız medyumluğu şimdiki zamanda bilgisayara yaptırmak oluyor.Bu olmuş bitmiş olayı kazmanın ne faydası var derseniz kısmen haklısınız derim.Faydası ise veri bilimi yeteneklerimizi  geliştirmesi olacaktır.

Projeyi, Python 3 ile IPython Notebook üstünde geliştireceğim.Python'un Pandas (Veri Analizi) ve Scikit Learn (Makine Öğrenmesi),SciPy.stats (istatistik)  kütüphanelerinden istifade edeceğim.Projeyi yaparken birçok kaynak (ilgili kütüphane dökümantasyonları ,API dökümanları,Python Machine Learning kitabı) eş zamanlı olarak açık ve erişime hazır olacak.Bu projenin 3.durak olarak belirlediğim daha derin nitelikli olmasını planladığım veri bilimi projem için bir ön hazırlık niteliğinde olacağını düşünüyorum.

Hiç yorum yok:

Yorum Gönder