17 Şubat 2016 Çarşamba

Spark Semineri


Kısmet olursa Cumartesi günü saat 11:00 İtü Maslak Kampüsünde Apache Spark ile ilgili düzenlenecek bir  canlı uygulama seminerine katılacağım.Seminere kaydımı meetup.com sosyal platformunda İstanbul Spark  topluluğu üzerinden yaptırdım.Özellikle workshop amaçlı olması sebebiyle çok daha faydalı bir seminer olacağını düşünüyorum.

Apache Spark, WikiPedia'ya göre açık kaynak olarak düzenlenmiş ve bilgisayar kümeleri (cluster computing) yapısı üstüne  kurulmuş öncelikle Berkeley Kaliforniya AMPLab'da geliştirilmiş ve sonrasında Apache Yazılım Kuruluşuna bağışlanmış bir veri işleme motorudur.Özellikle geniş ölçekli big data olarak tabir edilen verilerin işlenmesi için ideal bir yapıdır.Spark sisteminin çalışması hakkında  teknik bilgiyi Sadi Şeker'in şu yazısında   ve devveri.com'da bulabilirsiniz.Spark'ın sitesinde şu açıklama dikkat çekicidir "bellekte Spark , Hadoop Map Reduce'den 100 kat ve disk'ten 10 kat daha hızlı çalışır.Scala,Java,Python ve R dillerinin paralel kullanıldığı etkin uygulamalar yazılmasına olanak tanır.İçeriğinde SQL,MLLib (Makine Öğrenmesi),GraphX(grafik işleme) ve Spark Streaming (gerçek zamanlı veri yayınlama) kütüphaneler barındırır.Spark'ın ilk sürümü  30 Mayıs 2014 tarihinde yapılmakla birlikte  tam sürümü  4 Ocak 2016 'da yapılmıştır.

Benim Spark ile tam olarak tanışmam beş saatlik bir içerik üzerinden ;  dataquest üzerinde aldığım bireysel öğrenmeli Data Scientist  eğitiminde gerçekleşmişti.Daha öncesinde Quora,kdnuggets ve takip ettiğim data science bloglarında kısmen bilgi sahibi olmuştum.Henüz çok yeni bir veri işleme yazılımı teknolojisi olması sebebiyle  kullanımı konusunda insanların kafasının genel itibariyle karışık olduğunu gördüm.Bir kesim sadece Scala ve Java ile kullanıldığında etkili olacağını söylerken diğer bir kesim de Python ve Spark 'ın kombine kullanılmasından çok büyük faydalar sağlanacağını söylemişler.Kdnuggets'de yer alan bir yazıda ise Python ve Spark ile şimdiye kadar hiç Kaggle data science yarışmalarında ödül kazanılamadığından dem vurulmuş bununla birlikte giderek aradaki farkın kapatıldığına işaret edilmiş.Ve ek olarak belirtmem gerekirse Spark'ın Python ile birlikte kullanılabilmesi için de PySpark uygulaması oluşturulmuştur.

Hiç yorum yok:

Yorum Gönder