Seminerden Notlar

İtü Maslak kampüsünde yerleşik Arı Teknokent binasında "Exploring Wikipedia With Spark Workshop" isimli seminere bugün katılmış bulundum.Seminer Big Data Sistem Mimarı Şafak Serdar Kapçı tarafından sunuldu ve düzenlendi. Seminerin ilanı İstanbul Spark Meetup grubundan yapılmıştı. Seminer oldukça faydalı ve bilgilendirici geçti.Workshop da uygulamalar çoğunlukla Scala dili kodlanmıştı.Bununla birlikte sorgu işlemlerinde Sql sorgu dili de kullanıldı.Spark üzerinde SqlContext nesnesi ile hedef veri setlerine sql sorguları atmak mümkün oluyor.WorkShop'un ilk kısmında English Wikipedia üstünde sayfa görüntülemeleri üstünde keşif analizleri yapıldı.Haftanın hangi günü wikipedia en çok trafiği çekiyor,sayfa görüntülemelerinde kaç tanesinin masaüstü ve mobil konumlardan yapılıyor olduğu gibi sorulara SparkSql ile yanıt vermeye çalıştık.İkinci kısımda Wikipedia tıklatma akışı üstünde analizler yapıldı.Wikipedia'dan en çok istek edilen 10 makale nedir,Wikipedia'ya en çok trafik getiren siteler hangileri gibi sorular yanıtlandı.Bu analizlerin yapıldığı veri seti ise Şubat 2015 için toplam 3.2 milyar istek (request) le 22 milyon adet veriyi kapsıyordu.Bununla birlikte böyle devasa veri boyutuna rağmen yaptığımız sorgulamalar kimi zaman 1 saniyenin altında kimi zaman da birkaç saniye içinde gerçekleşiyordu.Tabii ki bu kadar hızlı sorgulamalar yapmamız da başta Spark'ın big data yazılım teknolojisiyle birlikte kullanıyor olduğumuz Databricks sanal makine platformunun da payı vardı.Mesela benim kullanıyor olduğum sanal makine kümesi toplam 270 GB Ram ve 8 çekirdekli işlemciye sahipti.Workshop'un 3.kısmında ise biraz daha ileri seviye scala ile nitelikli kod yazmayı gerektiren uygulamalar yapıldı.Bunlardan biri de Wikipedia üzerinde en çok kullanılan 10 kelime sorusunu yanıtlayan bir Scala kod bloğuydu.Bu iş için ilk önce geçiçi yeni bir tablo oluşturulduktan sonra ikinci aşamada RDD (Esnek Dağıtım Veriseti) ile flatMap,map,reduceByKey dönüşüm fonksiyonları ile kelime sayacı oluşturuldu.Ve son aşamada Sql sorgusu ile en çok kullanılan 10 kelimenin bilgisi elde edilmişti.Ve bütün bu işlemlerin yapılması sadece 1 dakikanın altında 25 saniye gibi olağanüstü bir sürede gerçekleşti.En son olarak da Spark'ın grafik veri işleme aracı olan GraphX'e kısaca değinildi.Bu veri işleme aracının yaptığı işin temelinde veriyi bir network ağı halinde ele alması ve analiz edilmesine olanak tanıması yatıyor.Örnek uygulamalar olarak da seminerde sosyal medya ağları ve google'ın pagerank seo uygulaması verildi.

Osman EMRE - Kişisel Blog

Pages

20 Şubat 2016 Cumartesi

Seminerden Notlar

Hiç yorum yok:

Yorum Gönder

Toplam Sayfa Görüntüleme Sayısı