5 Mart 2016 Cumartesi

İklim Değişikliği - Veri Analizleri ve Görselleştirme Çalışması



Python 3.4 ortamında IPython Notebook üzerinde yürüttüğüm gerçek dünya problemi çalışması yakın bir zaman içinde tamamlandı.Projede  küresel bir problem olan iklim değişikliği konusunu ele aldım.İklim değişikliği ile ilgili  karbondioksit emisyonu ve onu etkileyen değişkenleri  ülkeler ve yıllar açısından detaylı olarak inceledim.Çalışmada  yaklaşık olarak  95 bin  satır veri işlendi.Verilerin elde edilmesi sürecinde Dünya Bankası,ABD devlet kurumları,uluslararası meteorolojik araştırma merkezleri ve son olarak Birleşmiş Milletler 'in veri merkezine sırayla uğradım.Bu süreç sonunda Birleşmiş Milletler'in veri setini kullanmaya karar verdim.





Bu çalışmayı  bir meteoroloji ya da jeoloji uzmanı bakış açısıyla yapmadım çünkü bu alanlarda bir uzmanlığım bulunmuyor.Daha çok iklim değişikliği ile ilgili genel soruları yanıtlamaya çalıştım.Ve kullandığım paket yazılımların etkili özelliklerini ön planda tuttum.

Çalışmada sıklıkla Python'un Pandas veri analizi  ve Seaborn veri görselleştirme  kütüphanelerini kullandım.Kompleks ve detaylı sorgular (query) ,keşifsel veri analizleri, veri dönüştürmeleri,veri manipülasyonları  ve görsel raporlar unsurlarını projede kullandım.Aşağıda projeden bazı görsel örnekler yer alıyor.Birinci grafik bütün yıllar için  ilk beş ülkenin benzin üretim ve tüketim miktarları  sıralaması , ikincide  benzin üretim-tüketim ve karbondioksit emisyonu arasındaki korelasyon ilişkisi ve son grafikte bütün ülkeler için 2003-2013 yılları arasında karbondioksit emisyonu değişikliği gösterilmiştir.





Diğer bir yandan da  keşifsel veri analizleriyle ,  son beş yılda en çok karbondioksit salınımı yapan ,son on yılda en çok gaz/dizel yağı üreten ve tüketen ülkeler hangileridir  gibi global iklim değişikliği sorularını  sorgular (query) kodlayarak cevapladım.Bu soruları cevapladıktan sonra bütün bu elde ettiğim analiz sonuçlarını bir araya getirdim ve yukarıda gördüğünüz görsel raporları elde ettim.Ve bütün bu işlemler yani kodların çalıştırılması ( 95 bin satırlık veriyle) , IPython ortamında Pandas paket programı ile  1 dakikanın altında çok kısa bir süre içinde işlendi.Üstelik projeyi de  orta seviye bir işlemciyle intel core i5 1.7ghz ve 6gb bellek özelliklerine sahip bir notebook ile gerçekleştirdim.Projeyi yürütürken ve test ederken hiçbir şekilde performans ve çökme sorunlarıyla karşılaşmadım.

Eğer proje hakkında daha detaylı bilgiye ve kaynak kodlarına erişmek istiyorsanız Github profilimde yer alan bu sayfayı ziyaret edebilirsiniz. Projenin kaynak kodları  hakkında da her türlü olumlu-olumsuz yorumlardan ve önerilerinizden de çok memnuniyet duyarım.

1 yorum: