DataQuest eğitim platformu üzerinden yürüttüğüm Data Scientist çalışmasında son aşama olan "Machine Learning" (Makine Öğrenmesi) bölümünü de şu an (03:11) itibariyle tamamlamış oldum.Bu platform üzerinde Makine Öğrenmesi içeriğinde Sınıflandırma,Kümeleme,Regresyon ve Boyut İndirgeme alanlarıyla ilgili algoritmaların Python dili ile programlanmasına dair örnekleri inceledim ve platformda kodları çalıştırdım.Epeyce meşakkatli ve yorucu bir çalışma oldu.Makine Öğrenmesi akademik alanda da gerçekten zor ve üst seviye bir alan.Eğitim içeriği de doğrusu beklentilerimi pek karşılamadı.Ama kötü de sayılmazdı.Şu an zaten bu kadar düşük ücrete Python ile eğitim veren başka bir online eğitim sitesi de bulunmuyor.İnternette Data Science kursları en az 500 dolardan başlıyor.Eğitim içeriğinde ben örnek projeleri daha çok görmek isterdim fakat ML algoritmaların python dilinde nasıl kodlandığına daha çok öncelik vermişler.Kodlamanın nasıl yapıldığını ezbere bilmeye gerek yok çünkü bu işlev için Sci-Kit Learn kütüphanesi mevcut.Bu kütüphane sayesinde onlarca satırdan oluşan bir mesela doğrusal regresyon algoritmasını şu satır ile "from sklearn.linear_model import LinearRegression" programınıza dahil edebiliyorsanız.Bunu programda kullanabilmek yapmanız gereken tek şey bir nesne oluşturup mesela "model=LinearRegression()" ilgili kütüphaneye ait istediğiniz sınıfı çağırmak oluyor.
Ayrıca eğitim dışında tavsiye üzerine Python Machine Learning isimli kitabı temin ettim.Bir sonraki aşamada hazırlayacağım ilk data science projemde şüphesiz ki bu kitap çok faydalı bir başvuru kaynağı olacaktır.Proje öncesinde dataquest üzerinde Apache Spark ,Map-Reduce ve R bölümlerini bitireceğim.Burada 10 saatlik bir iş yükü var.Sonrasında data science projem için hazırlıklara başlıyor olacağım.
27 Ocak 2016 Çarşamba
9 Ocak 2016 Cumartesi
Excel Mühendisliğini Bırakmalıyız
Şu an bir Kobide veya küçük bir işletmede yönetici olsaydım yapacağım işlerden biri de Excel'i mühendislere yasaklamak olurdu.Evet yanlış duymadınız dalga filan geçmiyorum.Sebeplerini de detaylı bir şekilde anlatmaya çalışacağım.Geçenlerde "boşa kürek çekiyoruz" başlıklı yazımı okuyanlar Türkiye'nin İşGücü verimliliği açısından ne kadar kötü durumda olduğunu hatırlayacaktır.Bence bu pastada büyük şirketler dahil herkesin payı olmalı.Sorunun kaynağı ise işletmelerde çalışan mühendislerin iş hayatının Excel-Mail-Telefon üçgeni içinde gezmesidir.Mühendisler asıl yapmaları gereken işi yapmıyorlar.Bunun yerine Excel'de pivot tablo oluşturma,rapor şablonu düzenleme-hazırlama,görsel grafik rapor düzenleme gibi ıvır zıvır işlerle uğraşıyorlar.İşletmelerde mesela örnek verirsem Endüstri mühendisleri kendi alanlarıyla ilgili olan ProModel(Benzetim),Flap(Tesis Planlama),AIMMS (Optimizasyon) gibi programları kullanamıyorlar.Bana Türkiye'de bu saydığım dallarda yazılım kullanan 10 tane işletme gösterirseniz söz bu yazımı özür dileyerek kaldırmaya da hazırım.Ama eminim ki kimse gösteremeyecek.Aslında mesele yazılım kullanmak da değil.Önemli olan sistem tasarlamaktır.Hangi mühendislik olursa olsun fark etmez mühendisler her yaptığı işte kendi uzmanlık alanları ile ilgili sistem tasarlar.Ama belki de çok hayalcilik yapıyorum sonuçta yerli otomobil üretimi olmayan bir ülkeden bahsediyoruz.
Yanlış da anlaşılmasın Excel'i bütünüyle kaldırın demiyorum.Evet Excel'de yapılan işleri hangi departmansa o departman içinde tek bir kişi yürütebilir.Evet Excel etkin bir şekilde kullanıldığında bu mümkündür.Geri kalan mühendisler yatacak mı hayır.Mühendisler bu sefer kendi işlerine odaklanacaklardır.Bu sayede iş geliştirme projeleri artacak ve şirket çok büyük kazanımlar elde edecektir.Bu tip kazanımların ABD'de geçmişte çok fazla örnekleri olmuştur.Buraya yazarsam sayfalarca sürecektir.Merak edenler 2.Dünya Savaşından eser kalan Yöneylem Araştırması ile elde edilen kazanımlara buradan bakabilirler.
Yanlış da anlaşılmasın Excel'i bütünüyle kaldırın demiyorum.Evet Excel'de yapılan işleri hangi departmansa o departman içinde tek bir kişi yürütebilir.Evet Excel etkin bir şekilde kullanıldığında bu mümkündür.Geri kalan mühendisler yatacak mı hayır.Mühendisler bu sefer kendi işlerine odaklanacaklardır.Bu sayede iş geliştirme projeleri artacak ve şirket çok büyük kazanımlar elde edecektir.Bu tip kazanımların ABD'de geçmişte çok fazla örnekleri olmuştur.Buraya yazarsam sayfalarca sürecektir.Merak edenler 2.Dünya Savaşından eser kalan Yöneylem Araştırması ile elde edilen kazanımlara buradan bakabilirler.
The Near Future : Veri Bilimi
Neden The Near Future ifadesini başlıkta kullandığımı merak ettiyseniz bu yazı beklentinizi karşılayabilir.Bu ifadeyi ABD'de yerleşik olan, Data Science çözümleri geliştiren ve danışmanlığını yapan bir şirketin kullandığı slogan üzerinde görmüştüm.İnsanoğlu her zaman geleceği merak etmiştir.Geçenlerde Discovery Science'da izlediğim belgeselde Stephen Hawking'in geleceğe zaman yolculuğu merakında olduğu gibi.Bu merak insanı her daim daha çok araştırma ve bilgiye muhtaç etmiştir.Hangi iş üzerinde hangi alt alanla ilgili olursa olsun yakın geleceği görebilmek kurumlara çok büyük avantajlar kazandırmıştır.İşte son zamanlarda gelişen veri sistemleri ve programlama teknolojileriyle birlikte yeni bir disiplin "Veri Bilimi" ortaya çıkmıştır.Veri Bilimi özellikle ABD'de İş Zekası'nın tahtını sarsmaya başlamıştır.Kurumlar artık sahip oldukları verileri analiz ederek data mining çalışmalarıyla boyutlar (satış,üretim,finans gibi...) arasında önemli ilişkileri ortaya çıkarıp faydalı olgular o elde etmekle yetinmek istemiyorlar.Bütün bu çalışmaları bir adım daha öteye taşıyarak sahip oldukları veriler üzerinden yakın geleceğe dair tahminsel modeller tasarlayarak önemli kazanımlar da elde etmek istemeye başladılar.Bu bilgi aslına bakılırsa yeni bir şey değil.Kendi eğitim hayatımdan örnek verecek olursam mesela bir Üretim Planlama dersinin ilk konusu olan Talep Tahmini yapmada bu tip tahminsel(öngörüsel) modeller tasarlamıştık.Gene Yapay Zeka Uzman Sistemler dersinde yapay sinir ağları yöntemini kullanarak tahminsel(öngörüsel) modeller tasarlamıştık.Bütün bu akademik bilgiler 2010 yılı öncesinde vardı.Fakat o zamanki veri ve programlama teknolojisi Veri Bilimi'ni tam anlamıyla sahaya çıkarmak adına yeterli değildi.Mesela bir Veri Bilimi aracı olan Python'un Scikit learn (Makine Öğrenmesi-Yapay Zeka) kütüphanesi 2012 yılında hizmete sunulmuştu.Big Data o zamanlar (2010 öncesi) çok yeni bir kavramdı.Şimdi ise Veri Bilimi için gerekli bütün araçlar mevcut olmakla birlikte nitelikli insan kaynağı gücü sorunu ortaya çıktı.Çünkü bu güne kadar Veri Bilimcisi pozisyonu ihtiyacını tam anlamıyla karşılayabilecek bir akademik eğitim programı yoktu .Veri Bilimi akademik eğitim programları yeni yeni ABD'de açılmaya başlanmıştır.
Ben ise Veri Biliminde, almış olduğum Endüstri Mühendisliği lisans eğitim programı açısından kendimi şanslı sayıyorum.Eğitim programında Bilgisayar Programlama ,Lineer Cebir,Algoritmalar ve Programlama,Mühendislik İstatistiği,Modelleme ve Optimizasyon,Veri Yapıları ve Algoritmalar,Mühendislikte Matematik Metodları(Matlab),Yöneylem Araştırması,Endüstride Bilgisayar Uygulamaları(SQL,Access,Promodel,Visio),Yapay Zeka/Uzman Sistemler bu derslerle aslında geleceğe hazırlanmışım. Ve şu anda Yapay Zeka dersinin yüksek lisans programında gösterildiğini belirtmek isterim.Bugünkü programa kıyasla üst seviye bir eğitim aldığımı rahatlıkla söyleyebilirim.Tabii ki bu bilgiler bir projeye dönüşmediği müddetçe bir anlam ifade etmeyecektir.Benim de kısa vadeli hedefim Veri Bilimi aracı Python ve ilgili kütüphaneleri üzerinde yaptığım çalışmayı bir önce tamamlayarak proje yapmaya başlamaktır.Python , C# 'ı gördükten sonra öğrenilmesi çok kolay bir programlama dili kesinlikle.Bununla birlikte bilimsel kütüphaneleri ve sahip olduğu fonksiyonları açısından çok çok daha zengin bir kaynağa sahip.Belki de Python'un bu kadar çok zengin içeriğe sahip olmasında ki sebep Açık Kaynak platformu üstünde geliştiriliyor olmasıdır.Çünkü yapılan her iş gönüllülük esasıyla ticari kaygı olmadan yapıldığı için çok daha iyi işler ortaya çıkabiliyor.Open Source geliştiricilerin gelir kaynakları ise aldıkları bağışlar oluyor.
Sözün özü bizler geleceği her zaman merak etmeye devam edeceğiz.Ve bu merak bizlere belki de Veri Bilimi'nden çok daha ileri disiplinleri gelecekte ortaya çıkarma fırsatı sunacaktır.
Ben ise Veri Biliminde, almış olduğum Endüstri Mühendisliği lisans eğitim programı açısından kendimi şanslı sayıyorum.Eğitim programında Bilgisayar Programlama ,Lineer Cebir,Algoritmalar ve Programlama,Mühendislik İstatistiği,Modelleme ve Optimizasyon,Veri Yapıları ve Algoritmalar,Mühendislikte Matematik Metodları(Matlab),Yöneylem Araştırması,Endüstride Bilgisayar Uygulamaları(SQL,Access,Promodel,Visio),Yapay Zeka/Uzman Sistemler bu derslerle aslında geleceğe hazırlanmışım. Ve şu anda Yapay Zeka dersinin yüksek lisans programında gösterildiğini belirtmek isterim.Bugünkü programa kıyasla üst seviye bir eğitim aldığımı rahatlıkla söyleyebilirim.Tabii ki bu bilgiler bir projeye dönüşmediği müddetçe bir anlam ifade etmeyecektir.Benim de kısa vadeli hedefim Veri Bilimi aracı Python ve ilgili kütüphaneleri üzerinde yaptığım çalışmayı bir önce tamamlayarak proje yapmaya başlamaktır.Python , C# 'ı gördükten sonra öğrenilmesi çok kolay bir programlama dili kesinlikle.Bununla birlikte bilimsel kütüphaneleri ve sahip olduğu fonksiyonları açısından çok çok daha zengin bir kaynağa sahip.Belki de Python'un bu kadar çok zengin içeriğe sahip olmasında ki sebep Açık Kaynak platformu üstünde geliştiriliyor olmasıdır.Çünkü yapılan her iş gönüllülük esasıyla ticari kaygı olmadan yapıldığı için çok daha iyi işler ortaya çıkabiliyor.Open Source geliştiricilerin gelir kaynakları ise aldıkları bağışlar oluyor.
Sözün özü bizler geleceği her zaman merak etmeye devam edeceğiz.Ve bu merak bizlere belki de Veri Bilimi'nden çok daha ileri disiplinleri gelecekte ortaya çıkarma fırsatı sunacaktır.
Data Scientist Çalışmasından Notlar-III
Dataquest platformu üzerinden yürütüyor olduğum Data Scientist çalışmasında Python'da İstatistik ve Lineer Cebir kısmını da yaklaşık 20 saatlik bir çalışma süresinde bugün tamamladım.Eğitim konuları Titanic,NBA,ABD Nüfus Müdürlüğü departmanına ait örnek veri setleri üzerinden pratik uygulamalarla ilerledi.Uygulamalarda çoğunlukla Python'un SciPy stats,Matplotlib,Numpy,SciPy LinAlg kütüphaneleri ve modülleri kullanıldı.Bunlarla birlikte ortalama bulan mean(),ortanca değeri bulan median() v.b. matematiksel istatistik fonksiyonları ise Python'un standart kütüphanesinde ve Numpy'ın istatistik modülü içinde bulunuyor.SciPy stats'da ise random değişkenler,olasılık dağılımları,örnekleme,kernel yoğunluk tahmini gibi ileri istatistik konulara ait fonksiyonlar yer almış.
Yukarıda bahsetmiş olduğum NumPy kütüphanesinden bahsetmek istiyorum.NumPy kütüphanesinin ilk temeli , 1995 yılında , MIT mezunu olan Jim Hugunin tarafından Numeric eklentisi ile atılmıştır. NumPy ise 2006 yılında Travis Oliphant tarafından Python'a eklenmiş olan bir matematiksel bir kütüphanedir.İçeriğinde çok boyutlu diziler ve matrislerle ilgili yüksek seviye matematiksel fonksiyonları barındırır.
Biraz da Python'un bilimsel kütüphanesi olan SciPy hakkında genel bilgiler vermek istiyorum.SciPy Numeric Python standart kütüphanesi üstüne yerleşik ve 2001 yılında kurulan, içeriğinde çeşitli bilimsel konular ile ilgili modülleri barındıran oldukça büyük bir kütüphanedir.SciPy'da Optimizasyon,Lineer Cebir,İntegral işlemleri,İnterpolasyon,Sinyal ve çok boyutlu görüntü işleme,FFT (Fourier Dönüşümleri),Uzaysal Veri yapıları ve algoritmaları,İleri İstatistik konularına ait modüller ve altında çeşitli fonksiyonlar yer almaktadır.Yani kısacası SciPy mühendisler,bilim adamları ve analistler için bilimsel ve teknik hesaplamalarda önemli bir programlama aracıdır.Bu kütüphane geliştirilmeye devam edilmektedir.Son versiyonu olan 0.16.1 Ekim 2015'de sunulmuştur.Muhtemelen daha da geliştirilmeye devam edilecektir çünkü Veri Bilimi şu sıralarda çok hızlı ilerleyen bir disiplin haline geldi.
Yukarıda bahsetmiş olduğum NumPy kütüphanesinden bahsetmek istiyorum.NumPy kütüphanesinin ilk temeli , 1995 yılında , MIT mezunu olan Jim Hugunin tarafından Numeric eklentisi ile atılmıştır. NumPy ise 2006 yılında Travis Oliphant tarafından Python'a eklenmiş olan bir matematiksel bir kütüphanedir.İçeriğinde çok boyutlu diziler ve matrislerle ilgili yüksek seviye matematiksel fonksiyonları barındırır.
Biraz da Python'un bilimsel kütüphanesi olan SciPy hakkında genel bilgiler vermek istiyorum.SciPy Numeric Python standart kütüphanesi üstüne yerleşik ve 2001 yılında kurulan, içeriğinde çeşitli bilimsel konular ile ilgili modülleri barındıran oldukça büyük bir kütüphanedir.SciPy'da Optimizasyon,Lineer Cebir,İntegral işlemleri,İnterpolasyon,Sinyal ve çok boyutlu görüntü işleme,FFT (Fourier Dönüşümleri),Uzaysal Veri yapıları ve algoritmaları,İleri İstatistik konularına ait modüller ve altında çeşitli fonksiyonlar yer almaktadır.Yani kısacası SciPy mühendisler,bilim adamları ve analistler için bilimsel ve teknik hesaplamalarda önemli bir programlama aracıdır.Bu kütüphane geliştirilmeye devam edilmektedir.Son versiyonu olan 0.16.1 Ekim 2015'de sunulmuştur.Muhtemelen daha da geliştirilmeye devam edilecektir çünkü Veri Bilimi şu sıralarda çok hızlı ilerleyen bir disiplin haline geldi.
7 Ocak 2016 Perşembe
Sitenin Trafik Kaynakları
Evet durum böyle . En çok ziyaretçiyi İsrail'den toplamışım.Sitemde çok az İngilizce ifade kullanmama rağmen trafiğin %75'i Türkiye dışından gelmiş.Bu verilere alt yapısını kullanıyor olduğum Google Blogger Analitik servisi üzerinden ulaştım.Tabii ki önemli olan ziyaretlerde devamlılık süresidir.İngilizce içerik bulamayınca yabancı ziyaretçiler muhtemelen geri dönecekler ve bir daha kapımı çalmayacaklardır.Arada onları da memnun etmek gerekir.Genel olarak baktığım zaman 4 bin seviyesinde bir ziyarete ulaşmışım.Bence kişisel bir site için 6-7 ay gibi bir sürede fena bir rakam değil.Zaten reyting gibi bir kaygım da yok.Bu siteyi oluşturmam da en büyük neden kariyer amaçlıydı.İş bulmama daha hızlı etki eder diye düşünmüştüm ama sonuç alamadım henüz.Belki de son paylaştığım İş Zekası örnek projeleri piyasa açısından vasat yetersiz seviyedeydi.İşin doğrusu acele ile uyarlanmış projelerdi bunlar.Kopya çekmedim fakat ana yapı olarak Microsoft'un örnek eğitim projelerini esas almıştım.Sanırım daha gerçekçi verilere dayalı tamamen özgün bir projeyle çıksam daha etki edecek gibi.
6 Ocak 2016 Çarşamba
Boşa kürek çekiyoruz
Evet durum bu ...Bunu ben değil OECD verileri söylüyor . Çok uzun saatler çalışıyoruz ( ! ) ama sonuç çok kötü. Çalışan üretkenliği 2012 yılında 100 üzerinden 45 puan gelmiş.Hem imalat hem de hizmet sektörü bu durumdan sorumlu.Hatta hizmet sektörü bu kötü sonuçtan daha sorumlu olabilir diye düşünüyorum.Peki neden yeterince üretken değiliz?.Subjektif yorumlarımı katarak biraz duygusal bir yaklaşımla bu soruyu yanıtlandırmaya çalışacağım.Herşey den önce millet olarak şekilciyiz.Yaptığımız her işte görüntüyü kurtarma derdindeyiz.Gün içinde çok uzun saatler çalışıyoruz ama her şey görüntü için yapılıyor.Amacına uygun çalışmıyoruz.Belli bir strateji ve plan yok.Her gün günü kurtarma adına toplantılar yapılıyor.Ama sonuçlarını ölçüp değerlendirebilecek kadar cesur olamıyoruz.En basit şey mesela gerçek zamanlı işleyen verilerin kaydını bile tutmaya üşeniyoruz.Halbuki Veri Madenciliği ,İş Zekası ve hatta son zamanlarda patlama yapan Veri Biliminden tam olarak haberimiz olsaydı o verileri tutmak için can atardık.Şu an küçük bir işletme bir Kobi yöneticisi olsam ilk işim kurumda veri toplama altyapısını kurmak ve bu verilerden hakkıyla faydalanmak amacıyla bir tane de olsa veri madenciliği yahut iş zekası uzmanını işe almak olurdu.Maliyeti ne olursa olsun bu işin uzun vadeli dönüşü kesinlikle işletmeye kazanç olarak dönecektir.Diğer bir mesele de birçok kurumda bilimsel projelere önem verilmemesi.Üniversite ve özel sektör bütünleşmesi sağlanamıyor.İşler alışılagelmiş eski geleneksel yöntemlerle yapılıyor.Mail,telefon,Excel üçgeni içinde işler eski yöntemlerle götürülüyor.Projeler ve iyileştirme çalışmaları yapılamıyor.Okulda öğrenilen okulda kalır felsefesi buraya hakim olmuş durumda.Gerçekten bu kafada olan yöneticiler var şu an.Bu nereye kadar böyle gider derseniz bir noktada mutlaka patlayacaktır.Türkiye bu işten zarar görebilir.
Peki siz bu konuda çalışırken ne yaptınız diye soracak olursanız.Kendime özeleştiri getirmem gerekecek.Yeterli olmamakla birlikte mikro ölçekte projeler geliştirdim.Çalıştığım her yerde bu yöntemi uyguladım.Fakat etki edecek derecede uzun süreler çalışmadım/çalışamadım maalesef.Şüphesiz benim de kariyer seçimi konusunda bazı hatalarım olmuştur.Önemli olan geçmiş hatalardan ders alıp kendini geliştirme sürecini devam ettirebilmek diye düşünüyorum.
Peki siz bu konuda çalışırken ne yaptınız diye soracak olursanız.Kendime özeleştiri getirmem gerekecek.Yeterli olmamakla birlikte mikro ölçekte projeler geliştirdim.Çalıştığım her yerde bu yöntemi uyguladım.Fakat etki edecek derecede uzun süreler çalışmadım/çalışamadım maalesef.Şüphesiz benim de kariyer seçimi konusunda bazı hatalarım olmuştur.Önemli olan geçmiş hatalardan ders alıp kendini geliştirme sürecini devam ettirebilmek diye düşünüyorum.
4 Ocak 2016 Pazartesi
Data Scientist çalışmasından notlar-II
Dataquest üzerinden yürütüyor olduğum Data Scientist çalışmasında 2.adım olan Data Analysis and Visualization (Veri Analizleri ve Görselleştirme) kısmını da dün gece itibariyle bitirmiş oldum.Bu bölümde Python'un Pandas (Veri Analizi kütüphanesi) ,Matplotlib (Veri Görselleştirme kütüphanesi) ve ek bileşen olarak Seaborn (Veri görselleştirme ek bileşeni) kütüphaneleri üzerinde temel fonksiyonları inceledim ve dataquest platformu üzerinde pratik yaptım.Yalnız bunlarla birlikte dataquest üzerinde data cleaning (veri temizleme,sadeleştirme v.b.) kısmında anlatımın zayıf ve yetersiz kaldığını da söyleyebilirim.Dataquest burada Python'un kütüphanelerine temel bir giriş yapmanızı teknik anlamda sağlıyor.
Öğrendiğim bu kütüphaneler ile ilgili kısaca genel bilgiler vereyim.Pandas,Python'da Veri Analizi işlevlerini barındıran bir kütüphane.Bu kütüphanenin çalışma temelini matrisler ve vektör işlemleri oluşturuyor.Bu nedenle SQL'e kıyasla çok daha hızlı ve detaylı analizler gerçekleştirebilme imkanı sunuyor.Matplotlib, bu kütüphanede histogram,bar,serpme,trend çizgi,box v.b. grafikleri istediğiniz parametrelerde ve boyutlarda çizim yapmanızı programlama imkanı sunuyor.Mesela bir histogram grafiği için verilebilecek parametreler şöyle " (x, bins=10, range=None, normed=False, weights=None, cumulative=False, bottom=None, histtype='bar', align='mid', orientation='vertical', rwidth=None, log=False, color=None, label=None, stacked=False, hold=None, data=None, **kwargs) 'dir.Seaborn 'da Stanford Üniversitesi Data Science bölümü tarafından oluşturulan Matplotlib üstüne kurulu grafik çizimlerini görsel olarak daha iyi hale getiren ve özgünlüğü daha ileriye taşıyan bir kütüphane.
Öğrendiğim bu kütüphaneler ile ilgili kısaca genel bilgiler vereyim.Pandas,Python'da Veri Analizi işlevlerini barındıran bir kütüphane.Bu kütüphanenin çalışma temelini matrisler ve vektör işlemleri oluşturuyor.Bu nedenle SQL'e kıyasla çok daha hızlı ve detaylı analizler gerçekleştirebilme imkanı sunuyor.Matplotlib, bu kütüphanede histogram,bar,serpme,trend çizgi,box v.b. grafikleri istediğiniz parametrelerde ve boyutlarda çizim yapmanızı programlama imkanı sunuyor.Mesela bir histogram grafiği için verilebilecek parametreler şöyle " (x, bins=10, range=None, normed=False, weights=None, cumulative=False, bottom=None, histtype='bar', align='mid', orientation='vertical', rwidth=None, log=False, color=None, label=None, stacked=False, hold=None, data=None, **kwargs) 'dir.Seaborn 'da Stanford Üniversitesi Data Science bölümü tarafından oluşturulan Matplotlib üstüne kurulu grafik çizimlerini görsel olarak daha iyi hale getiren ve özgünlüğü daha ileriye taşıyan bir kütüphane.
1 Ocak 2016 Cuma
Veri Bilimci Nedir ?.
Türkçe adıyla "Veri Bilimcisi" olarak adlandırılan Data Scientist mesleği hakkında bildiklerimi bu yazımda paylaşmaya çalışacağım.Bu mesleği icra eden kişiler Data Science yeteneklerini ve teknik bilgilerini kullanarak big data (facebook,youtube,twitter gibi) veya veri setleri üzerinden istatiksel,yapa zeka veya diğer bilimsel (mühendislik,tıp,ekonometri v.b.) algoritmalara dayalı analitik modeller tasarlayarak kullanıcıların/müşterilerin talebini karşılayarak üreticinin/web sitesi/yazılım şirketinin maliyetlerini en düşük tutacak ve karını maksimize edecek bilgi sistemleri (web,mobil,desktop uygulamalar) veya iş çözümleri oluştururlar.Data Scientist tanımından anlaşılacağı üzere çok yönlü yetenekler ve sağlam bir akademik arkaplan bilgisi gerektiren bir meslektir.Bu yüzden 21.yüzyılın en seksi mesleği olarak nitelendirilmiştir.Data Scientist mesleğini yapan kişiler İstatistik,Machine Learning(Makine Öğrenmesi),Lineer Cebir,Matematik,Optimizasyon,Bilgisayar Bilimi,Data Hacking (Veri ele geçirme),Veri Mühendisliği (ETL,Veri Madenciliği,Veri Analizi,Veri Görselleştirme) gibi disiplinlerden istifade ederler.2018 yılında ABD'de şimdiden 150 bin Data Scientist adayına ihtiyaç olduğu hesaplanmıştır.ABD ayrıca devlete ait başta iklim,sağlık olmak üzere ve diğer alanlarda ilgili veritabanlarını ABD'li data scientist 'lerin hizmetine açmıştır.Bu sayede Beyaz Saray , ABD ve Dünya coğrafyası için önemli iyileştirmeler ve kazanımlar hedeflemektedir.
Diğer bir yandan Data Scientist projeleri bir takım işidir.Youtube üzerinden izlediğim Hadoop'un hazırlamış olduğu bir konferansta Data Scientist işlerinin bir takım sporu olduğundan bahsedilmişti.ABD Başkanı Obama'da videonun bir bölümünde, aynı şekilde bunun üstüne vurgu yapmıştı.Bence bunun en büyük nedeni de Data Scientist çalışmalarının çok yönlü uzmanlık bilgisi gerektirmesidir.Sonuç olarak Data Scientist çalışmaları verinin yoğun olduğu her alana (Savunma,Üretim,Finans,Sağlık,Pazarlama,Haberleşme,Reklamcılık,Medya ...) uygulanabileceğinden dolayı her bir alanda çok farklı uzmanlık bilgilerine ihtiyaç duyulabilmektedir.
Data Scientist projeleri diğer bir yandan zor seviyede olan işlerdir.Mesela NetFlix şirketinin 2006 yılında başlatıp 2008 yılında sonlandırdığı 1 milyon dolar değerindeki Data Scientist yarışmasında yüzlerce takım içerisinden sadece iki takım finale kalabilmiştir.Takımların görevi NetFlix'in kendi site müşterilerinin profillerine göre sunduğu film öneri sistemini oluşturan yazılımı , %10 'dan daha iyi bir başarıyla yeniden tasarlamaktı.Sadece onlarca satırdan oluşan bir kod parçası , ayları hatta yılları geçen bir sürede yedi tane zeki adamın sinerjisiyle ortaya çıkabilmişti.Bununla birlikte o günlerden bu yana Data Scientist araçları ve big data çok hızlı bir şekilde gelişti.Evet bu bir gerçek,realitedir kesinlikle kurgu değil.Artık Data Science çalışmaları R programlama paketi , Python , Weka gibi ortamlarda oluşturulmuş kütüphanelerin yardımıyla daha hızlı ve etkin bir şekilde yapılabilmektedir.Bu iş nasıl bu noktaya kadar çok hızlı gelişti diye sorabilirsiniz.Ama diğer yandan mesela 94 yılı öncesi hangimiz İnternet 'in keşfedileceğini ve böyle hızlı bir şekilde genişleyeceğini biliyordu ?...
düzenlendi : 28.02.16
Diğer bir yandan Data Scientist projeleri bir takım işidir.Youtube üzerinden izlediğim Hadoop'un hazırlamış olduğu bir konferansta Data Scientist işlerinin bir takım sporu olduğundan bahsedilmişti.ABD Başkanı Obama'da videonun bir bölümünde, aynı şekilde bunun üstüne vurgu yapmıştı.Bence bunun en büyük nedeni de Data Scientist çalışmalarının çok yönlü uzmanlık bilgisi gerektirmesidir.Sonuç olarak Data Scientist çalışmaları verinin yoğun olduğu her alana (Savunma,Üretim,Finans,Sağlık,Pazarlama,Haberleşme,Reklamcılık,Medya ...) uygulanabileceğinden dolayı her bir alanda çok farklı uzmanlık bilgilerine ihtiyaç duyulabilmektedir.
Data Scientist projeleri diğer bir yandan zor seviyede olan işlerdir.Mesela NetFlix şirketinin 2006 yılında başlatıp 2008 yılında sonlandırdığı 1 milyon dolar değerindeki Data Scientist yarışmasında yüzlerce takım içerisinden sadece iki takım finale kalabilmiştir.Takımların görevi NetFlix'in kendi site müşterilerinin profillerine göre sunduğu film öneri sistemini oluşturan yazılımı , %10 'dan daha iyi bir başarıyla yeniden tasarlamaktı.Sadece onlarca satırdan oluşan bir kod parçası , ayları hatta yılları geçen bir sürede yedi tane zeki adamın sinerjisiyle ortaya çıkabilmişti.Bununla birlikte o günlerden bu yana Data Scientist araçları ve big data çok hızlı bir şekilde gelişti.Evet bu bir gerçek,realitedir kesinlikle kurgu değil.Artık Data Science çalışmaları R programlama paketi , Python , Weka gibi ortamlarda oluşturulmuş kütüphanelerin yardımıyla daha hızlı ve etkin bir şekilde yapılabilmektedir.Bu iş nasıl bu noktaya kadar çok hızlı gelişti diye sorabilirsiniz.Ama diğer yandan mesela 94 yılı öncesi hangimiz İnternet 'in keşfedileceğini ve böyle hızlı bir şekilde genişleyeceğini biliyordu ?...
düzenlendi : 28.02.16
Data Scientist çalışmasından notlar-I
Veri bilimi üzerine başladığım çalışmada ilk adım olan Python programlama dilinin temel konularını bitirmiş oldum.Daha öncesinde codecademy.com sitesinde ücretsiz bir eğitim almıştım fakat yeniden konuları tekrarlama ihtiyacı hissettim.Bu sefer ücretli olan başka bir site üzerinden çalıştım.Bu kaynak aynı zamanda adım adım Python ile Data Scientist eğitimi veriyor.Site aynı codecademy konseptinde kullanıcılara uygulama yaptırarak işi öğretiyor.Bu kaynağın adı "dataquest" .Aylık 49 veya 399 dolar ücret ile üyelik imkanları mevcut.Eğer 399 dolar öderseniz derslerde birebir özel yardım ve yapacağınız öğrenme amaçlı data scientist projelerinde danışmanlık imkanları sunuluyor.Siteyi kuran şahıs Vik Pachuri ABD'de data scientist olarak çalışmış ve Kaggle data science proje yarışmalarında önemli başarılar elde etmiş.
Python çalışmasında dataquest'in basic ve intermediate olmak üzere iki bölümden oluşan 20 saatlik eğitimini bitirdim.Eğitimde döngüler,boolean ve if ifadeleri,sözlükler,fonksiyonlar ve hata ayıklama,modüller ve sınıflar,numaralama,indeksleme ve son olarak alanlar (global ve yerel değişkenler) konuları üzerinde örnek kodlar yazdım.Eğitimlerde öncelikle ana konu ile ilgili kısa bir bilgi verildikten sonra örnek bir kod parçası yer alıyor.Sonrasında sizden başka bir örnek üzerinden kod yazmanız istiyor.Codcademy'e kıyasla konuları ve kod örneklerini daha iyi ve kullanışlı bulduğumu söyleyebilirim.
Python önceden belirttiğim gibi öğrenilmesi kolay bir OOP programlama dili.C# ve Java gibi nesneye yönelik programlar yazabilirsiniz.Her bir blokta c# da { } işareti kullanılırken Python'da 4 veya 2 paragraf (Google bunu kullanıyor) boşluğu bırakılıyor. Sanki İngilizce bir metin yazar gibi program yazıyorsunuz.Bununla birlikte Google geliştiricilerin hazırladığı bir Python sunumunda Python'un yorumlayıcı bir dil olduğu ve bu yüzden C# gibi büyük projelerden çok mikro çaplı küçük ve yan proje uygulamalarında daha çok kullanıldığından bahsediliyordu.Eğer daha önceden C# 'a hakimseniz Python öğrenmek size çıtır çerez gibi gelecektir.
Python çalışmasında dataquest'in basic ve intermediate olmak üzere iki bölümden oluşan 20 saatlik eğitimini bitirdim.Eğitimde döngüler,boolean ve if ifadeleri,sözlükler,fonksiyonlar ve hata ayıklama,modüller ve sınıflar,numaralama,indeksleme ve son olarak alanlar (global ve yerel değişkenler) konuları üzerinde örnek kodlar yazdım.Eğitimlerde öncelikle ana konu ile ilgili kısa bir bilgi verildikten sonra örnek bir kod parçası yer alıyor.Sonrasında sizden başka bir örnek üzerinden kod yazmanız istiyor.Codcademy'e kıyasla konuları ve kod örneklerini daha iyi ve kullanışlı bulduğumu söyleyebilirim.
Python önceden belirttiğim gibi öğrenilmesi kolay bir OOP programlama dili.C# ve Java gibi nesneye yönelik programlar yazabilirsiniz.Her bir blokta c# da { } işareti kullanılırken Python'da 4 veya 2 paragraf (Google bunu kullanıyor) boşluğu bırakılıyor. Sanki İngilizce bir metin yazar gibi program yazıyorsunuz.Bununla birlikte Google geliştiricilerin hazırladığı bir Python sunumunda Python'un yorumlayıcı bir dil olduğu ve bu yüzden C# gibi büyük projelerden çok mikro çaplı küçük ve yan proje uygulamalarında daha çok kullanıldığından bahsediliyordu.Eğer daha önceden C# 'a hakimseniz Python öğrenmek size çıtır çerez gibi gelecektir.
Kaydol:
Kayıtlar (Atom)