Yeni Başlayanlar İçin Veri Bilimi ve Uygulamaları Kılavuzu
Yayınlanan: 2018-02-24Veri, Bilim veya Veri Bilimi kelimeleri okuyucular arasında korku ya da dehşet duygusu uyandırmak için yeterli değildir. Dürüst olmak gerekirse, mozaikleme, k-ortalama, k-en yakın komşular, Öklid Minimum Yayılan Ağaç ve bu türden daha fazlası gibi kelimelerin aksine, bırakın korkunç olmayı, itici bile olamayacak kadar sevimliler. Veri Bilimi yolculuğunuzda karşılaşacaksınız.
“Veri Bilimi” korku uyandırmasa da alanla ilgili hiçbir şeyi açıklamaz. Herkes verinin ne olduğunu bilir; en azından sıradan bir anlamda. Veriler aslında sadece ham bilgi parçalarıdır. Bilim ise bilimsel bir yöntemi izleyen herhangi bir grup faaliyeti ifade etmek için kullanılabilir.
Bu mantıktan yola çıkarak, Veri Biliminin büyük veri yığınları üzerinde bilimsel yöntemleri kullanan bir alan olduğu sonucuna varabiliriz. Ama ne için? Ve Veri Bilimi tam olarak nedir?
Bugünkü tartışma konumuz bu. Bu makaleyi okuduktan sonra, aşağıdaki soruları cevaplayabileceksiniz:
- Veri Bilimi Nedir?
- Veri Bilimi ardışık düzeninin farklı aşamaları nelerdir?
- Veri Bilimini iş yerinde nerede görebilirim?
İçindekiler
Veri Bilimi Nedir?
Tüm ansiklopedilerin anası olan Wikipedia, Veri Bilimini bilimsel yöntemler kullanarak verilerden bilgi ve içgörü çıkarmaya odaklanan bir alan olarak tanımlar. Ancak, size söylemediği şey, biz insanların veri bilimcisi olarak doğduğumuzdur. Nasıl? Bakalım.
Ne yapıyor olursanız olun çevrenizdeki dünyayı gözlemliyorsunuz. Uyandığınız her an, çevrenizden ayrıntıları alıyor ve beyninize besliyorsunuz. Daha sonra bu gözlemleri verilere dönüştürür ve anlamlarını bularak ve bir sonraki adımda ne olabileceğine dair tahminler yaparak etrafınızdaki şeyleri anlamak için kullanırsınız.
İşe gitmek için bir saat geç kaldığınızda, evden çalışacağınızı söylemek için onları ararsınız. Geçmişte trafik ve duraklamalarla ilgili gözlemlerinizi, trafikte sıkışıp kalan zamanınızı ofiste olmaktan çok kaybedeceğiniz sonucuna varmanızı sağlayacak şekilde kullanıyorsunuz. Odanıza girdiğinizde ve etrafta dolaşan çikolata ambalajları gördüğünüzde, sıradan bir analiz size, yokluğunuzda birinin çikolatalarınızı yediğini söyleyecektir.
Dikkat Edilmesi Gereken En İyi 4 Veri Analitiği Rolü
Bahsedilen her iki durumda da, bu hesaplamaları ve tahminleri aklınızdan, not etmeden yaparsanız, normal bir insansınız. Öte yandan, devam edip bu veri noktalarını (elbette makine tarafından okunabilir bir biçimde) kaydederseniz ve ardından uygulamayı çalıştırmak için bir algoritma (veya prosedürler) ve bilgisayar programları tasarlamaya çalışırsanız. Bu “varsayımsal” sistemin çıktısı “trafik berbat olacak” veya “oda arkadaşlarınız çikolatalarınızı yedi” ise, o zaman bingo! Sen bir veri bilimcisisin.
Yukarıdaki benzetmenin kulağa hoş geldiği kadar basit (teoride). Günün sonunda verileriniz, prosedürleriniz, algoritmalarınız ve araçlarınız var. Sadece ondan bilgi çıkarmanız gerekir. Bunu verimli bir şekilde yapmak için izlemeniz gereken bir iş akışı/boru hattı vardır. Tipik bir Data Science Pipeline'da nelerin bulunduğunu görelim.
Veri Bilimi Hattı
Veri bilimi boru hattı, istenen verilerin elde edilmesinden doğru hesaplamalar ve tahminler yapılmasına kadar tüm sürecin akışından bahseder. Bu boru hattının unsurlarına bir göz atalım:

Verilerinizi Alın
Bu, varsayılan olarak Veri Bilimi uygulamak için yapmanız gereken ilk şeydir - verileri alın! Sadece küçük bir uyarı – verilerinizi alırken göz önünde bulundurmanız gereken bazı şeyler var. Öncelikle tüm veri kümelerinizi tanımlamanız gerekir (internetten veya dahili/harici veritabanlarından olabilir). Ardından verileri kullanılabilir bir biçime (CSV, XML, JSON, vb.)
İşte Veri Analisti Olmak İçin Ustalaşmak İçin En İyi Beceriler ve Araçlar
Yetenek gerekli
- Veritabanı Yönetimi: İhtiyaçlarınıza ve gereksinimlerinize bağlı olarak SQL veya NoSQL.
- Bu veritabanlarını sorgulamak
- Videolar, sesler, metinler, belgeler vb. biçimindeki yapılandırılmamış verileri alma.
- Dağıtılmış depolama: Hadoop, Apache Spark veya Apache Flink.
Verilerinizi Ovma / Temizleme
Verilerin temizlenmesine son derece önem verilmelidir çünkü sisteminizin nihai çıktısı ancak içine koyduğunuz veriler kadar iyidir. Temizleme, anormalliklerin giderilmesi, boş/eksik değerlerin doldurulması, verilerin tutarlı olup olmadığının görülmesi ve bu nitelikteki diğer şeyler anlamına gelir.
Yetenek gerekli
- Komut dosyası dili: Python, R, SAS
- Veri tartışma araçları: Python Pandas, R
- Dağıtılmış işleme: Hadoop, MapReduce/Spark
Keşfetme (Keşif Verisi Analizi)
Artık veriler temiz olduğuna göre, verilerinizin hangi kalıplara sahip olduğunu anlamaya başlayacaksınız. Bu aşamada farklı türde görselleştirmeler ve istatistiksel modellemeler devreye girer. Temel olarak, bu aşama verilerimizden gizli anlamı çıkarmayı amaçlar.
Keşifsel Veri Analizi alanında dolaşan çok şey var. Hoşunuza gidecek bir şey olduğunu düşünüyorsanız, bununla ilgili makalemizi de okumayı unutmayın.
Bu aşamada daha iyi performans gösterebilmek için "örümcek duyularınızın" karıncalanması gerekir. Çılgına dönün ve tuhaf kalıpları veya trendleri görün - her zaman kutunun dışında bir şey aramaya başlayın. Ancak bunu yaparken çözmeyi hedeflediğiniz sorunu da unutmayın. Kutunun dışına çok fazla çıkma. Keşifsel veri analizi bir sanattır ve bir sanatçı her zaman izleyiciyi akılda tutmalıdır.
Yetenek gerekli
- Python kütüphaneleri: Numpy, Matplotlib, Pandas, Scipy
- R kitaplıkları: GGplot2, Dplyr
- Çıkarımsal istatistik
- Veri Görselleştirme
- Deneysel tasarım
Modelleme (Makine Öğrenimi)
Bu eğlenceli kısım. Modeller sadece istatistiksel anlamda genel kurallardır. Bir makine öğrenimi modeli, yalnızca araç setinizdeki bir araçtır. Farklı kullanım durumları ve amaçları olan o kadar çok algoritmaya erişiminiz var ki, basit bir araştırma sizi iş gereksinimlerinize uygun bir algoritmaya götürecektir.
Verileri temizledikten ve temel özellikleri bulduktan sonra (EDA aşamasında), tahmin aracı olarak istatistiksel bir model kullanmak genel karar verme sürecinizi geliştirecektir. Tahmine dayalı analitik, "ne oldu?" diye geriye bakmak yerine, "sırada ne var?" sorusunu yanıtlamayı amaçlar. ve “nasıl hareket etmeliyiz?”.

Yetenek gerekli
- Makine Öğrenimi: Denetimli/Denetlenmemiş/Takviyeli öğrenme algoritmaları
- Değerlendirme yöntemleri
- Makine Öğrenimi Kitaplıkları: Python (Bilim Kiti Öğren) / R (CARET)
- Lineer cebir ve Çok Değişkenli Analiz
Çeviri (Veri Hikayesi Anlatma)
Bu, boru hattındaki daha zorlu görevlerden biridir. Burada bulgularınızı iletişim yoluyla açıklamayı hedefliyorsunuz. Günün sonunda, her şey hedef kitlenizle bağlantı kurmakla ilgilidir ve hikaye anlatıcılığını anahtar yapan da budur.
Bulgularınızın önemini ofisinizdeki teknoloji dışı gruba, hatta bu konuda patronunuza iletemezseniz, pek kullanışlı olmaz. İşleri kontrol altına almak için iyi bir uygulama, çok fazla prova yapmak olacaktır. Bulgularınız üzerine bir hikaye oluşturmayı ve bunu meslekten olmayan bir kişiye (tercihen bir çocuğa) anlatmayı deneyin. Onlar anlarsa, patronunuz da anlar. Ve eğer yapmazlarsa, Einstein'ın ne dediğini bilirsiniz:
"Altı yaşındaki bir çocuğa anlatamıyorsan, kendin de anlamazsın."
Bu aşama, gerçek iş anlayışları elde etmeyi amaçlar. Buradaki asıl zorluk, bulgularınızı görselleştirmek ve güzel ve anlaşılır bir şekilde sergilemektir.
Yetenek gerekli
- İş alanınız hakkında bilgi
- Veri Görselleştirme araçları: Tableau, D3.JS, Matplotlib, GGplot, Seaborn, vb.
- İletişim: Sunum becerileri – hem sözlü hem de yazılı.
Bu bizim boru hattımızın sonu değil. Sisteminizden gerçekten en iyiyi elde etmek istiyorsanız, ihtiyaç duyulduğunda ve ortaya çıktığında modelinizi güncellediğinizden emin olmanız gerekir. Veri Biliminde tek bir boyut herkese uymaz ve modelinizi sürekli gözden geçirmeniz ve güncellemeniz gerekir.
Veri Manipülasyonu: Veri Yalanlarını Nasıl Anlayabilirsiniz?
Veri Bilimi Uygulamaları
Şimdiye kadar açık olduğu gibi, Veri Bilimi geniş bir terimdir ve uygulamaları da öyle. Akıllı telefonunuzdaki hemen hemen her uygulama verilerden yararlanır. Dolayısıyla, veri biliminin tüm uygulamalarını listelemenin, her yerde mevcut olması nedeniyle pratikte imkansız olduğunu söylemek doğru olur.
Veri Biliminin büyüsünü kullanan geniş alanlara bir göz atalım:
1. İnternet Araması
Google, bu kadar *doğru* arama sonuçlarını bir saniyenin çok kısa bir bölümünde nasıl döndürüyor? Veri Bilimi!
2. Öneri Sistemleri
Facebook veya LinkedIn'deki "tanıdığınız kişilerden", Amazon'daki "bu ürünü satın alan kişiler de beğendi..."ye, Spotify'daki günlük küratörlüğünü yaptığınız çalma listelerine ve hatta YouTube'daki "önerilen videolar"a kadar her şey Veri Bilimi tarafından desteklenir.
3. Görüntü/Konuşma/Karakter Tanıma
Bu hemen hemen söylemeye gerek yok. Veri Bilimi değilse, “Siri”nin arkasındaki beyin nedir sizce? Ayrıca, onlarla bir fotoğraf yüklediğinizde Facebook'un arkadaşınızı nasıl tanıdığını düşünüyorsunuz? Bu sihir değil; bu bilim – Veri Bilimi.
4. Oyun
EA Sports, Sony, Nintendo, Zynga ve bu alandaki diğer devler, oyun deneyiminizi tamamen yeni bir düzeye taşımayı üstlendiler. Oyunlar artık Makine Öğrenimi algoritmaları kullanılarak geliştirilmekte ve iyileştirilmektedir, böylece siz daha yüksek seviyelere çıktıkça yükseltilebilirler.
5. Fiyat Karşılaştırma Web Siteleri
Bu web siteleri verilerle beslenir. Onlar için ne kadar çok, o kadar neşeli. Veriler, API'ler kullanılarak ilgili web sitelerinden getirilir. PriceGrabber, PriceRunner, Junglee, Shopzilla bu tür web sitelerinden bazılarıdır.
Python ile Veri Bilimine BaşlayınKapatılıyor…
Teknik bir geçmişe sahipseniz ve veri için küçük bir şeyiniz varsa, o zaman Veri Bilimi gerçek aramanızdır. En iyi kısım? Veri Bilimi içinde ve çevresinde yapılacak ve keşfedilecek çok şey var. Bu, bir dizi araç ve teknolojiyi kapsayan bir şemsiye terimdir - bunlardan herhangi birinde uzmanlaşmak, sizi sürekli artan Veri Bilimi pazarında bir varlık haline getirecektir. upGrad, sizi çağın ötesinde tutmak için Veri Bilimi üzerine çeşitli kurslar sunar. Onları kontrol etmeyi unutmayın!
Hindistan'daki endüstriler arasında Veri Biliminin kapsamı nedir?
Veri bilimi, Hindistan'daki birçok endüstride büyük bir etkiye sahiptir. Aşağıda listelenen her endüstri, büyük ölçüde veri bilimine dayanır ve bir veri bilimcisi için mükemmel beklentiler sağlar.
1. Healthcare : Bu, tıp, hastalar ve hastalıklarla ilgili her şeyi kapsayan bir kelimedir. Veri bilimi, daha verimli tanılamadan tıbbi araştırmalara kadar bu sektörde kritik bir rol oynamaya başladı.
2. Bankacılık ve Sigortacılık - Risk Değerlendirmesi ve Dolandırıcılık Tespiti: Bankalar, müşteri profillerini, önceki başvuruları ve harcamaları ve ayrıca özellikle krediler ve sigorta için olmak üzere çeşitli diğer kişisel verileri toplar. Süreci basitleştirdiği ve düşük riskli ve yüksek riskli olanlar arasında ayrım yaptığı için veri biliminin devreye girdiği yer burasıdır.
3. Pazarlama ve Reklamcılık - Tüm veriler parmaklarınızın ucundayken, hizmetinizi veya ürününüzü etkili bir şekilde pazarlamak için hedef kitlenizin kim olması gerektiğini analiz edebilir ve belirleyebilirsiniz.
4. Havayolu Endüstrisi - Veri bilimi, havayolu sektöründe uçak yollarını ve rotalarını analiz etmek için kullanılır.
Veri Bilimcileri becerilerini iş sorunlarını çözmek için nasıl kullanabilir?
Şirketlerinin taleplerine bağlı olarak, bir Veri Bilimcisi bir iş sorununu çözmek için farklı bir strateji izlemelidir. Veri bilimcileri, matematik ve bilgisayar biliminin hibrit modellerini kullanarak verilerden eyleme geçirilebilir içgörüler toplar ve daha iyi kararlar alınmasına yardımcı olur. Veri biliminin gerçek dünyadaki iş zorluklarını çözmeye yönelik uygulamaları arasında ürün kalitesinin iyileştirilmesi, dijital reklam yerleşiminin otomatikleştirilmesi, talep ve büyüme fırsatlarının öngörülmesi yoluyla gelir yaratılmasının artırılması, işe alım süreçlerinin otomatikleştirilmesi, diğer kullanım örneklerinin yanı sıra dinamik bir pazarda fiyatların belirlenmesi yer alır.
Veri biliminin geleceği nedir?
Veri biliminin geleceği, hemen hemen her alanda geniş bir uygulama kapsamı ile çok heyecan verici. Google, Amazon, Facebook vb. gibi en iyi dijital yerli şirketlerden bazıları, verilere önemli bir yatırım yaptı. Devam eden araştırmalarla birleşen gelişen teknolojinin yükselişi, gelecekte yenilikçi uygulamalara ve kullanım örneklerine yol açacaktır. Kariyer açısından bakıldığında, veri bilimi çok şey vaat ediyor.
