Veri Temizleme Teknikleri: Verileri Temizlemenin Basit ve Etkili Yollarını Öğrenin

Yayınlanan: 2020-01-26

Veri temizleme, veri biliminin önemli bir parçasıdır. Saf olmayan verilerle çalışmak birçok zorluğa yol açabilir. Ve bugün, aynı şeyi tartışacağız.

Veri temizlemenin neden gerekli olduğunu, veri kalitenizi hangi faktörlerin etkilediğini ve sahip olduğunuz verileri nasıl temizleyebileceğinizi öğreneceksiniz. Bu ayrıntılı bir kılavuzdur, bu nedenle ileride başvurmak üzere yer imlerine eklediğinizden emin olun.

Başlayalım.

İçindekiler

Veri Temizleme Neden Gereklidir?

Veri temizleme sıkıcı ve ilgi çekici görünmeyebilir, ancak bir veri bilimi uzmanı olarak yapmanız gereken en önemli görevlerden biridir. Yanlış veya kalitesiz verilere sahip olmak, süreçleriniz ve analizleriniz için zararlı olabilir. Zayıf veriler, bir yıldız algoritmasının başarısız olmasına neden olabilir.

Öte yandan, yüksek kaliteli veriler, basit bir algoritmanın size olağanüstü sonuçlar vermesine neden olabilir. Birçok veri temizleme tekniği vardır ve veri kalitenizi artırmak için bunlara aşina olmalısınız. Tüm veriler yararlı değildir. Bu, veri kalitenizi etkileyen bir diğer önemli faktördür.

Okuyun: R'de Küme Analizi

Örneğin, şirketinizde çalışanların adreslerinden oluşan bir liste olduğunu varsayalım. Şimdi, verileriniz ayrıca müşterilerinizin birkaç adresini de içeriyorsa, listeye zarar vermez mi? Ve listeyi inceleme çabalarınız boşa gitmez mi? Bu veri destekli pazarda, iş kararlarınızı iyileştirmek için veri bilimini öğrenmek hayati önem taşır.

Veri temizlemenin gerekli olmasının birçok nedeni vardır. Bunlardan bazıları aşağıda listelenmiştir:

Yeterlik

Temiz verilere sahip olmak (yanlış ve tutarsız değerlerden arındırılmış), analizinizi çok daha hızlı gerçekleştirmenize yardımcı olabilir. Bu görevi önceden yaparak önemli miktarda zaman kazanacaksınız. Verilerinizi kullanmadan önce temizlediğinizde, birden fazla hatadan kaçınabilirsiniz. Yanlış değerler içeren veriler kullanırsanız sonuçlarınız doğru olmaz.

Ve büyük olasılıkla, tüm görevi yeniden yapmak zorunda kalacaksınız, bu da çok fazla zaman kaybına neden olabilir. Verilerinizi kullanmadan önce temizlemeyi seçerseniz, sonuçları daha hızlı üretebilir ve tüm görevi tekrar yapmaktan kaçınabilirsiniz.

Hata Marjı

Analiz için doğru verileri kullanmadığınızda, kesinlikle hatalar yapacaksınız. Belirli bir veri kümesi grubunu analiz etmek için çok çaba ve zaman harcadığınızı varsayalım. Sonuçları amirinize göstermek için çok heveslisiniz, ancak toplantıda amiriniz birkaç hataya dikkat çekiyor, durum biraz utanç verici ve acı verici hale geliyor.

Bu tür hataların olmasını önlemek istemez misiniz? Sadece utanmaya neden olmakla kalmaz, aynı zamanda kaynakları da israf ederler. Veri temizleme, bu konuda size yardımcı olur, yaygın bir uygulamadır ve verileri temizlemek için kullanılan yöntemleri öğrenmelisiniz.

Temiz verilerle basit bir algoritma kullanmak, temiz olmayan verilerle gelişmiş bir algoritma kullanmaktan çok daha iyidir.

Veri Kalitesini Belirleme

Veriler Geçerli mi? (Geçerlilik)

Verilerinizin geçerliliği, özel gereksinimlerinizin kurallarına uyma derecesidir. Örneğin, farklı müşterilerin telefon numaralarını nasıl içe aktarabilirsiniz, ancak bazı yerlerde verilere e-posta adresleri eklediniz. Artık ihtiyaçlarınız açıkça telefon numaralarına yönelik olduğundan, e-posta adresleri geçersiz olacaktır.

Geçerlilik hataları, giriş yöntemi uygun şekilde denetlenmediğinde gerçekleşir. Verilerinizi toplamak için elektronik tablolar kullanıyor olabilirsiniz. Ve elektronik tablonun hücrelerine yanlış bilgi girebilirsiniz.

Verilerinizin geçerli olması için uyması gereken birden çok türde kısıtlama vardır. İşte buradalar:

Menzil:

Bazı sayı türlerinin belirli bir aralıkta olması gerekir. Örneğin bir günde taşıyabileceğiniz ürün sayısı minimum ve maksimum değerde olmalıdır. Veriler için kesinlikle belirli bir aralık olacaktır. Bir başlangıç ​​ve bir bitiş noktası olacaktır.

Veri tipi:

Bazı veri hücreleri, sayısal, Boolean vb. gibi belirli bir veri türü gerektirebilir. Örneğin, bir Boole bölümünde sayısal bir değer eklemezsiniz.

Zorunlu kısıtlamalar:

Her senaryoda, verilerinizin uyması gereken bazı zorunlu kısıtlamalar vardır. Zorunlu kısıtlamalar özel ihtiyaçlarınıza bağlıdır. Elbette, verilerinizin belirli sütunları boş olmamalıdır. Örneğin, müşterilerinizin adları listesinde 'ad' sütunu boş olamaz.

Çapraz alan muayenesi:

Belirli bir biçimdeki birden çok veri alanını etkileyen belirli koşullar vardır. Bir uçuşun kalkış saatinin, varış saatinden daha erken olamayacağını varsayalım. Bilançoda, müşterinin borç ve alacak toplamı aynı olmalıdır. Farklı olamaz.

Bu değerler birbiriyle ilişkilidir ve bu nedenle çapraz alan incelemesi yapmanız gerekebilir.

Benzersiz Gereksinimler:

Belirli veri türlerinin benzersiz kısıtlamaları vardır. İki müşteri aynı müşteri destek biletine sahip olamaz. Bu tür veriler belirli bir alana özgü olmalıdır ve birden fazla alan tarafından paylaşılamaz.

Set-Üyelik Kısıtlamaları:

Bazı değerler belirli bir kümeyle sınırlıdır. Örneğin, cinsiyet Erkek, Kadın veya Bilinmeyen olabilir.

Normal Desenler:

Bazı veri parçaları belirli bir formatı takip eder. Örneğin, e-posta adresleri '[email protected]' biçimindedir. Benzer şekilde, telefon numaralarının on hanesi vardır.

Veriler gerekli formatta değilse, geçersiz olacaktır.

Bir kişi bir e-posta adresi girerken '@' işaretini atlarsa, e-posta adresi geçersiz olur, değil mi? Verilerinizin geçerliliğini kontrol etmek, kalitesini belirlemenin ilk adımıdır. Çoğu zaman geçersiz bilgi girişinin nedeni insan hatasıdır.

Ondan kurtulmak, sürecinizi düzene sokmanıza ve gereksiz veri değerlerinden önceden kaçınmanıza yardımcı olacaktır.

Kesinlik

Artık sahip olduğunuz verilerin çoğunun geçerli olduğunu bildiğinize göre, doğruluğunu belirlemeye odaklanmanız gerekecek. Veriler geçerli olsa bile, verilerin doğru olduğu anlamına gelmez. Ve doğruluğu belirlemek, girdiğiniz verilerin doğru olup olmadığını anlamanıza yardımcı olur.

Bir istemcinin adresi doğru biçimde olabilir, ancak doğru adres olması gerekmez. Belki e-postada yanlış yapan ek bir rakam veya karakter vardır. Başka bir örnek, bir müşterinin telefon numarasıdır.

Okuyun: Veri Bilimi için En İyi Makine Öğrenimi API'leri

Telefon numarasının tüm rakamları varsa, bu geçerli bir değerdir. Ama bu doğru olduğu anlamına gelmez. Geçerli değerler için tanımlarınız olduğunda, geçersiz olanları bulmak kolaydır. Ancak bu, aynı doğruluğunu kontrol etmede yardımcı olmuyor. Veri değerlerinizin doğruluğunu kontrol etmek, üçüncü taraf kaynakları kullanmanızı gerektirir.

Bu, şu anda kullanmakta olduğunuzdan farklı veri kaynaklarına güvenmeniz gerekeceği anlamına gelir. Doğru olup olmadığını anlamak için verilerinizi çapraz kontrol etmeniz gerekecek. Veri temizleme tekniklerinin, veri değerlerinin doğruluğunu kontrol etmek için pek çok çözümü yoktur.

Ancak, kullandığınız verilerin türüne bağlı olarak, bu konuda size yardımcı olabilecek kaynaklar bulabilirsiniz. Kesinlik ile kesinliği karıştırmamalısınız .

Doğruluk ve Hassasiyet

Doğruluk, girilen verilerin doğru olup olmadığının belirlenmesine dayanırken, kesinlik aynı konuda daha fazla ayrıntı vermenizi gerektirir. Bir müşteri, veri alanınıza bir ad girebilir. Ancak soyadı yoksa, daha kesin olmak zor olurdu.

Başka bir örnek bir adres olabilir. Bir kişiye nerede yaşadığını sorduğunuzu varsayalım. Londra'da yaşadıklarını söyleyebilirler. Bu doğru olabilir. Ancak bu kesin bir cevap değil çünkü Londra'da nerede yaşadıklarını bilmiyorsunuz.

Kesin bir cevap, size bir sokak adresi vermek olacaktır.

eksiksizlik

İhtiyacınız olan tüm bilgilere sahip olmak neredeyse imkansız. Tamlık, gerekli tüm değerleri bildiğiniz derecedir. Tamlık, doğruluk veya geçerliliğe ulaşmaktan biraz daha zordur. Çünkü bir değer varsayamazsınız. Yalnızca bilinen gerçekleri girmeniz gerekir.

Veri toplama etkinliklerini (müşterilere tekrar yaklaşma, kişilerle yeniden görüşme vb.) yeniden yaparak verilerinizi tamamlamayı deneyebilirsiniz. Ancak bu, verilerinizi eksiksiz bir şekilde tamamlayabileceğiniz anlamına gelmez.

Daha önce ihtiyaç duyduğunuz veriler için insanlarla yeniden görüştüğünüzü varsayalım. Şimdi, bu senaryoda hatırlama sorunu var. Onlara aynı soruları tekrar sorarsanız, muhtemelen daha önce ne cevap verdiklerini hatırlamayabilirler. Bu onlara yanlış cevap vererek onlara yol açabilir.

Ona beş ay önce hangi kitapları okuduklarını sorabilirsiniz. Ve hatırlamayabilirler. Benzer şekilde, her müşterinin iletişim bilgilerini girmeniz gerekebilir. Ancak bazılarının e-posta adresleri olmayabilir. Bu durumda, bu sütunları boş bırakmanız gerekir.

Tüm sütunları doldurmanızı gerektiren bir sisteminiz varsa, oraya 'eksik' veya 'bilinmeyen' girmeyi deneyebilirsiniz. Ancak bu tür değerlerin girilmesi verilerin tamamlandığı anlamına gelmez. Yine de eksik olarak anılacaktır.

Tutarlılık

Bütünlüğün yanında tutarlılık gelir. İki benzer sistemi karşılaştırarak tutarlılığı ölçebilirsiniz. Veya tutarlı olup olmadıklarını görmek için aynı veri kümesindeki veri değerlerini kontrol edebilirsiniz. Tutarlılık ilişkisel olabilir. Örneğin, bir müşterinin yaşı 15 olabilir ki bu geçerli bir değerdir ve doğru olabilir, ancak aynı sistemde kıdemli vatandaş olarak da belirtilebilir.

Bu gibi durumlarda, ölçüm doğruluğuna benzer şekilde verileri çapraz kontrol etmeniz ve hangi değerin doğru olduğunu görmeniz gerekir. Müşteri 15 yaşında mı? Yoksa müşteri kıdemli bir vatandaş mı? Bu değerlerden sadece biri doğru olabilir.

Verilerinizi tutarlı hale getirmenin birden çok yolu vardır.

Farklı sistemleri kontrol edin:

Sahip olduğunuz değerin gerçek olup olmadığını öğrenmek için başka bir benzer sisteme bakabilirsiniz. Sistemlerinizden ikisi birbiriyle çelişiyorsa, üçüncüyü kontrol etmenize yardımcı olabilir.

Bir önceki örneğimizde, üçüncü sistemi kontrol ettiğinizi ve müşterinin yaşını 65 bulduğunuzu varsayalım. Bu, müşterinin yaşlı olduğunu söyleyen ikinci sistemin geçerli olacağını gösteriyor.

En son verileri kontrol edin:

Verilerinizin tutarlılığını iyileştirmenin bir başka yolu da daha yeni değeri kontrol etmektir. Belirli senaryolarda sizin için daha faydalı olabilir. Kaydınızda bir müşteri için iki farklı iletişim numaranız olabilir. En yenisi muhtemelen daha güvenilir olacaktır çünkü müşterinin numara değiştirmiş olması mümkündür.

Kaynağı kontrol edin:

Verilerin güvenilirliğini kontrol etmenin en kusursuz yolu, basitçe kaynakla iletişime geçmektir. Müşterinin yaşıyla ilgili örneğimizde, müşteriyle doğrudan iletişim kurmayı ve ona yaşını sormayı tercih edebilirsiniz. Ancak, her senaryoda mümkün değildir ve doğrudan kaynakla iletişim kurmak oldukça zor olabilir. Belki müşteri yanıt vermiyor veya iletişim bilgileri mevcut değil.

tekdüzelik

Veri kümenize girdiğiniz tüm değerlerin aynı birimlerde olduğundan emin olmalısınız. Ölçümler için SI birimleri giriyorsanız, bazı yerlerde Imperial sistemini kullanamazsınız. Öte yandan, bir yerde zamanı saniye cinsinden girdiyseniz, tüm veri kümesinde bu biçimde girmelisiniz.

Okuyun: Veri Bilimi için SQL

Kayıtlarınızın tekdüzeliğini kontrol etmek oldukça kolaydır. Basit bir inceleme, belirli bir değerin gerekli birimde olup olmadığını ortaya çıkarabilir. Verilerinizi girmek için kullandığınız birimler, özel gereksinimlerinize bağlıdır.

Veri Temizleme Teknikleri

Veri temizleme teknikleri seçiminiz birçok faktöre bağlıdır. İlk olarak, ne tür verilerle uğraşıyorsunuz? Sayısal değerler mi yoksa dizeler mi? İşlenecek çok az değeriniz olmadıkça, verilerinizi de tek bir teknikle temizlemeyi beklememelisiniz.

Daha iyi bir sonuç için birden fazla teknik kullanmanız gerekebilir. Ne kadar çok veri türünü işlemeniz gerekiyorsa, o kadar çok temizleme tekniği kullanmanız gerekecek. Tüm bu yöntemlere aşina olmak, hataları düzeltmenize ve gereksiz verilerden kurtulmanıza yardımcı olacaktır.

1. Alakasız Değerleri Kaldırın

Yapmanız gereken ilk ve en önemli şey, sisteminizden gereksiz veri parçalarını kaldırmaktır. Gereksiz veya alakasız veriler, ihtiyacınız olmayan verilerdir. Sorununuzun içeriğine uymayabilir.

Yalnızca satış personelinizin ortalama yaşını ölçmeniz gerekebilir. O zaman e-posta adresleri gerekli olmazdı. Başka bir örnek, bir ayda kaç müşteriyle iletişim kurduğunuzu kontrol ediyor olabilirsiniz. Bu durumda, bir önceki ayda ulaştığınız kişilerin verilerine ihtiyacınız olmaz.

Ancak, belirli bir veri parçasını kaldırmadan önce, bunun alakasız olduğundan emin olun çünkü daha sonra ilişkili değerlerini kontrol etmeniz gerekebilir (tutarlılığı kontrol etmek için). Ve verileri kaldırmadan önce daha deneyimli bir uzmandan ikinci bir görüş alabilirseniz, bunu yapmaktan çekinmeyin.

Bazı değerleri silmek ve daha sonra karardan pişman olmak istemezsiniz. Ancak verilerin alakasız olduğundan emin olduktan sonra ondan kurtulun.

2. Yinelenen Değerlerden Kurtulun

Kopyalar, işe yaramaz değerlere benzer - Onlara ihtiyacınız yok. Yalnızca sahip olduğunuz veri miktarını artırırlar ve zamanınızı boşa harcarlar. Basit aramalarla onlardan kurtulabilirsiniz. Sisteminizde birkaç nedenden dolayı yinelenen değerler mevcut olabilir.

Belki birden fazla kaynağın verilerini birleştirdiniz. Veya belki de verileri gönderen kişi bir değeri yanlışlıkla tekrarlamıştır. Bazı kullanıcılar, çevrimiçi bir formu doldururken 'gir' düğmesine iki kez tıkladı. Kopyaları bulur bulmaz kaldırmalısınız.

3. Yazım Hatalarından (ve benzeri hatalardan) kaçının

Yazım hataları insan hatasının bir sonucudur ve her yerde bulunabilir. Yazım hatalarını birden çok algoritma ve teknikle düzeltebilirsiniz. Değerleri eşleyebilir ve doğru yazım biçimine dönüştürebilirsiniz. Modeller farklı değerlere farklı davrandığından yazım hatalarını düzeltmek önemlidir. Dizeler, yazımlarına ve durumlarına çok güveniyor.

Yazılışları aynı olsa da 'George', 'george'dan farklıdır. Benzer şekilde 'Mike' ve 'Fare' de aynı sayıda karaktere sahip olsalar da birbirinden farklıdır. Bunun gibi yazım hatalarını aramanız ve uygun şekilde düzeltmeniz gerekir.

Yazım hatalarına benzer başka bir hata da dizelerin boyutundadır. Bunları aynı biçimde tutmak için doldurmanız gerekebilir. Örneğin, veri kümeniz yalnızca 5 basamaklı sayılara sahip olmanızı gerektirebilir. Dolayısıyla, '3994' gibi yalnızca dört basamaklı bir değeriniz varsa, basamak sayısını artırmak için başlangıçta bir sıfır ekleyebilirsiniz.

Değeri '03994' ile aynı kalır, ancak verilerinizi tek tip tutar. Dizelerle ilgili ek bir hata beyaz boşluklardır. Tutarlı olmaları için onları dizelerinizden çıkardığınızdan emin olun.

4. Veri Türlerini Dönüştür

Veri türleri, veri kümeniz genelinde tek tip olmalıdır. Bir dize sayısal olamaz veya sayısal bir boole olamaz. Veri türlerini dönüştürmek söz konusu olduğunda aklınızda bulundurmanız gereken birkaç şey vardır:

  • Sayısal değerleri sayısal olarak tut
  • Sayının bir dize olup olmadığını kontrol edin. Bir dize olarak girdiyseniz, yanlış olur.
  • Belirli bir veri değerini dönüştüremiyorsanız, 'NA değeri' veya buna benzer bir şey girmelisiniz. Bu özel değerin yanlış olduğunu göstermek için bir uyarı da eklediğinizden emin olun.

5. Eksik Değerlere Dikkat Edin

Her zaman eksik bir veri parçası olurdu. Bundan kaçınamazsınız. Bu nedenle, verilerinizi temiz ve hatasız tutmak için bunlarla nasıl başa çıkacağınızı bilmelisiniz. Veri kümenizdeki belirli bir sütunda çok fazla eksik değer olabilir. Bu durumda, çalışmak için yeterli veriye sahip olmadığı için tüm sütundan kurtulmak akıllıca olacaktır.

Dikkat edilmesi gereken nokta: Eksik değerleri göz ardı etmemelisiniz.

Eksik değerleri göz ardı etmek önemli bir hata olabilir, çünkü bunlar verilerinizi kirletir ve doğru sonuçlar elde edemezsiniz. Eksik değerlerle başa çıkmanın birden çok yolu vardır.

Eksik Değerleri Atama:

Eksik değerleri, yani yaklaşık değeri varsayarak uygulayabilirsiniz. Eksik değeri hesaplamak için doğrusal regresyon veya medyanı kullanabilirsiniz. Ancak, bu yöntemin sonuçları vardır çünkü bunun gerçek değer olup olmayacağından emin olamazsınız.

Eksik değerleri atamak için başka bir yöntem, verileri benzer bir veri kümesinden kopyalamaktır. Bu yönteme 'Hot-deck imputation' denir. Veri türü ve aralığı gibi bazı kısıtlamaları göz önünde bulundurarak mevcut kaydınıza değer katıyorsunuz.

Eksik Değerleri Vurgulama:

Atama, eksik değerlerin icabına bakmak için her zaman en iyi önlem değildir. Birçok uzman, bunun 'gerçek' olmadıkları için yalnızca daha karışık sonuçlara yol açtığını iddia ediyor. Böylece, başka bir yaklaşım benimseyebilir ve modele verilerin eksik olduğunu bildirebilirsiniz. Modele (veya algoritmaya) belirli bir değerin mevcut olmadığını söylemek de bir bilgi parçası olabilir.

Eksik değerlerinizden rastgele nedenler sorumlu değilse, bunları vurgulamak veya işaretlemek faydalı olabilir. Örneğin, müşteriniz ilk etapta yanıtlamak istemediğinden, kayıtlarınız anketinizin belirli bir sorusuna çok fazla yanıt vermeyebilir.

Eksik değer sayısal ise 0 kullanabilirsiniz. İstatistiksel analiz sırasında bu değerleri göz ardı ettiğinizden emin olun. Öte yandan, eksik değer kategorik bir değer ise, 'eksik' değerini doldurabilirsiniz.

Özet

Veri temizleme teknikleriyle ilgili ayrıntılı incelememizden keyif aldığınızı umarız. Şüphesiz öğrenecek çok şey vardı.

Aşağıdaki web semineri videomuzdan veri tartışması hakkında daha fazla bilgi edinin.

Veri temizlemeyle ilgili herhangi bir sorunuz varsa, uzmanlarımıza sormaktan çekinmeyin.

Veri bilimi hakkında bilgi edinmek istiyorsanız, IIIT-B & upGrad'ın çalışan profesyoneller için oluşturulmuş ve 10'dan fazla vaka çalışması ve proje, uygulamalı uygulamalı atölye çalışmaları, endüstri uzmanlarıyla mentorluk, 1 Endüstri danışmanlarıyla bire bir, en iyi firmalarla 400+ saat öğrenim ve iş yardımı.

Verilerdeki tutarsızlık neden bir sorundur?

Aynı veri parçası birkaç yerde göründüğünde, veri fazlalığı meydana gelirken, aynı veri birden çok tabloda farklı biçimlerde göründüğünde veri tutarsızlığı meydana gelir. Ne yazık ki, veri fazlalığı, bir firma için hatalı ve/veya yararsız verilerle sonuçlanan veri tutarsızlığına yol açabilir. Envanter ve dağıtım yönetimi prosedürlerini optimize etmek için satışları doğru şekilde tahmin edemezler; maliyet aşımlarını ve gecikmeleri en aza indirmek için üretim veya tedarik zinciri sorunlarını tespit edemezler; ve tasarımları veya pazarlama kampanyalarını değiştirmek için müşterinin yeni bir ürüne olan ilgisini değerlendiremezler.

Verileriniz ne sıklıkla temizlenmeli?

Verilerinizi hangi sıklıkta temizlemeniz gerektiği tamamen iş gereksinimlerinize bağlıdır. Büyük bir şirket çok fazla veriyi hızla elde eder, bu nedenle her üç ila altı ayda bir veri temizliği gerekebilir. Daha az veriye sahip daha küçük firmaların verilerini en az yılda bir kez temizlemeleri önerilir. Kirli verilerin size pahalıya mal olduğundan veya üretkenliğinizi, verimliliğinizi veya içgörülerinizi olumsuz etkilediğinden şüpheleniyorsanız, bir veri temizliği planlamanız önerilir.

Tableau veri temizliği için uygun mu?

Tableau Prep, verilerinizi hemen temizlemek ve şekillendirmek için kullanabileceğiniz bir dizi temizleme prosedürüyle birlikte gelir. Kirli verilerin temizlenmesi, verilerinizin entegre edilmesini ve analiz edilmesini ve ayrıca başkalarının verilerinizi paylaştığınız zaman anlamasını kolaylaştırır.