R'de Veri Manipülasyonu: Nedir, Değişkenler, dplyr paketini kullanma

Yayınlanan: 2020-03-26

İçindekiler

Tanıtım

Personel ve altyapı dışında, veriler herhangi bir şirketin yeni yapı taşıdır. Büyük şirketlerden küçük ölçekli endüstrilere kadar, veri, işletmelerini yönlendiren yakıttır. Bu veriler, günlük ticari işlemleri, müşteri satın alma verileri, satış verileri, finansal tablolar, iş istatistikleri, pazarlama kampanyaları ve çok daha fazlasıyla ilişkilidir. Bu nedenle O'Reilly Media'nın kurucusu Tim O'Reilly, verilerin yazılımdan daha önemli olacağı bir duruma girdiğimizi söyledi.

Ama bu kadar çok veriyle ne yapmalı? Şirketler, iş performanslarına ilişkin değerli bilgiler elde etmek için bu verileri kullanır. Bu verilerden bir anlam çıkarmak için R'de veri manipülasyonu gerçekleştiren veri bilimcilerini işe alırlar . Örneğin, geçen yılın satış ve pazarlama verilerini anlamak, onlara nerede oldukları hakkında bir fikir verecektir. Yakın tarihli bir araştırma, veri analitiği pazarının 2023 yılına kadar 77,6 milyar dolar değerinde olması beklendiğini gösterdi.

Veri bilimcileri, veri manipülasyonu adı verilen bir süreçle bu verilerden anlam çıkarmak için işe alınır.

Veri işleme nedir?

Veri işleme , verileri daha iyi okumak ve anlamak için düzenleme sürecidir. Örneğin şirket yetkilileri, sistemlerinden ve kayıt defterlerinden müşteri verilerini elde edebilir. Çoğunlukla bu veriler CRM (Müşteri İlişkileri Yönetimi) yazılımında ve excel sayfalarında saklanacaktır. Ancak düzgün organize edilmemiş olabilir. Veri işleme, tüm bu verileri, örneğin alfabetik sıraya göre düzenlemenin yollarını içerir.

Veriler tarih, saat, seri numarası veya başka herhangi bir alana göre sıralanabilir. Bir şirketin muhasebe departmanındaki kişiler, satış eğilimlerini, kullanıcı tercihlerini, pazar istatistiklerini ve ürün fiyatlarını belirlemek için verileri kullanır. Finansal analistler, borsanın nasıl performans gösterdiğini, eğilimleri ve yatırım yapmaları gereken en iyi hisse senetlerini anlamak için verileri kullanır.

Ayrıca, web sunucusu verileri, web sitesinin ne kadar trafiği olduğunu anlamak için kullanılabilir. Bu teknolojik çağda, IoT, verilerin makinelere bağlı sensörlerden elde edildiği bir teknoloji örneğidir. Bu veriler, makinenin performansını ve herhangi bir kusurunun olup olmadığını belirlemek için kullanılır. Pazar 2025 yılına kadar 81,67 milyar dolar değerinde olacağından, veri manipülasyonu IoT'de çok önemlidir.

Veri işleme, yaygın olarak R adlı bir programlama dili kullanılarak gerçekleştirilir. Dili biraz daha iyi tanıyalım.

R nedir?

R'de veri işlemeyi anlamak için R'nin temellerini bilmeniz gerekir. Veri analitiği, istatistiksel hesaplama ve yapay zeka için kullanılan modern bir programlama dilidir. Dil 1993 yılında Ross Ihaka ve Robert Gentleman tarafından oluşturuldu . Günümüzde araştırmacılar, veri analistleri, bilim adamları ve istatistikçiler verileri analiz etmek, temizlemek ve görselleştirmek için R'yi kullanıyor.

R, makine öğrenmesini, doğrusal regresyonu, istatistiksel çıkarımı ve zaman serilerini destekleyebilen grafik ve istatistiksel yöntemlerden oluşan devasa bir kataloğa sahiptir. GNU Genel Kamu Lisansı kapsamında, dil Windows, Mac ve Linux gibi işletim sistemleri için ücretsiz olarak kullanılabilir. Platform dostudur, yani bir platformda yazılan R kodunun başka bir platformda kolayca çalıştırılabileceği anlamına gelir.

R artık veri bilimi için ana programlama dili olarak kabul ediliyor. Ancak istatistiksel modelleme gibi karmaşık görevlerin yanı sıra yazılım geliştirme için de kullanabileceğiniz için kapsamlı bir dildir. RShiny paketini kullanarak web uygulamaları geliştirebilirsiniz.

O kadar güçlü bir dil ki, Google ve Facebook gibi dünyanın en iyi şirketlerinden bazıları onu kullanıyor.

R'nin en önemli özelliklerinden bazılarına göz atalım:

  • 10.000'den fazla R paketine sahip, verilerle çalışmak için gerekli tüm işlevlere sahip bir depo olan CRAN'a ( Kapsamlı R Arşiv Ağı) sahiptir.
  • Açık kaynaklı bir programlama dilidir . Bu, ücretsiz olarak indirebileceğiniz ve hatta gelişimine katkıda bulunabileceğiniz, özelliklerini güncelleyebileceğiniz ve mevcut işlevlerini özelleştirebileceğiniz anlamına gelir.
  • R'nin ggplot2 ve plotly gibi kullanışlı grafik kitaplıklarından eldeki verilerden yüksek kaliteli görselleştirmeler oluşturabilirsiniz.
  • R çok hızlı bir dildir. Yorumlanmış bir programlama dili olduğu için, R programlarını yürütülebilir koda dönüştürmek için bir derleyiciye gerek yoktur ve bu nedenle bir R betiği daha hızlı çalışır.
  • R, diziler, veri çerçeveleri ve vektörlerden oluşan çeşitli karmaşık hesaplamaları bir anda gerçekleştirebilir . Bu hesaplamaları yapmak için birçok operatör vardır.
  • Yapılandırılmış ve yapılandırılmamış verileri işler. Her tür veriyi işlemek için Büyük Veri ve SQL uzantıları mevcuttur
  • R, en parlak beyinlere sahip, sürekli büyüyen bir topluluğa sahiptir. Bu kişiler sürekli olarak r kütüphaneleri ve güncellemeleri geliştirerek programlama diline katkıda bulunuyorlar.
  • R'yi Python, Java ve C++ gibi diğer programlama dilleriyle kolayca entegre edebilirsiniz. Dağıtılmış bilgi işlem için Hadoop ile de birleştirebilirsiniz.

Artık R programlama dilinin temellerini öğrendiğinize göre, şimdi heyecan verici şeylere geçelim!

R'deki Değişkenler

R'de programlama yaparken veya R'de herhangi bir veri işlemesi yaparken , değişkenlerle uğraşmanız gerekir. Değişkenler, diziler, tamsayılar, kayan nokta tamsayıları veya yalnızca Boolean değerleri biçiminde olabilen verileri depolamak için kullanılır. Bu değişkenler, içeriği için bellekte bir yer ayırır. Geleneksel programlama dillerinden farklı olarak, R'deki değişkenler, R nesneleri ile birlikte atanır .

Değişkenlerin bir veri türü yoktur, ancak atandığı R nesnesinin türünü alır. En popüler R nesneleri şunlardır:

  • vektörler
  • Listeler
  • diziler
  • matrisler
  • Faktörler
  • Veri çerçeveleri

Bu veri yapıları, R'de veri işleme ve veri analizi için son derece önemlidir. Temel veri manipülasyonunu anlamak için onlara biraz daha detaylı bakalım:

vektörler

En temel veri yapılarıdır ve 1 boyutlu veriler için kullanılırlar. Atomik vektör türleri şunlardır:

  • tamsayı
  • Mantıklı
  • sayısal
  • karmaşık
  • Karakter

R'de değer oluşturduğunuzda, 1 uzunluğunda tek elemanlı bir vektör olur. Örneğin,

print(“ABC”); # tür karakterinin tek elemanlı vektörü

print(10.5) # çift tip tek eleman vektörü

Vektörlerdeki elemanlara indeks numaraları kullanılarak erişilebilir. Vektörlerdeki dizin konumları 1'den başlar. Örneğin,

t <- c(“Pzt”,”Sal”,”Çrş”,”Cts”)

u <- t[c(1,2,3)]

yazdır(u)

Sonuç “Pzt” “Salı” “Çar” olacaktır.

Listeler

Bunlar, içinde farklı türde öğeleri tutmak için kullanılan R'deki nesnelerdir. Bunlar tamsayılar, dizeler ve hatta listeler olabilir. Veriler bir veri çerçevesinde veya bir dizide tutulamıyorsa, bu en iyi seçenektir. Listeler ayrıca bir matris tutabilir. list() yöntemini kullanarak listeler oluşturabilirsiniz.

Bir liste oluşturmak için aşağıdaki kodu kullanın:

list_data <- liste(“Siyah”, “Yeşil”, c(11,4,14), DOĞRU, 31.22, 120.5)

yazdır(list_veri)

Liste elemanlarına liste indeksleri kullanılarak erişilebilir.

print(list_data[1]) #kod listenin ilk öğesini yazdırır

Listelerle veri işleme örneği:

list_data[4] <- NULL # bu kod, 4 öğeye sahipse listenin son öğesini kaldırır

Okuyun: Veri Bilimi için R vs Python

diziler

Diziler, yalnızca tek bir veri türünü depolamak için kullanılabilen nesnelerdir. İkiden fazla boyuttaki veriler dizilerde saklanabilir. Bunun için vektörleri girdi olarak alan array() fonksiyonunu kullanmanız gerekir. Diziyi oluşturmak için dim parametresindeki değeri kullanır.

Örneğin, aşağıdaki koda bakın:

vector_result <- dizi(c(vektörA,vektörB),dim = c(3,3,2))

yazdır(vektör_sonuç)

matrisler

Bu R nesnelerinde, elemanlar 2 boyutlu bir düzende düzenlenir. Matrisler, benzer atomik tipteki elementleri tutar. Bunlar, öğeler tek bir sınıfa ait olduğunda faydalıdır. Matematiksel hesaplamalar için sayısal elemanlara sahip matrisler oluşturulur. matrix() işlevini kullanarak matrisler oluşturabilirsiniz.

Bir matris oluşturmak için temel sözdizimi aşağıda verilmiştir:

matrix(veri, nrow, ncol, byrow, dimnames)

  • Veri – Bu, matris için veri öğesi haline gelen girdi vektörüdür.
  • Nrow – Bu, oluşturmak istediğiniz satır sayısıdır.
  • Ncol – Bu, oluşturmak istediğiniz sütun sayısıdır.
  • Byrow – Bu mantıklı bir ipucu. Değeri TRUE ise, vektör elemanları satıra göre düzenlenecektir.
  • Dimname – Sütun ve satırlara verilen adlar

Faktörler

Bu R nesneleri, verileri kategorilere ayırmak ve düzeyler halinde depolamak için kullanılır. İstatistiksel modelleme ve veri analizi için iyidirler. Hem tamsayılar hem de dizeler faktörlerde saklanabilir. Yönteme girdi olarak bir vektör sağlayarak bir faktör oluşturmak için factor() işlevini kullanabilirsiniz.

Veri çerçeveleri

Satırları ve sütunları olan bir dizi gibi iki boyutlu bir yapıya sahiptir. Burada, her satır, her sütuna ait bir dizi değere sahiptir. Sütunlar bir değişkenin değerini içerir. Elektronik tablolardan verileri temsil etmek için kullanılırlar. Bunlar faktör, sayısal veya karakter türündeki verileri depolamak için kullanılabilir.

Bir veri çerçevesi aşağıdaki özelliklere sahiptir:

  • Satır adlarının benzersiz olması gerekir
  • Sütun adları boş olmamalıdır
  • Her sütundaki veri öğelerinin sayısı aynı olmalıdır

R'de veri işleme

R'de veri işleme sırasında , ilk adım, büyük bir veri kümesinden küçük veri örnekleri oluşturmaktır. Bu, tüm veri seti aynı anda analiz edilemediği için yapılır. Genellikle veri analistleri, veri kümesinin temsili bir alt kümesini oluşturur. Bu, daha büyük veri setindeki eğilimleri ve kalıpları belirlemelerine yardımcı olur. Bu örnekleme işlemine alt kümeleme de denir .

R'de alt küme oluşturmanın farklı yolları şunlardır:

  • $ – Bu, tek bir veri öğesi seçer ve sonucu her zaman bir vektördür
  • [[ – Bu alt küme operatörü ayrıca tek bir öğe döndürür, ancak öğelere konumlarına göre başvurabilirsiniz.

  • [ – Bu operatör, birden çok veri öğesini döndürmek için kullanılır

R'de veri işleme için temel işlevlerden bazıları şunlardır:

örnek() işlevi

Adından da anlaşılacağı gibi, daha büyük bir veri kümesinden veri örnekleri oluşturmak için sample() yöntemi kullanılır. Bu komutla birlikte veri setinden veya bir vektörden çekmek istediğiniz örnek sayısını belirtirsiniz. Temel sözdizimi aşağıdaki gibidir:

örnek(x, boyut, değiştir = YANLIŞ, prob = NULL)

x - Bu, örneğin seçilmesi gereken birden çok öğeden oluşan bir vektör veya veri kümesi olabilir.

size – Bu, seçilecek öğe sayısını belirten pozitif bir tamsayıdır.

değiştir – Örneklemeyi değiştirmeli veya değiştirmesiz olarak isteyip istemediğinize bağlı olarak bu, Doğru veya Yanlış olabilir

prob – Örneklenen vektörün öğelerini almak için bir ağırlık vektörü sağlamak için kullanılan bir argümandır.

tablo() işlevi

Bu işlev, belirli bir değişkenin benzersiz değerlerinin sayısını hesaplamak için kullanılan bir sıklık tablosu oluşturur. Örneğin, iris veri seti ile bir frekans tablosu oluşturalım:

tablo(iris$Türler)

Yukarıda yazılan kod, iris veri setindeki tür türlerini gösteren bir tablo oluşturur.

kopyalanmış()

Yinelenen() yöntemi, bir veri kümesinden yinelenen değerleri belirlemek ve kaldırmak için kullanılır. Argüman olarak bir vektör veya veri çerçevesi alır ve yinelenen öğeler için True değerini döndürür. Örneğin,

çoğaltılmış(c(1,1,3))

Bu, bu öğelerden hangisinin kopya olduğunu kontrol edecek ve True veya False değerini döndürecektir.

Ayrıca okuyun : R'de Karar Ağacı

dplyr paketini kullanarak R'de veri işleme

R, veri işleme için dplyr adlı basit ve kullanımı kolay bir paket sağlar. Paket, manipülasyon, veri keşfi ve dönüştürme için bazı yerleşik yöntemlere sahiptir. Bu paketin en önemli işlevlerinden bazılarına göz atalım:

Seçme()

select() yöntemi, R'de veri işleme için temel işlevlerden biridir . Bu yöntem, R'de sütunları seçmek için kullanılır. Bunu kullanarak, sütun adıyla olduğu gibi verileri seçebilirsiniz. Sütunlar belirli koşullara göre seçilebilir. myData adlı bir veri çerçevesinin 3. ve 4. sütununu seçmek istediğimizi varsayalım , kod şöyle olacaktır:

seç(myData,3:4)

filtre()

Bu yöntem, belirli ölçütlerle eşleşen bir veri kümesinin satırlarını filtrelemek için kullanılır. Select() gibi çalışabilir, önce veri çerçevesini ve ardından virgülle ayrılmış bir koşulu iletirsiniz.

Örneğin, bir veri kümesinde kırmızı renkli arabaların bulunduğu sütunları filtrelemek istiyorsanız şunu yazmanız gerekir:

filtre(arabalar, renk==”Kırmızı”)

Sonuç olarak, eşleşen satırlar görüntülenecektir.

mutasyona uğrat()

Eskileri korurken bir veri kümesinde yeni sütunlar oluşturmak için mutate() yöntemini kullanabilirsiniz . Bu sütunlar bir koşul belirtilerek oluşturulabilir. Örneğin,

mutasyona uğrat(mtcars, mtcars_new_col = mpg / silindir)

Bu komutta, mtcars veri kümesinde, mtcars_new_col adlı yeni bir sütun oluşturulur ve bu sütun , mpg sütununun cyl sütununa bölünmesiyle elde edilir.

düzenlemek()

Bu, bir veya daha fazla değişken kullanarak satırları artan veya azalan düzende sıralamak için kullanılır. desc() yöntemini uygulamak yerine, sıralama değişkeninden önce bir eksi (-) sembolü ekleyebilirsiniz. Bu, azalan sıralama sırasını gösterecektir. Örneğin,

düzenle(my_dataset, -Sepal.Length)

grup_by()

group_by() yöntemi, bir veri kümesindeki gözlemleri bir veya birden çok değişkenle gruplamak için kullanılır.

özet()

summarise() işlevi, ortalama, medyan ve mod gibi veri içgörülerini belirlemek için faydalıdır. Başka bir group_by yöntemi tarafından oluşturulan gruplandırılmış verilerle birlikte kullanılır. summarise(), birden çok değeri tek değerlere indirmeye yardımcı olur.

birleştirmek()

merge() yöntemi, veri kümelerini birleştirir veya birleştirir. Bu, birden çok girdi verisi kaynağını bir araya getirmek için kullanışlıdır.

Yöntem, veri kümelerini birleştirmenin 4 yolunu sunar . Bunlar aşağıda belirtilmiştir:

  • Doğal birleştirme Belirtilen koşulla eşleşen satırları veri çerçeveleri içinde tutmak için kullanılır.
  • Tam dış birleştirme – Bu, her iki veri çerçevesindeki tüm satırları birleştirir ve saklar
  • Sol dış birleştirme - Bu, A veri çerçevesinin tüm satırlarını ve B'deki eşleşen satırları depolar.
  • Sağ dış birleştirme - Bu, bir B veri çerçevesinin tüm satırlarını ve A'daki eşleşenleri depolar.

yeniden adlandırma_if()

Bu, belirtilen koşul sağlandığında bir veri çerçevesinin sütunlarını yeniden adlandırmak için kullanabileceğiniz bir işlevdir.

tümünü yeniden adlandır()

Bu, herhangi bir koşul belirtmeden bir veri çerçevesinin tüm sütunlarını yeniden adlandırmak için kullanılır.

Dünyanın en iyi Üniversitelerinden veri bilimi kursları kazanın . Kariyerinizi hızlandırmak için Yönetici PG Programlarımıza, İleri Düzey Sertifika Programlarımıza veya Yüksek Lisans Programlarımıza katılın.

boru operatörü

Boru operatörü, genel kodunuzu basitleştirmek için magrittr ve dplyr gibi paketlerde mevcuttur . Operatör, birden fazla işlevi bir araya getirmenize olanak tanır. %>% sembolü ile gösterilir, R'de veri işleme sırasında summarise(), filter(), select() ve group_by() gibi popüler yöntemlerle kullanılabilir.

dplyr dışında, CRAN'da R'de veri işleme için birçok başka paket vardır . Aslında, kodlamanızı ve hatalarınızı azaltmak için 7000'den fazla paket bulacaksınız. Bu paketlerin çoğu uzman geliştiriciler tarafından oluşturulduğundan emin ellerdesiniz. Bunlar şunları içerir:

  • veri tablosu
  • yağlamak
  • ggplot2
  • okuyucu
  • yeniden şekillendir2
  • toparlayıcı

Çözüm

R'de veri işlemeye yeni başlıyorsanız, R'de bulunan yerleşik temel işlevlere gidebilirsiniz. Bunlar, with(), inside(), kopyalanmış(), cut(), table(), gibi yöntemleri içerir. örnek() ve sıralama(). Ancak zaman alıcı ve tekrarlayıcıdırlar. Çok verimli bir seçenek değil.

Bu nedenle, ilerlemenin en iyi yolu, CRAN'da dplyr gibi çok sayıda paketi kullanmaktır. Bunlar süper kullanışlıdır ve programlarınızı daha verimli hale getirir.

R'de veri işleme için hangi paket yararlıdır?

Veri işleme süreci, mevcut verileri değiştirmek ve daha düzenli hale getirmenin yanı sıra okumayı kolaylaştırmak için kullanılır. Veri toplayan makinelerde genellikle çok sayıda hata ve yanlışlık vardır. Veri işleme, bu yanlışlıkları ortadan kaldırmanıza ve daha doğru veriler sağlamanıza olanak tanır.

R'de veri işlemeyi gerçekleştirmenin, ggplot2, readr, dplyr, vb. Gibi Paketleri kullanmak ve inside(), with(), vb. Gibi Temel R işlevlerini kullanmak gibi birçok yolu vardır. Ancak, dplyr paketi çok kabul edilir. R'de veri işleme için kullanışlıdır. Bu paket, veri işleme için özel olarak yapılmış çeşitli işlevlerden oluşur ve verilerin diğer yöntem ve paketlere göre daha hızlı işlenmesine olanak tanır.

R'deki dplyr paketinin amacı nedir?

Dplyr paketinin, R'de maksimum verimlilikle veri işleme için en iyisi olduğu bilinmektedir. Daha önce, plyr adında bir paket vardı ve bu, dplyr'i oluşturmak için yinelendi. Şimdi, dplyr tamamen veri çerçevelerine odaklanıyor. Bu nedenle çok daha hızlıdır, daha iyi ve tutarlı bir API'ye sahiptir ve ayrıca kullanımı oldukça kolaydır.

Dplyr paketi, R'deki diğer veri işleme paketlerine kıyasla gelişmiş performansla mevcut verilerden en iyi şekilde yararlanmak için çalışır.

Verileri nasıl manipüle edebilirsiniz?

Veri işlemeyi gerçekleştirmek için belirli adımları genel bir sırayla gerçekleştirmeniz gerekir. Aşağıdaki adımları izleyin:

1. Öncelikle, veri kaynaklarından oluşturulmuş bir veritabanına ihtiyacınız olacak.
2. Ardından, veri işleme ile mevcut verileri temizlemeniz, yeniden düzenlemeniz ve yeniden yapılandırmanız gerekir.
3. Şimdi üzerinde çalışacağınız bir veritabanı geliştirmeniz gerekiyor.
4. Burada mevcut bilgileri birleştirebilir, silebilir ve değiştirebilirsiniz.
5. Son olarak, mevcut verileri analiz edin ve ondan faydalı bilgiler oluşturun.