4 Veri Türü: Nominal, Sıralı, Ayrık, Sürekli

Yayınlanan: 2020-12-01

İçindekiler

Tanıtım

Veri bilimi, ham veya yapılandırılmış verilerle denemeler yapmakla ilgilidir. Veriler, bir işletmeyi doğru yola götürebilecek veya en azından mevcut kampanyaların stratejilerini belirlemeye, yeni ürünlerin lansmanını kolayca organize etmeye veya farklı deneyler denemeye yardımcı olabilecek eyleme dönüştürülebilir bilgiler sağlayan yakıttır.

Tüm bunların tek bir ortak sürüş bileşeni vardır ve bu Data'dır. Çok fazla Veri ürettiğimiz dijital çağa giriyoruz. Örneğin, Flipkart gibi bir şirket, günlük olarak 2 TB'den fazla veri üretiyor.

Bu Veriler hayatımızda bu kadar önemli olduğunda, bunu hatasız bir şekilde depolamak ve işlemek önemli hale gelir. Veri kümeleriyle uğraşırken, doğru sonuçları elde etmek için belirli bir küme için hangi ön işleme stratejisinin işe yarayacağını veya en iyi sonuçlar için hangi tür istatistiksel analizin uygulanması gerektiğini belirlemek için veri kategorisi önemli bir rol oynar. Yaygın olarak kullanılan bazı veri kategorilerine girelim.

Nitel Veri Türü

Niteliksel veya Kategorik Veriler, incelenen nesneyi sonlu bir ayrık sınıflar kümesi kullanarak tanımlar. Bu, bu tür verilerin sayılar kullanılarak kolayca sayılamayacağı veya ölçülemeyeceği ve dolayısıyla kategorilere ayrılamayacağı anlamına gelir. Bir kişinin cinsiyeti (erkek, kadın veya diğerleri) bu veri türüne iyi bir örnektir.

Bunlar genellikle ses, görüntü veya metin ortamından çıkarılır. Başka bir örnek, geçerli derecelendirme, telefonun rengi, telefonun kategorisi vb. hakkında bilgi sağlayan bir akıllı telefon markası olabilir. Tüm bu bilgiler Nitel veriler olarak kategorize edilebilir. Bunun altında iki alt kategori vardır:

Nominal

Bunlar doğal bir sıralamaya sahip olmayan değerler kümesidir. Bunu birkaç örnekle anlayalım. Bir akıllı telefonun rengi, bir rengi diğerleriyle karşılaştıramadığımız için nominal bir veri türü olarak kabul edilebilir.

'Kırmızı'nın 'Mavi'den büyük olduğunu söylemek mümkün değildir. Bir kişinin cinsiyeti, erkek, kadın veya diğerleri arasında ayrım yapamayacağımız başka bir şeydir. Orta seviye, bütçe segmenti veya premium akıllı telefon olsun, cep telefonu kategorileri de nominal veri türüdür.

Okuyun: Veri Biliminde Kariyer

sıralı

Bu tür değerler, değer sınıflarını korurken doğal bir sıralamaya sahiptir. Bir giyim markasının boyutunu düşünürsek, onları ad etiketlerine göre küçük < orta < büyük şeklinde kolayca sıralayabiliriz. Bir testte adayları işaretlerken puanlama sistemi, A+'nın kesinlikle B notundan daha iyi olduğu sıralı bir veri türü olarak da düşünülebilir.

Bu kategoriler, hangi tür verilere hangi kodlama stratejisinin uygulanabileceğine karar vermemize yardımcı olur. Nitel veriler için veri kodlaması önemlidir, çünkü makine öğrenimi modelleri bu değerleri doğrudan işleyemez ve modeller doğası gereği matematiksel olduğundan sayısal türlere dönüştürülmesi gerekir.

Kategoriler arasında karşılaştırma yapılmayan nominal veri türleri için sayının daha az olduğu dikkate alınarak ikili kodlamaya benzer tek sıcak kodlama, sıralı veri türü için ise tamsayı biçimi olan etiket kodlaması uygulanabilir. kodlama.

Nicel Veri Türü

Bu veri türü, şeyleri nicelleştirmeye çalışır ve doğada onu sayılabilir kılan sayısal değerleri dikkate alarak yapar. Bir akıllı telefonun fiyatı, sunulan indirim, bir üründeki derecelendirme sayısı, bir akıllı telefonun işlemci frekansı veya o telefonun ram'i, tüm bunlar Kantitatif veri türleri kategorisine girer.

Önemli olan, bir özelliğin alabileceği sonsuz sayıda değer olabileceğidir. Örneğin, bir akıllı telefonun fiyatı x miktarından herhangi bir değere kadar değişebilir ve kesirli değerlere göre daha da bölünebilir. Bunları açıkça tanımlayan iki alt kategori şunlardır:

ayrık

Tamsayı veya tamsayı kapsamına giren sayısal değerler bu kategori altında yer alır. Telefondaki hoparlör sayısı, kameralar, işlemcideki çekirdekler, desteklenen sims sayısı tüm bunlar ayrık veri türüne örnek olarak verilebilir.

Sürekli

Kesirli sayılar sürekli değerler olarak kabul edilir. Bunlar işlemcilerin çalışma frekansı, telefonun android versiyonu, wifi frekansı, çekirdeklerin sıcaklığı vb. şeklinde olabilir.

Okumalısınız: Hindistan'da Veri Bilimcisi Maaşı

Sıralı ve Ayrık tip örtüşebilir mi?

Buna dikkat ederseniz, sıralı sınıflara numaralandırma verebilirsiniz ve o zaman ayrık tip mi yoksa sıralı mı denilmelidir? Gerçek şu ki, hala sıralı. Bunun nedeni, numaralandırma yapılsa bile sınıflar arasındaki gerçek mesafeleri aktarmamasıdır.

Örneğin, bir testin derecelendirme sistemini düşünün. İlgili notlar A, B, C, D, E olabilir ve bunları baştan numaralandırırsak 1,2,3,4,5 olur. Şimdi sayısal farklılıklara göre, E notu ile D notu arasındaki mesafe, D ve C notu arasındaki mesafeyle aynıdır, bu çok doğru değildir, çünkü C notunun E notuna kıyasla hala kabul edilebilir olduğunu biliyoruz, ancak orta fark onları eşit olarak bildirir.

Aynı tekniği, kullanıcı deneyiminin çok kötü ile çok iyi arasında bir ölçekte kaydedildiği bir anket formuna da uygulayabilirsiniz. Çeşitli sınıflar arasındaki farklar net değildir, bu nedenle doğrudan ölçülemez.

Farklı Testler

Verilerin tüm ana sınıflandırmalarını tartıştık. Bu önemli çünkü artık farklı kategorilerde yapılacak testleri önceliklendirebiliyoruz. Artık nicel veriler için bir histogram veya frekans grafiği ve nitel veriler için bir pasta grafiği ve çubuk grafiği çizmek mantıklıdır.

Bir bağımlı ile iki veya daha fazla bağımsız değişken arasındaki ilişkinin analiz edildiği regresyon analizi, yalnızca nicel veriler için mümkündür. ANOVA testi (Varyans analizi) testi yalnızca nitel değişkenler için geçerlidir, ancak bir ölçüm değişkeni ve iki nominal değişken kullanan iki yönlü ANOVA testi uygulayabilirsiniz.

Bu şekilde, kategorik değişkenler arasındaki ilişkileri keşfetmek için nitel veriler üzerinde Ki-kare testi uygulayabilirsiniz.

Çözüm

Bu yazımızda ürettiğimiz verilerin tabloları nasıl alt üst edebileceğini, çeşitli veri kategorilerinin ihtiyaçlarına göre nasıl düzenlendiğini ele aldık. Ayrıca sıralı veri türlerinin ayrık veri türleri ile nasıl örtüşebileceğine de baktık.

Belirli bir veri tipine uygulanabilecek çeşitli test türleri ve her türlü veriyi kullanan diğer testler ile birlikte, hangi veri kategorisine ne tür bir grafik uygundur.

Hızlı teknolojik gelişmelerin önünde olmak için veri bilimi öğrenmeyi merak ediyorsanız, upGrad & IIIT-B'nin Veri Biliminde Gelişmiş Sertifikasına göz atın

Veri bilimi neden önemlidir?

Veri biliminin önemi, yeni içgörüler oluşturmak ve büyük miktarda veriyi anlamlandırmak için programlama, matematik ve istatistik alanlarındaki alan uzmanlığını bir araya getirmesinde yatmaktadır. Şirketler için veri bilimi, verilerin toplanması, kaydedilmesi, sıralanması ve değerlendirilmesini tanımladığı için veriye dayalı kararlar almak için önemli bir kaynaktır. Son derece deneyimli bilgisayar uzmanları sıklıkla kullanır. Kendimize veri biliminin neden gerekli olduğunu sorduğumuzda, yanıt verinin değeri artmaya devam ettiği için duruyor. Veri bilimi büyük talep görüyor çünkü dijital verilerin kuruluşları nasıl değiştirdiğini ve daha bilinçli ve temel seçimler yapmalarını sağladığını gösteriyor.

Veri biliminin kapsamı nedir?

Veri bilimi bugünlerde hemen hemen her yerde bulunabilir. Buna Amazon satın almaları gibi çevrimiçi işlemler, Facebook/Instagram gibi sosyal medya beslemeleri, Netflix önerileri ve hatta akıllı telefonlar tarafından sağlanan parmak ve yüz tanıma özellikleri dahildir. Veri Bilimi, Yapay Zeka, Nesnelerin İnterneti (IoT) ve Derin Öğrenme gibi birkaç son teknoloji ürünü fikri kapsar. Veri biliminin etkisi, ilerlemeleri ve teknik ilerlemeleri nedeniyle önemli ölçüde büyümüş ve kapsamını genişletmiştir. Veri bilimini öğrenerek, birçok seçenek arasından iş profilinizi seçebilirsiniz ve bu işlerin çoğu iyi para kazandırıyor. Bu iş profillerinden birkaçı Veri Analisti, Veri Bilimcisi, Veri Mühendisi, Makine Öğrenimi Bilimcisi ve Mühendisi, İş Zekası Geliştiricisi, Veri Mimarı, İstatistikçi vb.

Nominal veriler sıralı verilerden nasıl farklıdır?

Nominal veriler, iki veya daha fazla kategori içeren adları veya özellikleri içerir ve kategorilerin doğal bir sıralaması yoktur. Başka bir deyişle, bu tür verilerin herhangi bir doğal sıralaması veya sırası yoktur. Sıralı bir veri türü, nominal olana benzer, ancak ikisi arasındaki ayrım, verilerde bariz bir sıralamadır. Genel olarak, sıralı verilerde bir düzen vardır, ancak nominal verilerde yoktur. Likert ölçekleri, Bristol dışkı ölçekleri ve 0 ile 10 arasında derecelendirilen diğer ölçekler gibi tüm sıralama verileri sıralı veriler kullanılarak ifade edilebilir.