기계 학습 프로젝트를 위한 최고의 데이터 세트: 알아야 할 모든 것
게시 됨: 2020-03-20목차
소개
머신 러닝 은 오늘날 사용되는 가장 강력한 기술 중 하나입니다. 이는 컴퓨터를 더 똑똑하게 만드는 데 사용되는 인공 지능의 매우 중요한 부분으로, 인간의 개입 없이 학습할 수 있는 능력을 제공합니다. 따라서 머신 러닝은 데이터 처리에 필수적인 도구입니다. 데이터는 비즈니스 의사 결정에서 고객 경험 큐레이팅에 이르기까지 문자 그대로 모든 곳에서 사용되기 때문에 머신 러닝을 사용하면 이러한 거대한 데이터 세트에 숨겨진 패턴을 더 쉽게 식별할 수 있습니다.
가장 중요한 것은 이러한 데이터 세트가 엄청난 양의 원시 데이터를 구성하는 방법이라는 것입니다. 이러한 데이터 세트를 사용하여 비즈니스 운영을 더 쉽게 만드는 응용 프로그램을 만들기 위한 프로그램이 작성됩니다. 이 기사에서는 기계 학습을 위한 다양한 데이터 세트에 대해 알아봅니다 .
그러나 그것에 들어가기 전에 먼저 기계 학습의 기초를 이해합시다.
머신 러닝이란 무엇입니까?
기계 학습은 Netflix, Facebook, Twitter, YouTube, Spotify, Google 및 Baidu와 같이 가장 좋아하는 플랫폼을 구동하는 역할을 합니다. Alexa 및 Siri와 같은 음성 비서도 기계 학습을 사용하여 좋아하는 노래를 선택합니다! 이러한 모든 플랫폼은 귀하와 관련된 데이터를 사용하려고 합니다. 여기에는 검색, 클릭, 보기, 공유하는 사진, 댓글, 반응 및 게시물이 포함됩니다. 최고의 머신 러닝 애플리케이션에 대해 자세히 알아보세요.
머신 러닝은 이 데이터를 사용하여 선호도에 대한 아이디어를 얻습니다. 예를 들어, Netflix는 이를 사용하여 사용자가 시청한 TV 시리즈를 기반으로 시청할 수 있는 TV 시리즈를 제안합니다. Amazon과 같은 플랫폼에서도 기계 학습을 사용하여 이전 구매 내역을 기반으로 제품을 제안합니다.
머신 러닝 시장에서 가장 두드러진 부분은 2025년까지 최대 10억에 도달할 수 있는 딥 러닝입니다.

흥미로워 보이죠? 주제의 기술에 대해 알아보겠습니다.
머신러닝 카테고리
머신 러닝은 크게 지도 학습(supervised learning), 비지도 학습(unsupervised learning), 강화 학습(reinforcement learning)의 세 가지로 나뉩니다 .
지도 학습
이 과정에서 컴퓨터는 훈련 데이터 라는 데이터 세트에서 학습합니다 . 이를 기반으로 의사결정을 내리고 향후 결과를 예측합니다. 머신 러닝을 위한 훈련 데이터 세트에 대해서는 나중에 배우게 됩니다. 여기에서 시스템은 입력-출력 쌍을 제공받고 이러한 쌍으로 작업하는 동안 함께 매핑되는 방법을 배웁니다. 정답이 태그된 일련의 질문과 같습니다.
시스템 또는 알고리즘이 입력-출력 쌍 간의 관계를 학습하면 새로운 입력이 제공될 때 출력을 예측할 수 있습니다. 지도 학습 유형에 대해 자세히 알아보세요.
비지도 학습
여기에서 컴퓨터는 도움 없이 숨겨진 패턴을 식별하기 위해 데이터 세트를 조사합니다. 복잡한 작업을 수행하고 자체적으로 결과를 발견합니다. 비지도 학습에 대해 자세히 알아보세요.
강화 학습
이 기계 학습 프로세스는 시행착오 방법을 사용하여 문제에 대한 솔루션을 결정합니다. 따라서 프로그램의 출력은 제공된 현재 입력에 따라 달라집니다.
머신 러닝에 대한 기본적인 이해를 하였으니 이제 데이터 세트로 넘어갑시다.
머신 러닝을 위한 데이터 세트란 무엇입니까?
데이터 세트는 이름에서 알 수 있듯이 데이터 모음입니다 . 열을 나타내는 데 변수가 사용되는 단일 데이터베이스의 데이터일 수 있습니다. 이 테이블의 행은 이 특정 데이터세트의 구성원으로 표시될 수 있습니다.
머신 러닝을 위한 데이터 세트 준비 는 중요합니다. 이는 알고리즘이 원시 또는 구조화되지 않은 데이터에서 제대로 작동할 수 없기 때문입니다. 문제를 해결하고 결정을 내리기 위해서는 적절한 데이터 세트가 필요합니다. 예를 들어, 날씨 애플리케이션에는 지난 며칠 또는 몇 주 동안의 기후 데이터가 포함된 적절한 데이터 세트가 없을 수 있습니다. 따라서 다음 주에 대한 정확한 일기 예보를 제공할 수 없습니다.
따라서 머신 러닝 을 위한 적절한 데이터 세트 가 없으면 훈련된 데이터 과학자라도 머신 러닝 프로젝트 가 성공할 수 없습니다.
기계 학습용 데이터 세트는 기계 학습 모델 을 만드는 데 사용됩니다 . 이러한 모델은 수학적 표현을 사용하여 실제 문제를 나타냅니다. 이러한 모델을 생성하려면 학습하고 작업할 데이터 세트를 모델에 제공해야 합니다.
머신 러닝에 사용되는 데이터 세트의 유형은 다음과 같습니다.
1. 훈련 데이터 세트
이것은 아마도 머신 러닝을 위한 데이터 세트 중에서 가장 중요할 것 입니다. 모델을 생성하기 위해 머신 러닝 알고리즘에 제공됩니다. 알고리즘은 입력 변수를 식별하기 위해 데이터 패턴을 찾습니다. 이것은 궁극적인 목표나 원하는 결과에 도달하는 데 도움이 될 것입니다. 이 데이터 세트의 출력은 결과 예측에 사용할 수 있는 기계 학습 모델입니다.
데이터 세트의 약 60%가 훈련 데이터 세트에 의해 사용됩니다.
2. 검증 데이터 세트
검증 데이터 세트는 머신 러닝 프로젝트를 생성하는 동안 검증 단계에서 사용됩니다. 이 단계는 훈련 직후에 옵니다. 이 데이터 세트는 기계 학습 모델을 평가하는 데 중요합니다. 기계 학습 엔지니어는 이 세트를 사용 하여 모델 의 초매개변수 를 조정하고 조정합니다 . 이러한 하이퍼파라미터는 프로그램이 학습을 시작하기 전에 설정된 값을 갖는 파라미터입니다.
그들의 값은 데이터에서 추정할 수 없습니다. 예를 들어, 하이퍼파라미터는 트리의 깊이 또는 신경망에서 감지되지 않은 여러 레이어를 포함할 수 있습니다.
유명한 작가인 Max Kuhn과 Kjell Johnson 에 따르면 "데이터 모델은 생성하거나 조정하는 데 사용되지 않은 샘플을 사용하여 평가해야 합니다. 이것은 모델의 효율성에 대한 편견 없는 결과를 제공합니다. 방대한 양의 데이터로 작업할 때 평가를 위해 일부 데이터 샘플을 따로 보관하는 것이 가장 좋습니다. 훈련 세트는 모델을 구축하는 데 사용되는 샘플이고 검증 및 테스트 샘플은 성능을 분석하는 데 사용됩니다.”
3. 테스트 데이터 세트
머신 러닝을 위한 테스트 데이터 세트는 머신 러닝 모델이 미래에 어떻게 작동할지 이해하는 데 사용됩니다. 이 데이터 세트를 사용하면 데이터 모델이 얼마나 정확한지 이해할 수 있습니다. 간단히 말해서 이 데이터 세트는 데이터 모델이 훈련 세트에서 얼마나 많이 배웠는지 알려줍니다.
이 세트는 데이터의 20%를 차지합니다. 세트에는 검증된 출력과 함께 입력 변수가 포함됩니다. 그러나 기계 학습 프로젝트 에서는 일반적으로 테스트 단계에서 학습 데이터 세트를 사용하지 않습니다. 이는 알고리즘이 이전에 이 데이터 세트에서 학습한 대로 예상 출력을 인식하기 때문입니다.
테스트 단계 후에 데이터 모델은 일반적으로 더 이상 조정되지 않습니다. 이는 추가 조정이 과적합 으로 이어질 수 있기 때문 입니다. 과적합은 데이터 모델이 너무 많은 데이터로 훈련될 때 발생합니다. 이 경우 모델은 주어진 데이터 세트의 부정확한 데이터 항목에서 학습을 시작합니다. 결과적으로 새 데이터 세트에서는 제대로 작동하지 않습니다. 그것은 당신이 할 수 없을 때 특대 청바지에 맞추려고하는 것과 같습니다!

그러나 기계 학습 모델이 성공적으로 작동하려면 좋은 데이터 세트를 제공해야 합니다. 기계 학습을 위한 데이터 세트가 없으면 알고리즘은 문제를 학습하고 해결할 수 없습니다. 예를 들어, 적절한 책과 리소스가 없으면 원하는 시험에 합격할 수 없습니다.
머신 러닝을 위한 데이터세트 준비
머신 러닝을 위한 데이터 세트 를 만드는 데 필요한 단계를 알아보겠습니다 .
데이터 수집
첫 번째 단계는 기계 학습 모델에 필요할 수 있는 모든 관련 데이터를 수집하는 것입니다. 데이터의 양은 기계 학습 프로젝트의 복잡성에 따라 달라집니다 . 간단한 프로젝트는 복잡한 프로젝트보다 데이터가 덜 필요합니다. 따라서 당면한 문제를 해결하는 데 실제로 필요한 모든 것을 결정해야 합니다.
다음 질문에 답하면 데이터를 쉽게 수집할 수 있습니다.
- 프로젝트에 사용할 수 있는 데이터 유형은 무엇입니까?
- 프로젝트에 필요한 데 사용할 수 없는 데이터는 무엇입니까? – 여기에는 특정 데이터베이스 또는 클라우드 시스템에 저장된 데이터가 포함될 수 있습니다. 이 데이터를 파생해야 할 수도 있습니다.
- 기존 데이터에서 어떤 데이터를 제거할 수 있습니까? 이는 프로젝트와 관련이 없는 원치 않는 데이터를 제거하는 것을 의미합니다.
이 모든 질문에 대한 답이 있으면 다양한 소스에서 데이터 수집을 시작할 수 있습니다. 텍스트 파일, .csv 파일, JSON 및 XML 파일 및 데이터 리포지토리의 중첩 데이터 구조를 볼 수 있습니다.
이제 기계 학습을 위한 데이터 세트를 만드는 다음 단계로 넘어갈 수 있습니다 .
데이터 전처리
이제 필요한 모든 데이터가 있으므로 모델에 맞게 데이터를 적절하게 처리해야 합니다. 전처리 방법은 원시 데이터 세트를 사용 가능한 의미 있는 세트로 변환하는 것입니다. 프로세스는 다음 세 단계로 구성됩니다.
서식
수집한 원시 데이터가 기계 학습 모델에 적합한 형식이 아닙니다. JSON 파일 또는 관계형 데이터베이스에 있을 수 있습니다. 이 데이터를 편의에 따라 텍스트 파일이나 .csv 파일로 변환해야 합니다.
청소
이것은 데이터 세트에서 누락되거나 원하지 않는 데이터를 수정하고 제거하는 프로세스입니다. 이러한 데이터 인스턴스는 문제 해결에 도움이 되지 않을 수 있습니다. 또한 일부 속성에는 완전히 숨기거나 제거해야 하는 민감한 정보가 있을 수 있습니다. 이를 통해 머신 러닝을 위한 데이터세트가 더 의미가 있습니다.
견본 추출
프로젝트에 실제로 필요한 것보다 훨씬 더 많은 데이터를 수집했을 수 있습니다. 큰 데이터 세트는 많은 메모리 공간을 소비합니다. 또한 머신 러닝 알고리즘에 제공될 때 더 긴 런타임과 훨씬 더 많은 계산이 발생합니다. 이러한 문제를 방지하려면 모델이 쉽게 사용할 수 있는 선택된 데이터의 더 작은 샘플을 만들어야 합니다. 이 프로세스를 샘플링 이라고 합니다.
피처 엔지니어링
여기에서 데이터 세트를 분석하여 문제를 해결하고 예측하는 데 도움이 되는 최상의 기능과 패턴을 결정합니다. 따라서 이 과정에서 대용량 데이터 세트에서 일부 데이터가 제거될 수 있습니다. 초점은 모델에 맞는 가장 중요한 기능에 있습니다.
데이터는 중요한 기능을 식별하기 위해 작은 부분으로 분해될 수 있습니다. 예를 들어 특정 연도의 판매 데이터를 월과 요일로 나눌 수 있습니다. 이러한 방식으로 판매 실적을 보다 쉽고 빠르게 분석할 수 있습니다. 이것은 또한 기계 학습 알고리즘이 더 빠르게 계산하는 데 도움이 됩니다.
데이터 분할
이제 데이터를 훈련, 테스트 및 검증의 세 가지 세트로 분할해야 합니다. 세트별로 70%, 20%, 10%로 나누어야 합니다. 적절한 테스트를 위해 겹치지 않는 데이터 하위 집합만 선택해야 합니다. 머신 러닝 모델이 원하는 출력에 더 빨리 도달할 수 있도록 데이터 세트를 적절하게 분할합니다. 나중에 데이터 모델을 구체화할 수 있습니다.
자, 이제 기계 학습 알고리즘을 위한 데이터 세트를 선별하는 방법을 배웠습니다. 그러나 프로젝트가 시작되고 자신의 데이터 세트를 구축할 시간이 없다면 어떻게 될까요? 인터넷 덕분에 바로 사용할 수 있는 데이터 세트가 많이 있습니다.
머신 러닝 데이터 세트 온라인
다음은 웹에서 기계 학습 에 가장 유용한 데이터 세트입니다.
- 보스턴 주택 데이터세트
머신 러닝을 위한 데이터 세트 중에서 널리 사용되는 선택 입니다 . 패턴 인식에 사용됩니다. 해당 지역의 방 수, 세율 및 범죄율과 같은 데이터를 포함하여 다양한 보스턴 주택에 대한 정보로 구성됩니다. 데이터 열에 506개의 행과 14개의 변수로 구성된 데이터 집합은 주택 가격을 예측하는 데 유용합니다.
- 파킨슨병 데이터 세트
이 데이터 세트는 195명의 환자 기록과 생물 의학 측정값이 있는 23개의 다른 속성으로 구성됩니다. 데이터 세트를 사용하여 건강한 환자와 파킨슨병 환자를 구분할 수 있습니다.
- IMDB
25,000개의 영화 리뷰로 구성된 데이터 세트입니다. 이진 감정 분류에 사용됩니다.
- MIMIC-III
이것은 MIT 컴퓨터 생리학 연구소에서 만든 공개적으로 사용 가능한 데이터 세트입니다. 약 40,000명의 중환자의 건강 데이터로 구성되어 있습니다. 약물, 실험실 테스트, 활력 징후 및 인구 통계와 같은 정보가 여기에 포함됩니다.

- 버클리 딥드라이브 BDD100k
Berkeley DeepDrive BDD100k는 현재 자율주행차용 머신 러닝 프로그램 개발에 사용되는 가장 큰 데이터 세트입니다. 여기에는 다양한 기후 조건에서 하루 중 다양한 시간에 운전하는 100,000개 이상의 비디오가 포함되어 있습니다. 데이터는 뉴욕과 샌프란시스코 도시를 기반으로 합니다.
- Uber 픽업 데이터 세트
이 데이터 세트에는 2014년 4월부터 9월까지 뉴욕에서 Uber 고객 픽업에 대한 정보가 있습니다. 2015년 1월부터 6월까지 이 유형의 고객 데이터는 약 450만 개, 추가로 1400만 개 있습니다. 이 데이터 세트를 사용하여 데이터 분석을 수행하여 고객에 대한 추가 정보를 수집할 수 있습니다. 이는 기업이 비즈니스를 크게 향상시키는 데 도움이 될 수 있습니다.
- 쇼핑몰 고객 데이터 세트
여기에는 쇼핑몰을 방문하는 사람들에 대한 정보가 포함됩니다. 데이터 세트에는 성별, 연령, 고객 ID, 지출 점수 등과 같은 세부 정보가 포함됩니다. 이것은 타겟 마케팅에 매우 유용할 수 있습니다. 기업은 연령 및 지출 점수와 같은 데이터를 기반으로 고객을 그룹으로 분류할 수 있습니다. 그들은 이러한 그룹에 대한 고유한 고객 경험을 만들 수 있습니다.
결론
적절한 단어와 구절이 시를 오랫동안 기억하게 하는 것처럼 성공적인 프로젝트를 위해서는 올바른 데이터 세트가 필요합니다. 이것이 바로 많은 최고의 기업이 특정 기계 학습 시스템을 위한 최고의 데이터 세트를 생성하는 작업을 위해 데이터 엔지니어를 모집하는 이유입니다. 따라서 머신 러닝을 위한 데이터 세트를 준비하는 동안 시간을 할애하십시오 .
기계 학습에 대해 자세히 알아보려면 IIIT-B 및 upGrad의 기계 학습 및 AI PG 디플로마를 확인하세요. 이 PG 디플로마는 일하는 전문가를 위해 설계되었으며 450시간 이상의 엄격한 교육, 30개 이상의 사례 연구 및 과제, IIIT- B 동문 자격, 5개 이상의 실용적인 실습 캡스톤 프로젝트 및 최고의 기업과의 취업 지원.
머신 러닝을 위한 데이터 세트란 무엇입니까?
데이터는 머신 러닝에서 가장 중요한 구성 요소입니다. 데이터 세트는 학습에 사용되는 정보의 모음입니다. 데이터 세트는 일반적으로 훈련 데이터와 다른 소스에서 가져옵니다. 이 데이터는 모델이 얼마나 잘 작동하는지 평가하는 데 사용됩니다. 예를 들어 이미지 분류기를 훈련시키기 위해 ImageNet 컬렉션의 이미지를 사용합니다. 이미지가 훈련 데이터 세트와 테스트 데이터 세트 모두에 존재할 수 있지만 별개의 범주에 있어야 한다는 점은 주목할 가치가 있습니다. 데이터 세트의 또 다른 인기 있는 용도는 이미지 인식 알고리즘을 훈련하는 것입니다. 알고리즘을 훈련시키려면 만 개의 고양이 이미지와 만 개의 개 이미지가 있어야 합니다. ImageNet은 업계에서 널리 사용되는 데이터 세트 중 하나입니다.
머신 러닝에서 검증 데이터 세트란 무엇입니까?
지도 머신 러닝에는 입력 샘플과 원하는 출력으로 구성된 훈련 데이터 세트가 있습니다. 검증 데이터세트는 모델/모델 매개변수가 훈련되지 않은 두 번째 데이터세트입니다. 모델/모델 매개변수는 훈련 데이터 세트에서 추정됩니다. 검증 데이터 세트는 보이지 않는 샘플, 즉 테스트 샘플에 대한 지도 학습 모델의 예상 정확도를 추정하는 데 사용됩니다. 검증 데이터 세트는 지도 학습 모델의 일반화 오류를 측정하거나 추정하는 데 사용됩니다.
머신 러닝에 사용되는 인기 있는 데이터 세트는 무엇입니까?
기계 학습을 더 잘하기 위해 사용할 수 있는 몇 가지 데이터 세트가 있습니다. 그 중 일부는 다음과 같습니다. 가계 소득 및 인구 통계 조사 데이터, 미국 인구 조사국 사업자 설문 조사, 주식 시장 가격, 미국 시민의 연령 및 성별, 미국 주의 에너지 사용, 구매, 판매 및 임대 주택 비율, Twitter 해시 태그, Facebook Facebook에서 사람들의 좋아요 및 기타 활동, ILSVRC(ImageNet Large Scale Visual Recognition Challenge) 데이터 세트, 미국 주요 항구의 월별 출하량 등 머신 러닝에 사용할 수 있는 데이터 세트가 더 많습니다.