초보자를 위한 상위 10가지 기계 학습 데이터 세트 프로젝트 아이디어 [2022]

게시 됨: 2021-01-04

기계 학습 데이터 세트를 찾는 것은 실제로 집요하지만 꼭 그래야 하는 것은 아닙니다! 이 문서에서는 기계 학습 프로젝트에 사용할 수 있는 여러 데이터 세트를 공유했습니다. 또한 모든 데이터 세트에 포함된 내용과 해당 링크에 대한 세부 정보를 공유했습니다. 우리 목록에는 다양한 분야와 다양한 크기의 데이터 세트가 포함되어 있으므로 관심과 전문 지식에 따라 선택할 수 있습니다.

그 외에도 다른 데이터 세트에 대한 프로젝트 아이디어도 공유하여 바로 프로젝트 작업을 시작할 수 있습니다. 프로젝트 작업은 기계 학습 알고리즘에 대한 지식을 테스트하는 데 도움이 됩니다. 시작하자:

기계 학습 데이터 세트 프로젝트 아이디어
- 1. Enron의 이메일 데이터 세트
- 2. Flickr의 이미지 데이터 세트
- 3. 홍채 데이터 세트(초보자 수준)
- 4. 파킨슨병 데이터세트
- 5. The Mall 고객 데이터 세트
- 6. Uber Rides 데이터 세트
- 7. 구글 트렌드와 그 데이터
- 8. 동역학 데이터 세트
- 9. GTSRB 데이터
- 10. 보스턴 하우스 데이터셋
기계 학습 프로젝트 작업 시간
머신 러닝에서 데이터 세트란 무엇입니까?
데이터 세트의 유형은 무엇입니까?
머신 러닝에서 훈련 및 테스트 데이터 세트란 무엇입니까?

기계 학습 데이터 세트 프로젝트 아이디어

1. Enron의 이메일 데이터 세트

이 데이터 세트에는 150명 이상의 사용자가 보낸 약 5,00,000개의 이메일이 포함되어 있습니다. 이 모든 이메일은 Enron이라는 회사의 것이며 이 데이터 세트에 있는 대부분의 이메일은 고위 관리 팀의 것입니다. 자연어 처리 프로젝트에서 작업하려면 여기에서 시작해야 합니다.

Enron의 이메일 데이터 세트는 NLP 프로젝트에서 널리 사용되며 이를 통해 많은 것을 배울 수 있습니다. K-평균 클러스터링 모델을 생성하고 이를 사용하여 이메일 텍스트를 통해 사기 행위를 식별할 수 있습니다. K-평균 클러스터링은 비지도 ML 알고리즘이며 항목을 유사성에 따라 k개의 클러스터로 분리합니다.

데이터세트에 연결

2. Flickr의 이미지 데이터 세트

Flickr는 전 세계적으로 수백만 명의 사용자가 사용하는 이미지 호스팅 서비스입니다. 이 데이터세트에는 캡션이 다른 30,000개의 이미지가 있습니다. 이 데이터세트를 사용하여 이미지에 대한 캡션 생성기를 만들 수 있습니다. 이 데이터세트는 이미지 분석 및 텍스트를 통한 이미지 설명으로 유명합니다.

이미지를 분석하고 특정 이미지에서 식별하는 기능에 따라 캡션을 생성하는 CNN(Convolutional Neural Network) 모델을 만들 수 있습니다. 데이터 세트에서 사용할 수 있는 수천 개의 캡션을 통해 모델을 훈련할 수 있습니다. 캡션 생성기를 구축하면 이미지 분석 작업을 배우고 실제 사례에서 어떻게 사용할 수 있는지에 대한 많은 경험을 얻을 수 있습니다.

데이터세트에 연결

3. 홍채 데이터 세트(초보자 수준)

이전에 기계 학습 프로젝트에서 작업한 적이 없다면 여기에서 시작해야 합니다. Iris 데이터 세트는 단순성과 크기 때문에 ML 학생들에게 인기 있는 선택입니다. 꽃받침, 꽃잎 크기 등 붓꽃 3종에 대한 정보를 담고 있습니다.

이 데이터 세트의 또 다른 이름은 출처 때문에 Fisher의 홍채 데이터 세트입니다. Ronald Fisher는 1936년 논문에서 이 데이터 세트를 사용했습니다.

Iris 데이터셋에는 150개의 행이 있는 4개의 열이 있습니다. 이 데이터 세트로 분류 모델을 생성할 수 있습니다. 분류 모델은 속성에 따라 항목을 서로 다른 클래스로 분리하며, 이를 생성하면 비지도 학습과 지도 학습의 차이점도 배울 수 있습니다.

데이터세트에 연결

4. 파킨슨병 데이터세트

Parkinson의 데이터 세트는 의료 분야에서 기계 학습을 사용하려는 학생들이 액세스할 수 있습니다. 23개의 속성과 함께 195개의 케이스를 포함하고 있어 의료 부문의 머신 러닝 프로젝트를 위한 최고의 데이터 세트 중 하나입니다.

파킨슨병은 신경계의 장애로 기본적인 움직임에 영향을 미칩니다. 느린 움직임, 균형 상실 및 경직은 이 질병의 가장 두드러진 증상 중 일부입니다. 이 데이터 세트를 사용하여 환자의 증상과 특성을 분석하여 파킨슨병이 있는지 여부를 결정함으로써 건강한 사람과 환자를 구분하는 모델을 만들 수 있습니다.

의료 부문에서 머신 러닝의 사용은 날로 대중화되고 있습니다. 따라서 해당 분야에서 기계 학습 전문 지식을 사용하는 데 관심이 있다면 여기에서 시작해야 합니다. 의료 분야의 기계 학습 응용 프로그램 에서 영감을 얻을 수 있습니다 .

데이터세트에 연결

5. The Mall 고객 데이터 세트

이 데이터 세트에는 쇼핑몰을 방문하는 사람들에 대한 정보가 있습니다. 여기에는 고객 ID, 연간 수입, 연령, 지출 점수 및 성별과 같은 여러 변수가 포함됩니다. 데이터 세트는 행동과 경향에 따라 고객을 다양한 범주로 나눴습니다.

이 데이터 세트를 사용하여 성별, 지출 점수 또는 연간 수입에 따라 고객을 분리하는 분류 모델을 생성할 수 있습니다. 이 데이터 세트는 비즈니스에서 AI 및 ML의 인기 있는 애플리케이션인 고객 세분화 프로젝트에 적합합니다.

회사는 고객 세분화를 사용하여 마케팅 전략을 고안하고 광고를 향상시킵니다. 이 프로젝트에서 작업하면 정확한 고객 세분화를 위해 기계 학습 알고리즘을 사용하는 방법을 이해하는 데 도움이 됩니다.

데이터세트에 연결

읽기 : Python 프로젝트 아이디어

6. Uber Rides 데이터 세트

이것은 시각화 프로젝트를 위한 최고의 기계 학습 데이터 세트 중 하나입니다. Uber Rides 데이터 세트에는 2014년 4월부터 2014년 9월 사이에 발생한 Uber 타기에 대한 정보가 포함되어 있습니다. 당시 약 450만 번의 Uber 타기가 발생했기 때문에 데이터 세트는 매우 방대합니다. 데이터 세트에는 해당 놀이기구와 관련된 위치 및 기타 관련 데이터에 대한 정보가 포함되어 있습니다.

이 데이터세트에 있는 데이터를 사용하여 아름다운 데이터 시각화를 만들 수 있습니다. 데이터 시각화는 대규모 데이터 풀에서 귀중한 통찰력을 얻는 데 도움이 됩니다. 그 외에도 데이터 시각화는 발견된 통찰력에 따라 더 나은 결정을 내리는 데 도움이 됩니다. 이러한 데이터 시각화 프로젝트 에서 영감 을 얻어 시작할 수 있습니다.

데이터세트에 연결

7. 구글 트렌드와 그 데이터

Google 트렌드는 Google 검색을 분석하고 사람들이 인터넷 검색을 하고 있는 트렌드 주제를 찾을 수 있는 도구입니다. 무료지만 강력한 도구이며 사람들의 검색 패턴 및 추세에 대한 많은 데이터를 제공할 수 있습니다.

Google 트렌드를 사용하면 특정 시간에 특정 키워드 및 관련 용어가 검색된 횟수를 찾을 수 있습니다. 또한 이를 사용하여 인구 통계와 관련된 데이터를 얻을 수도 있습니다.

데이터 분석을 위해 기계 학습을 사용할 계획이라면 시작하기에 엄청난 데이터 세트입니다. 원하는 주제에 대해 원하는 만큼의 데이터를 얻을 수 있습니다. Google 트렌드는 많은 기계 학습 프로젝트에 참여하지 않은 초보자에게 탁월합니다.

데이터세트에 연결

8. 동역학 데이터 세트

AI를 사용하여 인간 상호 작용을 인식하는 데 관심이 있다면 이것이 적합한 데이터 세트입니다. 인간의 행동과 상호 작용을 분석하는 것은 이미지와 비디오를 연구하는 인공 지능 분야인 컴퓨터 비전의 중요한 부분입니다. 컴퓨터 비전에 능숙해지면 물체 식별, 안면 인식 및 이와 관련된 기타 관련 응용 분야에서 작업하는 데 도움이 됩니다.

이 데이터 세트에는 사람과 사람의 상호 작용(예: 포옹 및 악수)과 사람과 물건의 상호 작용(기타 연주 등)이 포함된 거의 650,000개의 비디오가 있습니다. 각 클래스에 최소 600개의 클립이 있는 700개의 액션 클래스가 있습니다. 모든 클립에는 단일 작업 클래스와 함께 사람의 주석이 있습니다. 이 데이터 세트의 모든 비디오 길이는 약 10초입니다.

데이터세트에 연결

읽기: 기계 학습 프로젝트 아이디어

9. GTSRB 데이터

GTSRB는 German Traffic Sign Recognition Benchmark의 약자로 다중 클래스 분류를 수행하는 훌륭한 프로젝트입니다. 이 데이터 세트에는 정보와 함께 50,000개 이상의 이미지가 있습니다. 또한 데이터 세트에는 40개의 클래스가 있으며 이 데이터 세트의 실제 교통 표지 이벤트는 해당 데이터 세트 내에서 고유합니다.

사용 사례를 고려할 때 기계 학습 프로젝트를 위한 최고의 데이터 세트 중 하나입니다. 이미지 분류를 연구하고 다양한 교통 표지판을 분류하는 프레임워크를 만들 수 있습니다.

교통 표지판의 분류는 자율주행차(자율주행차)의 중요한 부분이 될 수 있으므로 자동차 분야에서 AI를 적용하는 데 관심이 있다면 이 프로젝트를 진행해야 합니다.

ML 프로젝트 작업 경험이 많지 않은 경우 이 데이터 세트의 작은 섹션으로 시작할 수 있습니다.

데이터세트에 연결

10. 보스턴 하우스 데이터셋

Boston Housing Dataset은 머신 러닝 프로젝트에서 가장 인기 있는 데이터 세트 중 하나입니다. 패턴 인식 프로젝트에 적합하며 ML 지식을 연습할 수 있는 좋은 방법입니다. 이 데이터세트에는 미국 인구조사국이 보스턴 매사추세츠주 지역의 주택에 대한 정보를 수집했으며 약 500건의 사례가 있습니다. 데이터 세트에는 1인당 범죄율, 한 집의 평균 방 수 등을 포함하여 14개의 변수가 있습니다.

사례가 매우 적기 때문에(정확히 506) 새로운 기계 학습 전문가와 학생에게 적합합니다. 이 데이터 세트를 사용하여 찾은 데이터에 따라 해당 지역의 주택 가격을 예측하는 모델을 만들 수 있습니다.

이 데이터 세트에 있는 주택 가격으로 모델을 학습시킨 다음 특정 지역의 조건에 따라 미래 가격을 예측하는 데 사용할 수 있습니다. 이 데이터 세트를 사용하면 회귀 및 부동산에 대한 많은 유사한 프로젝트 아이디어를 작업할 수 있습니다.

데이터세트에 연결

기계 학습 프로젝트 작업 시간

기계 학습 프로젝트를 위한 광범위한 데이터 세트 목록이 있으므로 이제 하나의 작업을 시작할 수 있습니다. 이 목록이 유용하셨기를 바랍니다.

기계 학습에 대해 자세히 알아보려면 IIIT-B 및 upGrad의 기계 학습 및 AI PG 디플로마를 확인하세요. 이 PG 디플로마는 일하는 전문가를 위해 설계되었으며 450시간 이상의 엄격한 교육, 30개 이상의 사례 연구 및 과제, IIIT- B 동문 자격, 5개 이상의 실용적인 실습 캡스톤 프로젝트 및 최고의 기업과의 취업 지원.

머신 러닝에서 데이터 세트란 무엇입니까?

기계 학습 및 데이터 마이닝에서 데이터 세트는 예제 모음입니다. 기계 학습 또는 통계적 방법의 적용에 사용되는 레이블이 지정된 예제 세트입니다. 예는 단일 관찰 또는 전체 관찰 모음일 수 있습니다. 데이터 세트에서 패턴을 식별하는 것이 항상 더 쉽습니다. 데이터는 예의 모음입니다. 머신 러닝 및 데이터 마이닝의 핵심입니다. 데이터 세트에서 패턴을 찾는 것이 항상 더 쉽습니다.

데이터 세트의 유형은 무엇입니까?

데이터 세트에는 다양한 유형이 있습니다. 시계열 데이터 세트 - 특정 기간의 데이터 세트가 시계열 데이터 세트로 간주됨을 설명합니다. 비. 횡단면 데이터 세트 - 이것은 동일 기간 동안 다르지만 유사한 요소에서 관찰한 컬렉션인 데이터 세트를 설명합니다. 씨. 혼합 데이터 세트 - 시계열과 횡단면 데이터 세트의 조합인 데이터 세트를 설명합니다. 디. 구성 요소 데이터 세트 - 특정 문제를 해결하는 데 사용되는 데이터 세트의 모음을 설명합니다. 이자형. 트랜잭션 데이터 집합 다양한 엔터티 간의 패턴, 연관 및 관계를 찾는 데 사용되는 데이터 집합 모음을 설명합니다. 에프. 그래프 데이터 세트 - 그래프를 그리거나 네트워크의 요소를 매핑하는 데 사용되는 데이터 세트 모음을 설명합니다.

머신 러닝에서 훈련 및 테스트 데이터 세트란 무엇입니까?

훈련 데이터 세트는 모델을 훈련하는 데 사용되는 예제 세트입니다. 이 데이터세트는 입력 데이터 x를 출력 y에 매핑하는 수학 함수 또는 모델 f(x)를 구축하는 데 사용됩니다. 테스트 데이터 세트는 훈련 데이터 세트와 다릅니다. 테스트 데이터 세트는 분류기의 성능을 평가하는 데 사용되는 분류기를 훈련하는 데 사용되지 않는 예제 집합입니다. 분류기는 훈련 예제에서 훈련되기 때문에 테스트 데이터 세트에 대한 분류기의 성능은 완전히 알려져 있지 않습니다.