Mahout의 거리 측정: 상위 3가지 측정 유형 [2022]
게시 됨: 2021-01-07Mahout은 데이터 과학자들이 분산되거나 확장 가능한 기계 학습 알고리즘을 만드는 데 사용하는 Apache Software Foundation의 오픈 소스 프로젝트입니다. Mahout은 주로 선형 대수학에 중점을 두고 있으며 해당 알고리즘은 Hadoop 인프라 위에 작성됩니다. 이 프레임워크에 의해 구현된 인기 있는 데이터 마이닝 기술에는 권장 사항, 분류 및 클러스터링이 있습니다. Mahout의 거리 측정은 클러스터링 문제를 학습하는 데 필수적인 주제입니다.
Mahout은 코더에게 바로 사용할 수 있는 구조를 제공하고 대량 데이터를 빠르고 효과적으로 관리할 수 있으므로 Apache의 주요 프로젝트 중 하나가 되었습니다. 그리고 Twitter, Facebook, LinkedIn, Adobe, Yahoo 등과 같은 다양한 회사에서 내부 데이터 마이닝 작업에 사용합니다.
더 알아보기: 12가지 가장 유용한 데이터 마이닝 애플리케이션
목차
거리 측정은 무엇입니까?
이름에서 알 수 있듯이 데이터 포인트 간의 거리를 측정한 것입니다. Mahout의 거리 측정은 두 개의 임의 벡터가 얼마나 가까운지 계산하고 점 사이의 유사성을 나타냅니다. 이제 몇 가지 예를 살펴보겠습니다.
- 전화 회사를 운영하고 있고 특정 지역에 타워 네트워크를 설정하려고 한다고 가정합니다. 최적의 신호 강도를 보장하려면 타워를 세울 위치를 결정해야 합니다.
- 지역 행정부는 일련의 공공 응급 치료 병동을 개설하기를 원합니다. 지역 전체에 걸쳐 이러한 장치의 위치는 사고가 발생하기 쉬운 지역 근처에 있어야 합니다.
- 범죄율이 높은 지역에서 효과적인 법 집행과 엄격한 감시를 위해 순찰차가 배치되어야 하는 주변을 평가할 수 있습니다.
이 모든 시나리오에서 거리 측정이 클러스터링 알고리즘의 핵심에 있음을 알 수 있습니다. 비지도 학습 문제에서 이 계산은 의사 결정에 가장 중요한 요소 중 하나를 형성합니다. 거리 측정 기술에 대한 선택은 결과에 큰 영향을 미칩니다.
또한 Mahout 라이브러리에서 사용 가능한 기술을 사용할 필요가 없습니다. 또한 사용자 지정 방법을 적용하여 특정 데이터 또는 알고리즘의 컨텍스트를 기반으로 하는 거리 측정항목을 찾을 수 있습니다. 벡터 포인트에 대한 수학적 논리를 구현하고 해당 구현이 특정 중심 내에 속하는지 여부를 결정하기 위해 값을 할당하기만 하면 됩니다. 클러스터의 중심을 중심이라고 합니다.
자세히 알아보기: 인도에서 데이터 과학자를 고용하는 최고의 기업
클러스터링 기본 사항 닦기
다양한 범주를 살펴보기 전에 먼저 클러스터링에 대한 기본 사항을 새로 고쳐 보겠습니다. 클러스터는 기본적으로 데이터 인스턴스의 유사성 또는 비유사성 그룹입니다. 다음은 실제 응용 프로그램입니다.
- 마케터는 클러스터링을 사용하여 고객을 세분화하고 타겟 마케팅 전략을 실행할 수 있습니다.
- 의류 제조업체는 "소", "중간" 및 "대"와 같이 유사한 티셔츠 크기에 따라 사람들을 그룹화할 수 있습니다. 획일적인 접근 방식이 매번 효과가 있는 것은 아닙니다. 그리고 각 사람을 위한 맞춤형 티셔츠는 비쌀 수 있습니다.
- 도서관 관리 시스템에서 클러스터링은 콘텐츠 유사성에 따라 책과 문서를 구성하는 데 사용됩니다.
- 지구 관측 데이터베이스에서 클러스터링은 토지 사용이 유사한 지역을 식별하는 데 도움이 될 수 있습니다.
- 생물학에서 클러스터링은 유사한 기능을 가진 유전자를 분류하고 서로 다른 동식물 개체군에 고유한 구조를 이해하는 데 사용할 수 있습니다.
또한 디지털 시대에는 매일 방대한 양의 데이터가 생성되고 사용됩니다. 따라서 클러스터링은 제공하는 편리함 때문에 가장 널리 사용되는 데이터 마이닝 기술 중 하나입니다.
클러스터링의 품질은 클러스터링 알고리즘과 거리 함수라는 두 가지 기본 측면에 의해 결정됩니다.
- 클러스터링 알고리즘(분할, 계층 등)
- 거리 함수(유사성 또는 비유사성)
이제 기본 개념을 수정했으므로 Apache Mahout에서 사용할 수 있는 다양한 유형의 거리 측정으로 넘어갈 수 있습니다.
읽기: 데이터 마이닝의 클러스터 분석
Mahout의 거리 측정
코사인 거리 측정
이러한 유형의 거리 측정은 텍스트 유사성을 찾는 데 가장 적합합니다. 텍스트 문서 모음이 주어지면 가중치가 가장 높은 공통 단어를 사용하여 그룹화하여 주제 계층을 생성할 수 있습니다.

코사인 거리 측정은 TF-IDF 알고리즘을 사용하여 속성을 벡터로 변환합니다. 그리고 벡터 가중치는 불용어보다 주제어에 대해 더 높습니다. 따라서 유사한 문서 사이에는 공통 주제 단어가 있습니다. 결과적으로 중심 벡터(또는 클러스터 중심)는 주제 단어에 대해 더 높은 평균 가중치를 갖습니다.
가장 인기 있는 응용 프로그램 중 하나는 Google 페이지에서 만나는 페이지 순위 또는 검색 요약입니다. 알고리즘은 먼저 클러스터를 형성한 다음 중심을 찾습니다. 이 절차는 Siri 및 Alexa와 같은 AI 애플리케이션의 정보 검색에도 유용합니다.
클러스터 간 거리 측정
두 개의 개별 클러스터에 속한 객체 사이의 거리입니다. 클러스터 간 거리 측정은 클러스터의 품질을 평가하는 데 적합합니다. 중심이 서로 너무 가까우면 유사한 기능을 가진 그룹을 만드는 프로세스가 방해를 받습니다. 따라서 클러스터 구성원 간에 명확한 구분을 하는 것이 중요합니다. 전반적인 목표는 데이터 포인트를 특정 클러스터로 분할하거나 분할하는 것입니다.
더 읽어보기: R의 클러스터 분석
클러스터 내 거리 측정
이 측정은 동일한 클러스터의 두 구성원 사이의 거리를 제공합니다. 따라서 클러스터 간 거리 측정의 반대입니다. 클러스터 내 거리는 클러스터 간 거리에 비해 더 작습니다. 유사한 물체 사이의 작은 거리 측정은 클러스터가 촘촘하고 확실하게 서로 구별된다는 것을 나타냅니다.
이 유형의 거리 측정법은 두 가지 사항에 따라 달라집니다. i) 멀리 있는 물체에 대한 패널티 ii) 가까운 물체에 대한 더 작은 값. 그리고 더 분리된 클러스터는 이 두 값의 비율이 높습니다.
이제 클러스터 분석에서 유사성 거리 측정의 다음 데모를 살펴보겠습니다.
택배 서비스는 최소한의 거리가 있는 위치를 그룹화하여 다양한 '배송 구역'을 만들 수 있습니다. 이러한 방식으로 알고리즘은 직원이 빠르고 효과적인 전달을 용이하게 합니다. 우리의 임무는 클러스터의 중심점 사이의 거리를 최적화하고 클러스터 내 분산을 최소화하며 가장 유사한 특성을 가진 데이터 세트가 함께 클러스터링되도록 하는 것입니다.
세계 최고의 대학에서 데이터 과학 과정 을 배우십시오 . 이그 제 큐 티브 PG 프로그램, 고급 인증 프로그램 또는 석사 프로그램을 획득하여 경력을 빠르게 추적하십시오.
마무리
이것으로 우리는 Mahout에서 거리 측정 의 개념을 설명했습니다 . 이제 이 중요한 빅 데이터 도구의 요지를 얻었으므로 모든 면접에서 쉽게 설명할 수 있습니다. 또한 다양한 거리 측정에 대한 명확한 이해는 클러스터링 알고리즘을 구현하는 동안 정확도를 달성하는 데 도움이 됩니다.
데이터 과학에 대해 자세히 알아보려면 IIIT-B & upGrad의 데이터 과학 PG 디플로마를 확인하세요. 이 PG 디플로마는 실무 전문가를 위해 만들어졌으며 10개 이상의 사례 연구 및 프로젝트, 실용적인 실습 워크숍, 업계 전문가와의 멘토링, 1- 업계 멘토와 일대일, 400시간 이상의 학습 및 최고의 기업과의 취업 지원.
클러스터 분석이란 무엇이며 그 특징은 무엇입니까?
레이블을 지정하지 않고 객체를 정의하는 프로세스를 클러스터 분석이라고 합니다. 판별 분석에서와 같이 데이터 마이닝을 사용하여 다양한 유사한 개체를 단일 클러스터로 그룹화합니다. 응용 분야에는 패턴 인식, 정보 분석, 이미지 분석, 머신 러닝, 컴퓨터 그래픽 및 기타 다양한 분야가 포함됩니다.
클러스터 분석은 여러 면에서 서로 다른 여러 알고리즘을 사용하여 클러스터를 생성하는 작업입니다.
다음은 클러스터 분석의 특징 중 일부입니다. 클러스터 분석은 확장성이 뛰어납니다. 다른 속성 집합을 처리할 수 있습니다. 그것은 높은 차원, 해석 가능성을 보여줍니다.
오픈 소스 프로젝트에 기여하는 것이 가치가 있습니까?
오픈 소스 프로젝트는 소스 코드가 모두에게 공개되어 누구나 액세스하여 수정할 수 있는 프로젝트입니다. 오픈 소스 프로젝트에 기여하는 것은 기술을 연마할 뿐만 아니라 이력서에 넣을 몇 가지 큰 프로젝트를 제공하기 때문에 매우 유익합니다.
많은 대기업이 오픈 소스 소프트웨어로 전환하고 있으므로 일찍 기여하기 시작하면 수익성이 있을 것입니다. Microsoft, Google, IBM, Cisco와 같은 유명 기업 중 일부는 어떤 방식으로든 오픈 소스를 수용했습니다.
소프트웨어를 개선하고 업데이트하는 데 지속적으로 기여하는 능숙한 오픈 소스 개발자 커뮤니티가 있습니다. 이 커뮤니티는 초보자에게 매우 친숙하며 항상 새로운 기여자를 환영하고 환영할 준비가 되어 있습니다. 오픈 소스에 기여하는 방법을 안내할 수 있는 문서도 많이 있습니다.
일변량 방법과 다변량 방법을 구별합니다.
일변량 방법은 이상값을 처리하는 가장 간단한 방법입니다. 단일 변량이고 주요 목적은 데이터를 분석하고 관련 패턴을 결정하는 것이기 때문에 어떤 관계도 개관하지 않습니다. 평균, 중앙값 및 최빈값은 일변량 데이터에서 발견되는 패턴의 예입니다.
반면에 다변량 방법은 3개 이상의 변수를 분석하는 방법입니다. 일변량 방법과 달리 다변수 방법은 관계와 패턴을 다루기 때문에 이전 방법보다 정확합니다. 가법 트리, 정규 상관 분석 및 군집 분석은 다변수 분석을 수행하는 몇 가지 방법입니다.