컴퓨터 비전 알고리즘: 당신이 알고 싶었던 모든 것 [2022]

게시 됨: 2021-01-01

컴퓨터가 인식할 수 있도록 하는 알고리즘 알아보기

소개

컴퓨터 비전이라는 단어는 컴퓨터가 주변을 보고 인식하는 능력을 의미합니다. 물체 감지 및 인식, 자율 주행 자동차, 얼굴 인식, 공 추적, 사진 태그 지정 등 컴퓨터 비전이 다루는 많은 응용 분야가 있습니다. 기술적인 전문 용어를 다루기 전에 먼저 전체 컴퓨터 비전 파이프라인에 대해 논의해 보겠습니다.

전체 파이프라인은 각각 특정 기능이 있는 5개의 기본 단계로 나뉩니다. 첫째, 알고리즘이 이미지 또는 이미지 스트림(이미지 프레임)의 형태로 처리할 수 있도록 입력이 필요합니다. 다음 단계는 전처리입니다. 이 단계에서는 알고리즘이 이미지를 더 잘 이해할 수 있도록 함수가 들어오는 이미지에 적용됩니다.

일부 기능에는 노이즈 감소, 이미지 크기 조정, 팽창 및 침식, 색상 반점 제거 등이 포함됩니다. 다음 단계는 관심 영역 또는 관심 영역을 선택하는 것입니다. 이 아래에는 객체 감지 및 이미지 분할 알고리즘이 있습니다. 또한 최종 목표를 달성하는 데 필요한 이미지에서 관련 정보/특징을 검색하는 것을 의미하는 특징 추출이 있습니다.

마지막 단계는 인식 또는 예측으로, 주어진 이미지 프레임에서 물체를 인식하거나 주어진 이미지 프레임에서 물체의 확률을 예측합니다.

예시

컴퓨터 비전 파이프라인의 실제 응용 프로그램을 살펴보겠습니다. 얼굴 표정 인식은 특정 제품이 사용자에게 어떤 영향을 미치는지 알아보기 위해 많은 연구실에서 사용하는 컴퓨터 비전의 응용 프로그램입니다. 다시 말하지만, 전처리 알고리즘을 적용할 입력 데이터가 있습니다.

다음 단계는 특정 프레임에서 얼굴을 감지하고 프레임의 해당 부분을 자르는 것입니다. 이것이 달성되면 감정 인식의 핵심 기능인 입, 눈, 코 등과 같은 얼굴 랜드마크가 식별됩니다.

결국 예측 모델(trained model)은 중간 단계에서 추출한 특징을 기반으로 이미지를 분류합니다.

알고리즘

컴퓨터 비전의 알고리즘을 언급하기 전에 '주파수'라는 용어를 강조하고 싶습니다. 이미지의 주파수는 강도의 변화율입니다. 고주파 이미지는 강도의 변화가 큽니다. 저주파 영상은 밝기가 비교적 균일하거나 강도가 천천히 변합니다.

푸리에 변환을 이미지에 적용하면 이미지 주파수 정보를 생성하는 크기 스펙트럼을 얻습니다. 주파수 영역 이미지의 중앙에 집중된 점은 이미지에 저주파 성분이 많이 존재한다는 것을 의미합니다. 고주파 성분에는 가장자리, 모서리, 줄무늬 등이 포함됩니다. 우리는 이미지가 x와 yf(x,y)의 함수라는 것을 알고 있습니다. 강도 변화를 측정하기 위해 함수 f(x,y)의 미분을 취하면 됩니다.

냉정한 필터

Sobel 연산자는 에지 감지 알고리즘을 위한 이미지 처리 및 컴퓨터 비전에 사용됩니다. 필터는 가장자리를 강조하는 이미지를 만듭니다. 이미지 강도 함수의 기울기/기울기 근사값을 계산합니다. 이미지의 각 픽셀에서 Sobel 연산자의 출력은 해당 기울기 벡터와 이 벡터의 노름입니다.

소벨 연산자는 수평 및 수직 방향에서 작은 정수 값 필터를 사용하여 이미지를 컨벌루션합니다. 이것은 연산 복잡성 측면에서 연산자를 저렴하게 만듭니다. Sx 필터는 수평 방향의 에지를 감지하고 Sy 필터는 수직 방향의 에지를 감지합니다. 하이패스 필터입니다.

이미지에 Sx 적용하기

이미지에 Sy 적용하기

읽기: 인도의 기계 학습 급여

평균 필터

평균 필터는 이미지의 밝기 또는 어두움을 결정하는 데 사용되는 정규화된 필터입니다. 평균 필터는 픽셀의 각 값을 자신을 포함하여 인접 픽셀의 평균 값으로 대체하여 이미지 픽셀을 가로질러 이동합니다.

평균(또는 평균) 필터링은 인접 픽셀 간의 강도 변화량을 줄여 이미지를 부드럽게 합니다.

평균 필터, 이미지 소스

가우시안 블러 필터

가우시안 블러 필터는 저역 통과 필터이며 다음과 같은 기능을 가지고 있습니다.

이미지를 부드럽게
이미지의 고주파수 부분 차단
가장자리 보존

수학적으로, 이미지에 가우시안 흐림 효과를 적용함으로써 우리는 기본적으로 이미지를 가우스 함수로 컨볼루션하고 있습니다.

위의 공식에서 x 는 원점으로부터 수평거리, y 는 원점으로부터 수직거리, σ 는 가우스분포의 표준편차이다. 2차원에서 공식은 프로파일이 원점에서 가우스 분포를 갖는 동심원인 표면을 나타냅니다.

가우시안 블러 필터, 이미지 소스

여기서 주목해야 할 한 가지는 올바른 커널 크기를 선택하는 것이 중요하다는 것입니다. 커널 차원이 너무 크면 이미지에 있는 작은 특징이 사라지고 이미지가 흐릿하게 보일 수 있으므로 중요합니다. 너무 작으면 이미지의 노이즈가 제거되지 않습니다.

더 읽어보기: 알아야 할 AI 알고리즘 유형

캐니 에지 감지기

4개의 필터 를 사용하여 흐릿한 이미지에서 수평, 수직 및 대각선 가장자리를 감지 하는 알고리즘입니다 . 알고리즘은 다음 기능을 수행합니다.

널리 사용되는 정확한 에지 감지 알고리즘입니다.
가우시안 블러를 사용하여 노이즈 필터링
Sobel 필터를 사용하여 가장자리의 강도와 방향 찾기
최대가 아닌 억제를 적용하여 가장 강한 가장자리를 분리하고 하나의 픽셀 라인으로 가늘게 합니다.
히스테리시스(이중 임계값 방법)를 사용하여 최상의 가장자리를 분리합니다.

증기 기관 사진의 Canny Edge 감지기, Wikipedia 이미지

하르 캐스케이드

이것은 이진 분류 문제를 해결하기 위해 캐스케이드 함수가 훈련되는 기계 학습 기반 접근 방식입니다. 이 기능은 많은 양의 이미지와 부정적인 이미지에서 훈련되며 다른 이미지에서 물체를 감지하는 데 추가로 사용됩니다. 다음을 감지합니다.

가장자리
윤곽
직사각형 패턴

위의 패턴을 감지하기 위해 다음 기능이 사용됩니다.

컨볼루션 레이어

이 접근 방식에서 신경망은 동일한 범주에 속하는 이미지 그룹의 기능을 학습합니다. 학습은 역전파 기법과 옵티마이저로 경사하강법을 사용하여 뉴런의 가중치를 업데이트함으로써 발생합니다.

실제 출력과 정답 사이의 오류를 줄이는 것을 목표로 하는 반복적인 프로세스입니다. 이 과정에서 얻은 컨볼루션 레이어/블록은 포지티브 이미지와 네거티브 이미지를 구별하는 데 사용되는 피처 레이어 역할을 합니다. 다음은 컨볼루션 레이어의 예입니다.

합성곱 신경망, 이미지 소스

마지막에 SoftMax 기능과 함께 완전히 연결된 레이어는 들어오는 이미지를 학습된 범주 중 하나로 분류합니다. 출력 점수는 0에서 1 사이의 확률적 점수입니다.

반드시 읽어야 함: ML의 분류 알고리즘 유형

결론

Computer Vision에서 사용되는 가장 일반적인 알고리즘의 개요는 일반 파이프라인과 함께 이 블로그에서 다룹니다. 이러한 알고리즘은 SIFT, SURF, ORB 등과 같은 보다 복잡한 알고리즘의 기초를 형성합니다.

기계 학습에 대해 자세히 알아보려면 IIIT-B 및 upGrad의 기계 학습 및 AI PG 디플로마를 확인하세요. 이 PG 디플로마는 일하는 전문가를 위해 설계되었으며 450시간 이상의 엄격한 교육, 30개 이상의 사례 연구 및 과제, IIIT- B 동문 자격, 5개 이상의 실용적인 실습 캡스톤 프로젝트 및 최고의 기업과의 취업 지원.

이미지 처리와 컴퓨터 비전의 차이점은 무엇입니까?

이미지 처리는 이미지의 원시 형태를 향상시켜 더 나은 버전을 생성합니다. 기본 이미지의 일부 기능을 추출하는 데에도 사용됩니다. 따라서 이미지 처리는 Computer Vision 분야 자체에서 별개의 섹션입니다. 그러나 Computer Vision은 정확한 분류를 위해 자극 물체를 인식하는 데 중점을 둡니다. 둘 다 절차에서 유사한 기술을 사용합니다. 따라서 이미지 처리는 Computer Vision의 기본 프로세스가 될 수 있습니다. 그것은 인공 지능에서 두드러진 분야로 남아 있습니다. 이미지 처리는 이미지 향상에 중점을 둡니다. Computer Vision 기술은 더 나은 시스템을 만들기 위해 상세하고 정확한 분석에 중점을 둡니다.

컴퓨터 비전 알고리즘을 구축하는 데 딥 러닝이 사용되는 이유는 무엇입니까?

Computer Vision은 엄격한 데이터 기반 연구와 일관된 시각적 데이터 분석으로 인해 인공 지능(AI)을 더욱 강력하게 만들었습니다. 딥 러닝은 신경망을 통해 데이터를 연속적으로 입력하는 프로세스입니다. 정보는 효율적인 학습, 처리 및 출력을 위한 알고리즘을 완성하기 위해 인간의 두뇌 프로세스에서 파생됩니다. 딥 러닝은 정확한 데이터 분류를 강화하고 안정적인 AI 모델을 보장합니다. Computer Vision은 이 방법을 사용하여 AI를 인간 두뇌의 신경망에 정렬합니다. 딥 러닝은 신뢰할 수 있는 시스템이 인간을 지원하고 삶의 질을 향상시킬 수 있도록 했습니다.

로우 패스 필터와 하이 패스 필터는 무엇입니까?

Computer Vision 알고리즘에서 여러 필터는 원시 이미지에서 원하는 결과를 생성합니다. 이 필터는 원하는 대로 모양을 매끄럽게 하고 선명하게 하고 강조하는 다양한 기능을 수행합니다. 필터는 주파수가 다르며 다른 효과를 제안합니다. 예를 들어, The Gaussian Blur 필터는 기본적으로 이미지의 고주파수 부분을 변경하고 가장자리를 보존하여 이미지를 매끄럽게 하는 데 사용됩니다. 고주파수 위치를 감소시키고 저주파 위치를 유지하여 보다 부드러운 시각적 효과를 주기 때문에 저역 통과 필터라고 합니다. 하이 패스 필터에서 저주파 위치는 감소하고 전자는 보존되어 시각적으로 더 선명합니다.