머신러닝

본문 바로가기
사이트 내 전체검색


머신러닝
머신러닝

8. Regression Model과 Classification Model

페이지 정보

작성자 관리자 댓글 1건 조회 2,349회 작성일 20-03-08 20:51

본문

8. Regression Model과 Classification Model

Supervised Learning에는 Regression모델과 Classify모델이 있다.
Classify는 분류이며 직관적인 단어이다.
그러나 Regression은 회귀, 회귀는 무슨 의미일까


회귀란 사전적 의미로 ‘한 바퀴 돌아 제자리로 돌아가다’라는 의미로 회귀 모델에서 말하는 회귀는 어떤 연속형 데이터 Y와 이 Y의 원인이라고 추정이 되는 X 간의 관계를 추정하기 위해 만든 Y= f(x) 와 같은 관계식을 말한다


그러나 실제 데이터는 측정상의 한계나 기타 여러 가지의 원인으로 데이터 자체에 noise가 들어가거나 유실이 발생한다


따라서 실제로는 수학이나 물리학의 수식들처럼 정확한 관계식을 만들 수 없어서 

다음과 같이 확률 변수인 오차 항을 둘 수 있다 -> Y = f(x) + e 



1.PNG



식당에서의 팁과 성별, 음식의 가격에 관한 그래프이다.


초록색 선은 모델이며, 이 선은 예측값을 도출하는 가이드 라인이라고 볼 수 있다.


y = ax + b , x는 음식의 총 값이며 y는 팁, a와 b는 학습으로 도출이 될 수 있는 변수


이처럼 정확한 값의 예측은 어렵지만 흩어져 있는 데이터들을 아우를 수 있는 일반화된 값을 예측하는 것이 모든 모델의 목표점이 된다.


머신러닝으로 예를 들면, 학습 초기에 초록색 선은 무작위로 그어지고, 초록색 선과 데이터들의 위치를 비교하여 그 거리를 측정하게된다. 

 
그 거리의 차이를 학습하여 거리를 점점 좁혀 나가게 된다.


-> 최대한 일반화 하기 위해서, 학습될때 마다 현재까지 학습된 모든 데이터 거리들의 평균을 줄여나가는 것을 목표로 함


이러한 평균 거리를 MSE (Mean Squard Error)라고 하는데, Error가 곧 모델과 데이터 사이의 거리를 의미한다


위의 예제로의 Linear Regression 모델은 예측값인 팁을 도출하기 위해서 하나의 독립적인 변수인 밥 값만을 고려하였지만 독립변수가 여러개 관여되면 더 의미 있는 예측값을 도출할 수도 있다.

 ex)  고객의 서비스 만족도


그렇다면 Linear Classification 모델은 Linear Regression 모델처럼 직선 또는 평면을 그리게 된다. 하지만


- Regression 모델은 평면위의 점들이 예측값이 됨
- Classification 모델의 경우 평면은 범주를 나누기 위한 울타리가 됨


이라는 차이점이 존재한다.
 

2.PNG



위의 그래프가 두 모델간의 차이점을 시각적으로 잘 보여준다


또한 Classification 모델 또한 예측한 울타리의 위치, 범주의 결과 사이의 오차 범위를 학습을 통하여 줄여 나가야 한다.


보통 Cross Entropy 라는 손실 측정 함수가 사용된다.


(Cross Entropy는 범주별 확률값인 예측값과 여러 범주 중 하나의 카테고리만이 참일 것이라는 레이블 값의 오차를 측정한다)

Regression 모델에 쓰이는 위의 예제 그래프를 "팁의 크기"가 회귀 모델로 예측될 수 있는 문제였다


하지만 모든 문제는 정의하기에 따라서 달라질 수 있다.


팁의 크기를 범주화하여 (적거나, 많거나, 보통이거나) Classification 모델의 문제로 바꿔볼 수 있다.

예를 들어서 팁의 크기에 대한 전체 분포도를 그린 후 팁이 밥값에 대비하여 25% 이상이면 '많다', 15~25%이면 '보통',  15%보다 적다면 '적다' 라는 레이블로 데이터를 범주화 할 수 있는 것이다.

결국에 중요한 것은 데이터를 들여다 보고, 정확한 요구사항을 파악한 후 요구사항을 충족시키기 위해 범주화된 데이터가 없다면, 기존 데이터를 기반으로 범주화된 데이터를 새로이 창출해내면 되는 것이다. (이를 Feature 엔지니어링이라 함)

 

댓글목록

관리자님의 댓글

관리자 작성일

MSE (Mean Squard Error) : 평균 제곱 오차


개인정보취급방침 서비스이용약관 모바일 버전으로 보기 상단으로

TEL. 063-469-4551 FAX. 063-469-4560 전북 군산시 대학로 558
군산대학교 컴퓨터정보공학과

Copyright © www.leelab.co.kr. All rights reserved.