[ AI기초 ] 04. 알고리즘 (Orange Data Mining 실습 )
( 한줄 요약 )
1. Regression : 어떤 값을 예측할때 사용하는 알고리즘, 평가시에는 MAE, RMSE등의 지표 사용
2. Classification : 어떤 대상을 분류할때 사용하는 알고리즘, 평가시에는 ROC 등을 사용해서 Accuracy 체크
taitanic 데이터 이용 실습
1. Regression
- 회기분석 : 관찰된 연속형 변수들에대해 두 변수사이의 모형을 구한뒤 적합도 측정해내는 분석방법
선형회귀분석 : 독립변수 x와 종속변수 y의 상관관계를 선형모델(직선)로 회귀분석하는 것
- 활용분야 : 시간에따라 변화하는 데이터, 가설적실험, 인과관계, 통계적 예측
regression 실습
- 주제 : 보스턴 집값 예측
- 데이터 : 보스턴 집값 데이터(13개의 요소는 506개의 열로 구성되어있음)
- 주요 data
crim | 자치시별 1인당 범죄율 |
zn | 25000평방 피트를 초과하는 거주지역의 비율 |
chas | 찰스강 경계에 위치한 경우는 1, 아니면0 |
nox | 10ppm당 농축 일산화질소 |
medv | 본인소유의 주택가격 중앙값(단위$1000) |
Linear Regression = 예측
error = 오차
KNN = 실제
MAE, 절대평균오차 (회석분석 Regression)
: 절대적으로 얼마나 떨어져있나를 봄 :
MSE : (예측값과 실제값의 차이의 제곱 ) 의 평균 -> 작은데이터들의 평균을 읽을수있게됨
RMSE : MSE만 썼을경우에 많이 떨어지는 값들을 위함(값이 튀지 않게끔 하는것)
MAE : Mean Absolute Error
R2 (결정계수) : 예상값/실제값 -> 값이 1 = 예측값과 실제값이 같은것임
2. Classification
- 분류분석 classification은 관찰된 연속형 변수들에대해 두 변수 사이의 모형을 구한뒤, 적합도를 측정해내는 분석방법
- 활용분야 : 개와 고양이, 합격불합격등의 이진분류 / 숫자의인식 / 여러분류중 하나를 선택하는 다중분류기법
- Regression : 값을 예측 vs Classification : 분류를 예측함
Classification 실습
- 주제 : 붓꽃 품종 예측
- Data : 3개품종분꽃(Iris setosa, virginica, versicolor) / 4개변수측정 : 꽃받침조각(petal)길이, 넓이-꽃잎(sepal)길이, 넓이
각종 평가 지표
- Precise (정밀도) : 모델이 True 라고 분류한것중 실제 True 의 비율
- Recall(재현율) : 실제 True인것중 모델이 True라고 예측한것의 비율
- Accuracy (CA,정확도) : 전체중 실제 True를 True라고, 실제 False 를 False라고 예측한것의 비율
- 오른쪽 표를 더 쉽게 보는법 : 정답은 T로 시작, 오답은 F로 시작
- F1 score : Precise와 Recall의 조화평균
- ROC curve : 여러 임계치들을 기준으로 Recall-Fallout의 변화를
시각화한것
- AUC : ROC그래프 아래의 면적