목록AI 기초 (10)
코딩 기록들

비지도학습 - 자율학습, Unsupervised Learning - 기계학습의 일종, 데이터가 어떻게 구성되었는지 알아내는 문제의 범주 - 통계의 밀도추정과 깊은연관 있음 (비지도학습=데이터의 주요특징 요약하고 설명할수있음) - 입력값에대한 목표치(정답)가 주어지지 않음 (-> 클러스터링,, 차원축소및 이를 이용한 데이터시각화, 생성모델등 다양한 task 포괄하는 개념) - 클러스터링 대표 알고리즘 : K-means, DBSCAN 알고리즘, point assignment - 차원축소의 방법들 : PCA(Principal Component Analysus), T-SNE Clustering - 크게 두가지방법으로 나뉨 1) Point assignment clustering - 각각의 점을 원소로 가지는 클러..
지도학습 - 훈련데이터(training data)로부터 하나의 함수를 유추해내기 위한 기계학습의 한 방법 - 훈련데이터는 일반적으로 입력 객체에 대한 속성을 '벡터 형태'로 포함하고있으며, 각각의 벡터에대해 원하는 결과가 무엇인지 표시되어있음 - 이렇게 유추된 함수중 연속적인 값을 출력하는것 : 회귀분석(regression) / 주어진 입력벡터가 어떤 종류의 값인지 표시하는것 : 분류(classification) 1. Regression [ Linear regression ] - 종속변수와 한개이상의 독립변수와의 선형상관관계를 모델링하는 회귀분석기법 [ Machine Learning Algorithm Based Regression ] - sickit-learn에서는 머신러닝알고리즘기반의 회귀모델들 제공됨..

K-최근접 이웃 머신러닝에서 사용되는 지도학습의 한 종류 + 분류 알고리즘 거리기반으로 분류하는 '클러스트링'과 유사한 개념이지만, 기존관측치의 y(class)값이 존재한다는점에서 차이가 있음 유사한 특성을가진 데이터는 유사한 범주에 속하는 경향이 있다는 가정하에 사용함 데이터로부터 거리가 가까운 'k'개의 다른 데이터의 레이블을 참조하여 분류하는 알고리즘 노이즈가 없을땐, k=1 이 가장 이상적임 - 테스트 데이터인 빨간 별 에서부터 가장 가까운 학습데이터들의 클래스를 살펴본 후, 그중 더 많은 수가 속해있는 클래스가 테스트데이터의 클래스로 결정이 된다. - 이 그래프의 경우, k=3일때, 테스트데이터는 Class B로 분류되고, k=3일때, Class A로 분류된다. - 이때, k의 개수는 홀수로 하..

붓꽃 예제 실습 - 주제 : 붓꽃 품종 예측 머신러닝 모델 생성 - 상황 : 한 아마추어 식물학자가 들에서 발견한 붓꽃의 품종을 알고싶어함. 이 식물학자는 붓꽃의 꽃잎(petal)과 꽃받침(sepal)의 혹과 길이를 cm단위로 측정함. -> 전문 식물학자가 setosa, versicolor, virginica 3종으로 분류한 붓꽃 측정 데이터를 보유하고있음. 이 측정값을 이용해 채집한 붓꽃의 품종을 구분하고자 함. - 알고리즘 : 지도학습 - 분류classification - 클래스 : 출력될수있는 값 ( = 3개 붓꽃의 종류 ) - 레이블 : 특정 데이터 포인트에대한 출력( = 품종 )

'사이킷런' 이라는 파이썬 라이브러리에대해 처음 배웠던 날의 기록이다. 사이킷런은 내부에 머신러닝을 실습할수 있는 데이터들을 포함하고있는 라이브러리이다. 사이킷런에서는 지도학습, 비지도학습을 모두 사용할수 있으며, 빠르게 모델을 구성할 수 있다. 머신러닝 구현시, 적합한 알고리즘을 선택하는것이 고민될 때가 많을텐데, 이런 상황에서는 아래 'scikit-learn algorithm cheat-sheet를 이용하면 도움을 받을수있을것이다. scikit-learn algorithm cheat-sheet - 사용방법 : 상단 주황색 start 노드에서 시작해서 분석조건에 맞춰 yes/no 따라가면 됨 scikit-learn 라이브러리 머신러닝 알고리즘을 구현한 오픈소스 라이브러리중 가장 유명함 문서화가 잘 되어..

( 한줄 요약 ) 1. Regression : 어떤 값을 예측할때 사용하는 알고리즘, 평가시에는 MAE, RMSE등의 지표 사용 2. Classification : 어떤 대상을 분류할때 사용하는 알고리즘, 평가시에는 ROC 등을 사용해서 Accuracy 체크 taitanic 데이터 이용 실습 1. Regression - 회기분석 : 관찰된 연속형 변수들에대해 두 변수사이의 모형을 구한뒤 적합도 측정해내는 분석방법 선형회귀분석 : 독립변수 x와 종속변수 y의 상관관계를 선형모델(직선)로 회귀분석하는 것 - 활용분야 : 시간에따라 변화하는 데이터, 가설적실험, 인과관계, 통계적 예측 regression 실습 - 주제 : 보스턴 집값 예측 - 데이터 : 보스턴 집값 데이터(13개의 요소는 506개의 열로 구성..