목록분류 전체보기 (231)
코딩 기록들

영화 리뷰 분류-이진 분류 예제 - IMDB데이터셋 : 인터넷영화 데이터베이스로 가져온 양극단의 리뷰 50000개 - 25000개 Training data, 25000개 Test data로 나눠져있음 - Keras 에 기본으로 포함되어있음(MNIST처럼) 데이터와 준비 - 신경망에 숫자리스트를 바로 주입할수 없으므로, 텐서로 변환해야함. - one hot encoding을 사용해 10000 차원의 벡터로 변환해서 사용해야함 영화 리뷰 분류-이진 분류 예제 실습 https://github.com/SeungHyunKee/Python/blob/main/%EC%98%81%ED%99%94_%EB%A6%AC%EB%B7%B0_%EB%B6%84%EB%A5%98_%EC%9D%B4%EC%A7%84_%EB%B6%84%EB%..

대표적인 Deep Learning framework TensorFlow - 구글, 핵심코드 : C++ - 직관적인 고수준API - 뛰어난 이식성 및 확장성(Tensorflow-lite, Tensorflow Extended) - 진입장벽 다소 높음 -- tpu : 텐서플로우를 가속화시키기 위함 Keras - 직관적이고 쉬운 API - TenserFlow를 Backend로 활용 - 동일한코드로 CPU, GPU 에서 실행가능 Pytorch - 페이스북이 만듦 - C/CUDA(NVidia 의 GPU) Backend로 사용 - 진입장벽이 낮음. 파이썬 문법과 유사 - GPU 가속연산 신경망 - 인공지능분야에서 쓰이는 알고리즘 - 입력과 가중치를 곱한 선형구조 - '인간의 뇌구조 모방했다' -> 뉴런과 뉴런사이에는..
지도학습 - 훈련데이터(training data)로부터 하나의 함수를 유추해내기 위한 기계학습의 한 방법 - 훈련데이터는 일반적으로 입력 객체에 대한 속성을 '벡터 형태'로 포함하고있으며, 각각의 벡터에대해 원하는 결과가 무엇인지 표시되어있음 - 이렇게 유추된 함수중 연속적인 값을 출력하는것 : 회귀분석(regression) / 주어진 입력벡터가 어떤 종류의 값인지 표시하는것 : 분류(classification) 1. Regression [ Linear regression ] - 종속변수와 한개이상의 독립변수와의 선형상관관계를 모델링하는 회귀분석기법 [ Machine Learning Algorithm Based Regression ] - sickit-learn에서는 머신러닝알고리즘기반의 회귀모델들 제공됨..

K-최근접 이웃 머신러닝에서 사용되는 지도학습의 한 종류 + 분류 알고리즘 거리기반으로 분류하는 '클러스트링'과 유사한 개념이지만, 기존관측치의 y(class)값이 존재한다는점에서 차이가 있음 유사한 특성을가진 데이터는 유사한 범주에 속하는 경향이 있다는 가정하에 사용함 데이터로부터 거리가 가까운 'k'개의 다른 데이터의 레이블을 참조하여 분류하는 알고리즘 노이즈가 없을땐, k=1 이 가장 이상적임 - 테스트 데이터인 빨간 별 에서부터 가장 가까운 학습데이터들의 클래스를 살펴본 후, 그중 더 많은 수가 속해있는 클래스가 테스트데이터의 클래스로 결정이 된다. - 이 그래프의 경우, k=3일때, 테스트데이터는 Class B로 분류되고, k=3일때, Class A로 분류된다. - 이때, k의 개수는 홀수로 하..

붓꽃 예제 실습 - 주제 : 붓꽃 품종 예측 머신러닝 모델 생성 - 상황 : 한 아마추어 식물학자가 들에서 발견한 붓꽃의 품종을 알고싶어함. 이 식물학자는 붓꽃의 꽃잎(petal)과 꽃받침(sepal)의 혹과 길이를 cm단위로 측정함. -> 전문 식물학자가 setosa, versicolor, virginica 3종으로 분류한 붓꽃 측정 데이터를 보유하고있음. 이 측정값을 이용해 채집한 붓꽃의 품종을 구분하고자 함. - 알고리즘 : 지도학습 - 분류classification - 클래스 : 출력될수있는 값 ( = 3개 붓꽃의 종류 ) - 레이블 : 특정 데이터 포인트에대한 출력( = 품종 )

'사이킷런' 이라는 파이썬 라이브러리에대해 처음 배웠던 날의 기록이다. 사이킷런은 내부에 머신러닝을 실습할수 있는 데이터들을 포함하고있는 라이브러리이다. 사이킷런에서는 지도학습, 비지도학습을 모두 사용할수 있으며, 빠르게 모델을 구성할 수 있다. 머신러닝 구현시, 적합한 알고리즘을 선택하는것이 고민될 때가 많을텐데, 이런 상황에서는 아래 'scikit-learn algorithm cheat-sheet를 이용하면 도움을 받을수있을것이다. scikit-learn algorithm cheat-sheet - 사용방법 : 상단 주황색 start 노드에서 시작해서 분석조건에 맞춰 yes/no 따라가면 됨 scikit-learn 라이브러리 머신러닝 알고리즘을 구현한 오픈소스 라이브러리중 가장 유명함 문서화가 잘 되어..

데이터 분석을 위한 3가지 필수 패키지 : Numpy, Pandas, Matplotlib 1. Pandas - 파이썬 데이터 (전)처리(분석)분야에서 일반적으로 가장 많이 사용되는 패키지 - - 'pd' 라는 명칭으로 import하는것이 관례 - CSV, 텍스트, Excel, SQL, HTML, JSON 등 다양한 데이터 파일을 읽고 데이터 프레임을 생성할 수 있음 - Pandas에 적합한 분석패키지 - - SQL테이블 또는 Excel스프레드시트와 같이 이질적으로 유형이 지정된 '열'이 있는 테이블형식 데이터 - 정렬되어있거나 정렬되지않은, 시계열데이터 - 행 및 열 레이블 포함된 임의의 행렬데이터- 통계데이터 세트나 구조화된 데이터세트 - 3가지 데이터구조 사..