목록이미지다루기및 데이터셋 구축 (7)
코딩 기록들

data -> 전처리 -> dataset() : 정의하는 과정 -> load 해와야됨 pytorch에서 배치학습에 요긴하게 사용되는 클래스 : dataloader 딥러닝학습시 데이터를 모델에 입력해 출력&목표값 비교하는 방식으로 순방향 전달(아래 사)이 일어난다. 모델에 데이터를 넣을때 작은 데이터셋이 아닌이상 학습할 데이터셋을 쪼개서, 미니배치 단위로 모델에 입력하게된다. 이 과정을 dataloader가 도와주는것. dataloader 간단하게 사용하기 1. 사용할 모듈 불러오기 : from torch.utils.data import Dataset, DataLoader 2. 한 dataloader 인스턴스 생성하기위해 생성자에 어떤 파라미터들이 필요한지 보기 : DataLoader(dataset, ba..

data를 가져오기위해 정의하는것 = dataset init = 데이터의 path경로 정의 getitem : 이미지 하나하나 뽑아내서 어떻게 처리할지 정의 - 'transforms' 불러옴, 마지막엔 toTensor()처리해줘야됨(augmentation 끝나고 마지막엔 텐서처리해줘야됨) customdata의 뼈대 __init__()함수 : csv or 이미지 읽기, 변환할당, 데이터 필터링등 초기논리발생하는곳 (=초기화 해주는 곳이다.) __getitem__() : 데이터와 레이블을 반환, dataloader에서 호출됨, 단일데이터포인트(**텐서**, 넘파이 배열)에 대한 특정유형을 반환 ==> augmentation을 먹인 후 마지막에는 텐서형태를 띄어야 한다.(ToTensor() 해주기) __len(..

딥러닝 -hidden layer 와 활성화함수는 짝꿍 - loss로는 cross-entropy? 사용 손실함수 loss function - 모델을 통해 나온 예측값과 실제데이터 정답의 차이를 수량화하는 함수 - 훈련하는 동안 최소화될 값으로 이 값을 바탕으로 파라미터(가중치 & 편향)를 업데이트함 * 해결하려는 문제 종류 따라 표준적인 loss function 존재 * 1. 이진분류 - 두개의 클래스 분류 ex.양성음성 판단 - binary cross entropy loss 젤많이 사용, BCELoss 도 사용함 2. 다중 클래스 분류 - 두개이상의 클래스 분류 ex. 사과 바나나 포도 과일 분류 - cross entropy loss 3. 회귀 - 연속형 값을 예측 ex.주가예측 - Mean square..

딥러닝 - 머신러닝보다 더 작은개념 (사람이 개입 안함) - '신경망' 통해 인공지능만드는 머신러닝의 한 종류 - 신경망을 여러층 쌓아서 만든것(깊은신경망 = 딥 러닝) -> 사진) sony 인공지능 로봇 딥러닝과 머신러닝의 포함관계는? :: 인공지능 >> 머신런닝 >> 딥러닝 :: - 인공지능은 인간의 학습능력과 추론능력, 지각능력등을 컴퓨터로 실현한기술. 그 연구분야중 하나가 머신러닝 - 딥러닝은 인공신경망을 이용한 머신러닝의 한 종류 (머신러닝의 하위개념으로 봄) 머신러닝과 딥러닝의 역사 AI History | AMiner (arnetminer.org) 머신러닝& 딥러닝 차이 : "사람의 개입 여부" - 머신러닝 : 데이터를 인간이 먼저 처리한다 ex) 인간이먼저 개와 고양이 사진 보고 특징 추출후..

Data augmentation 이란? - 갖고있는 데이터셋을 여러방법으로 augment하여 실질적인 학습데이터셋의 규모를 키울수있는 방법(수집할수있는 데이터량이 한계적임) - computer vision 작업은 더많은 데이터 사용할수있음(-> data augment는 coputer vision의 성능 향상시키는 기술의 일종) Data augmentation 목적 - 한정적 데이터 증강시켜 퍼포먼스 높이고, 과적합문제 해결 (epoch가 증가할수록 training error와 testing error 줄어든다) 하지만, training 데이터가 충분하지못하거나, imbalance불균형 하다면, -> overfitting 문제 발생할수있다(데이터가 많은쪽에 치우친다) Test Time Augmentatio..

# 넘파이를 쓰는 이유 - 반복문 없이 배열처리할수있다 -> 빨리계산할수있고, 메모리 효율적으로 사용할수있다 = > 파이썬 리스트에비해 빠르고 효율적 # numpy의 저장과 불러오기 # 1. 단일객체 저장및 불러오기 # 2. 복수객체 저장및 불러오기 Numpy에서 많이 사용되는 함수 * Numpy 원소의 정렬 - 기본적으로 오름차순 순서로 정렬됨 print(array) - 내림차순정렬 하고싶은경우 : print(array[::-1]) # 3. 넘파이에서 많이 사용되는 함수 # 4. 넘파이 원소의 정렬 - 각 열, 행을 기준으로 정렬 # 5. 균일한 간격으로 데이터 생성 # 6. 난수의 재연 # 7. 객체배열 복사 # 중복된 원소 제거

다양한 데이터 처리방법 it 회사에서는 '데이터기반 의사결정'이 대세임 + '그로스해킹'도 데이터를 통한지표에 100%가까이 의존함 그로스해킹(groth : 성장 + 'hacking : 프로그래밍에 적용하다) = 데이터를 분석하여 성장을 방해하는 요인을 제거하고, 개선책을 지속적으로 실시해 서비스 성장시켜나가는일 ==> 즉, '성장 촉진 구조'를 제품과 서비스에 적용하는것 데이터 파이프라인 개요 데이터 파이프라인 : 데이터 생성해서 무사히 저장하기까지 일련의 과정 데이터파이프라인이 하는일 데이터 생성 데이터 수집 데이터 가공후 저장(ETL : 데이터파이프라인의 하위개념, 하나의 시스템에서 데이터 추출, 변환해 데이터베이스 or 데이터 웨어하우스에 쌓아둔다) 데이터 시각화(BI) 데이터를 저장하는 과정이 ..