이번에 kaggle의 google brain - ventilator Pressure prediction 을 진행하면서, 딥러닝의 전체 순서가 너무 헷갈렸다. 머신러닝 할 때와 순서가 거의 비슷하긴 하지만, 나는 한 눈에 보이는 걸 좋아하기 때문에, 개념 정리할 겸, 딥러닝의 주요 스텝을 정리해보고자 한다. 순서를 정리해보면 1. Load data 2. pre process data - 데이터 전처리 3. define architecture - 대충 읽어보니, 예를 들어 CNN으로 할건지, RNN, LSTM으로 할건지 고르는듯 4. compiling model - loss, optimizer, metrics 등을 정의 5. fit the model - model 학습 및 validation predict ..
반응형
정리

https://jonsyou.tistory.com/23 [Python] K-Fold 로 데이터 분할하기 데이콘이나 캐글 같은 경진대회에서 어떤 예측값을 제출하느냐에 따라 순위가 몇 단계나 출렁이곤 한다. 그렇기 때문에 어떤 데이터에 대해서도 견고한 예측값을 제공하는 모델을 선택하는 것 jonsyou.tistory.com Group K-Fold Group K-Fold는 동일한 그룹이 훈련 및 검증 데이터 셋에 동시에 포함되지 않도록 하는 방법. a visualization of the group K-fold cross-validation behavior from sklearn.model_selection import GroupKFold X = [0.1, 0.2, 2.2, 2.4, 2.3, 4.55, 5.8..
원본 노트 딥러닝의 구성요소 Train Test 딥러닝 - McClulloch 교수 and Pitts 교수 퍼셉트론 구조 - Rosenblatt ADALINE - Adaptive Linear element ㄴ 직선에서 얼마나 멀리 떨어져 있느냐에 따라 뭐가 달라짐 XOR 문제? ㄴ 다층 퍼셉트론으로 해결 오류 역전파 알고리즘 ( Backropagation Algorithm; BP) - MLP 와 BP 알고리즘으로 해결한 MNIST 문제 기울기 소실 문제 ( 두 번째 AI winter)… - 계층이 깊어질 수록 학습이 어려움 심층 믿음 신경망의 등장(Deep Belief Network. By Hinton) ImageNet Large Scale Visual Recognition Challenges 딥러닝 프..

참고 자료: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DatetimeIndex.html dtype이 datetime인 것을 index로 사용하면, 날짜와 관련된 많은 기능들을 사용할 수 있다. 그 예로, 여기서 df['date'] = df.index.date 이걸 하면 date만 딱 잘라서 나온다.

목적 - 한 번에 하나씩의 설명변수(X)를 사용하여 정확한 예측이 가능한 규칙들의 집합 생성 - 최종 결과물은 나무를 뒤집어 놓은 형태인 규칙들의 집합 용어 노드.node : 입력 데이터 공간의 특정 영역 부모 노드.parent node : 분기 전 노드 자식 노드. child node : 부모 노드로부터 분기 후 파생된 노드 분기 기준. split criterion: 한 부모 노드를 두 개 이상의 자식 노드들로 분기하는데 사용되는 변수 및 기준 값 시작/뿌리 노드. root node: 전체 데이터를 포함하는 노드 말단/잎새 노드 leaf node: 더 이상 분기가 수행되지 않는 노드 장점 ( 출처: 위키 백과 ) 결과를 해석하고 이해하기 쉽다. 간략한 설명만으로 결정 트리를 이해하는 것이 가능하다. 자..

'ML Model Evaluation'이 의미하는 바를 알아보자. 데이터 준비와 모델 학습은 누구나 머신러닝 작업 파이프라인에서 핵심적인 단계로 생각하지만, 학습된 모델의 퍼포먼스를 측정하는 것 또한 중요한 단계에 해당된다. 우리 모델은 배우지 않지만, 기억하고 있다. ML모델은 처음 만나는 데이터를 스스로 일반화 하여 받아들일 수 없ㄷ. 이를 시작하기 위해, 3개의 중요한 기준을 세우도록 한다. Learnng: ML 모델 학습은 학습/이용 가능한 데이터에 대한 정확한 예측이 아닌, 미래 데이터에 대한 정확한 예측을 고려하여 진행되어야 한다. Memorization: 제약된 데이터(training data)에 대한 퍼포먼스를 의미한다. 즉, training dataset에 대해서 overfitting하는..

2-2 상관관계 분석 # 피처간 비슷한 변수들이 있는지 확인하기 위해 상관관계 분석을 수행합니다. # 외워라 corr = train.corr() corr ## 참조 # ablation study - 해당 피쳐를 빼 보고 넣어보고 해서 성능비교해서 성능이 많이 떨어지면 -> 효과가 있다는 것을 이용한 것. - heatmap으로 상관관계 시각화 # Q. 상관관계의 의미? [-1, 1 ] " 선형성 " // 상곤관계가 0이라고 해서 버리면 안된다. '선형 상관관계'가 아니기 때문에 # Q2. 상관관계 == 인과관계? ' 아이스크림 판매량 상어에 물린 사람의 수' # heatmap # month, day, weekday는 ordinal feature이다. ## ordinal feature는 1, 2, 3, 4,..

의사결정트리란 의사 결정 규칙과 그 결과들을 트리 구조로 도식화한 의사 결정 지원 도구의 일종이다. (출처. 위키백과) 의사결정나무의 목적 - 한 번에 하나씩의 설명변수를 사용해 정확한 예측이 가능한 규칙들의 집합을 생성 - 최종 결과물은 나무를 뒤집어 놓은 형태인 규칙들의 집합 용어 정리 - 노드.node : 입력 데이터 공간의 특정 영역 - 부모 노드.parent node : 분기 전 노드 - 자식 노드. child node : 부모 노드로부터 분기 후 파생된 노드 - 분기 기준. split criterion: 한 부모 노드를 두 개 이상의 자식 노드들로 분기하는데 사용되는 변수 및 기준 값 - 시작/뿌리 노드. root node: 전체 데이터를 포함하는 노드 - 말단/잎새 노드 leaf node: ..
반응형