'ML Model Evaluation'이 의미하는 바를 알아보자. 데이터 준비와 모델 학습은 누구나 머신러닝 작업 파이프라인에서 핵심적인 단계로 생각하지만, 학습된 모델의 퍼포먼스를 측정하는 것 또한 중요한 단계에 해당된다. 우리 모델은 배우지 않지만, 기억하고 있다. ML모델은 처음 만나는 데이터를 스스로 일반화 하여 받아들일 수 없ㄷ. 이를 시작하기 위해, 3개의 중요한 기준을 세우도록 한다. Learnng: ML 모델 학습은 학습/이용 가능한 데이터에 대한 정확한 예측이 아닌, 미래 데이터에 대한 정확한 예측을 고려하여 진행되어야 한다. Memorization: 제약된 데이터(training data)에 대한 퍼포먼스를 의미한다. 즉, training dataset에 대해서 overfitting하는..
머신러닝
2-2 상관관계 분석 # 피처간 비슷한 변수들이 있는지 확인하기 위해 상관관계 분석을 수행합니다. # 외워라 corr = train.corr() corr ## 참조 # ablation study - 해당 피쳐를 빼 보고 넣어보고 해서 성능비교해서 성능이 많이 떨어지면 -> 효과가 있다는 것을 이용한 것. - heatmap으로 상관관계 시각화 # Q. 상관관계의 의미? [-1, 1 ] " 선형성 " // 상곤관계가 0이라고 해서 버리면 안된다. '선형 상관관계'가 아니기 때문에 # Q2. 상관관계 == 인과관계? ' 아이스크림 판매량 상어에 물린 사람의 수' # heatmap # month, day, weekday는 ordinal feature이다. ## ordinal feature는 1, 2, 3, 4,..
의사결정트리란 의사 결정 규칙과 그 결과들을 트리 구조로 도식화한 의사 결정 지원 도구의 일종이다. (출처. 위키백과) 의사결정나무의 목적 - 한 번에 하나씩의 설명변수를 사용해 정확한 예측이 가능한 규칙들의 집합을 생성 - 최종 결과물은 나무를 뒤집어 놓은 형태인 규칙들의 집합 용어 정리 - 노드.node : 입력 데이터 공간의 특정 영역 - 부모 노드.parent node : 분기 전 노드 - 자식 노드. child node : 부모 노드로부터 분기 후 파생된 노드 - 분기 기준. split criterion: 한 부모 노드를 두 개 이상의 자식 노드들로 분기하는데 사용되는 변수 및 기준 값 - 시작/뿌리 노드. root node: 전체 데이터를 포함하는 노드 - 말단/잎새 노드 leaf node: ..