분류 전체보기

목적 - 한 번에 하나씩의 설명변수(X)를 사용하여 정확한 예측이 가능한 규칙들의 집합 생성 - 최종 결과물은 나무를 뒤집어 놓은 형태인 규칙들의 집합 용어 노드.node : 입력 데이터 공간의 특정 영역 부모 노드.parent node : 분기 전 노드 자식 노드. child node : 부모 노드로부터 분기 후 파생된 노드 분기 기준. split criterion: 한 부모 노드를 두 개 이상의 자식 노드들로 분기하는데 사용되는 변수 및 기준 값 시작/뿌리 노드. root node: 전체 데이터를 포함하는 노드 말단/잎새 노드 leaf node: 더 이상 분기가 수행되지 않는 노드 장점 ( 출처: 위키 백과 ) 결과를 해석하고 이해하기 쉽다. 간략한 설명만으로 결정 트리를 이해하는 것이 가능하다. 자..
'ML Model Evaluation'이 의미하는 바를 알아보자. 데이터 준비와 모델 학습은 누구나 머신러닝 작업 파이프라인에서 핵심적인 단계로 생각하지만, 학습된 모델의 퍼포먼스를 측정하는 것 또한 중요한 단계에 해당된다. 우리 모델은 배우지 않지만, 기억하고 있다. ML모델은 처음 만나는 데이터를 스스로 일반화 하여 받아들일 수 없ㄷ. 이를 시작하기 위해, 3개의 중요한 기준을 세우도록 한다. Learnng: ML 모델 학습은 학습/이용 가능한 데이터에 대한 정확한 예측이 아닌, 미래 데이터에 대한 정확한 예측을 고려하여 진행되어야 한다. Memorization: 제약된 데이터(training data)에 대한 퍼포먼스를 의미한다. 즉, training dataset에 대해서 overfitting하는..
· 진행중
https://docs.google.com/document/d/1SEDcjrFr_kMSEsGQ2CgZ9Uyat0KvASAV_ImfbFMeF0c/edit?usp=sharing 출처: 유튜브 인싸담당자 - 산업 분석 | 면접관이 반하는 산업분석! 따라하기만 하면 취린이 탈출!! [취린이 튜토리얼] 워크시트 기업분석 시트 산업분석 시트 1. 산업군을 정하기 전, 내가 원하는 기업을 먼저 정하자. - 산업군 먼저 정하면 나중에는 중구난방이 될 수 있다. - 따라서 내가 원하는 기업을 먼저 정한 후, 그 기업이 속한 산업군을 조사하는게 깔끔하다. 2. 산업군 분석 전, 조사하기 PEST (정치 / 경제 / 사회 / 기술 ) 적 배경을 분석 - 특히 증권사 사이트에 들어가보면 분석해 놓은게 많다. 3. 기회 / 위..
· 정리
2-2 상관관계 분석 # 피처간 비슷한 변수들이 있는지 확인하기 위해 상관관계 분석을 수행합니다. # 외워라 corr = train.corr() corr ## 참조 # ablation study - 해당 피쳐를 빼 보고 넣어보고 해서 성능비교해서 성능이 많이 떨어지면 -> 효과가 있다는 것을 이용한 것. - heatmap으로 상관관계 시각화 # Q. 상관관계의 의미? [-1, 1 ] " 선형성 " // 상곤관계가 0이라고 해서 버리면 안된다. '선형 상관관계'가 아니기 때문에 # Q2. 상관관계 == 인과관계? ' 아이스크림 판매량 상어에 물린 사람의 수' # heatmap # month, day, weekday는 ordinal feature이다. ## ordinal feature는 1, 2, 3, 4,..
· 정리
의사결정트리란 의사 결정 규칙과 그 결과들을 트리 구조로 도식화한 의사 결정 지원 도구의 일종이다. (출처. 위키백과) 의사결정나무의 목적 - 한 번에 하나씩의 설명변수를 사용해 정확한 예측이 가능한 규칙들의 집합을 생성 - 최종 결과물은 나무를 뒤집어 놓은 형태인 규칙들의 집합 용어 정리 - 노드.node : 입력 데이터 공간의 특정 영역 - 부모 노드.parent node : 분기 전 노드 - 자식 노드. child node : 부모 노드로부터 분기 후 파생된 노드 - 분기 기준. split criterion: 한 부모 노드를 두 개 이상의 자식 노드들로 분기하는데 사용되는 변수 및 기준 값 - 시작/뿌리 노드. root node: 전체 데이터를 포함하는 노드 - 말단/잎새 노드 leaf node: ..
· 정리/SQL
JOIN - 조인시킨다. 즉, 두 테이블을 병합시킨다. 병합시키는 기준에 따라 INNER / LEFT / RIGHT / FULL로 나뉜다. cf) pandas에도 join뿐만 아니라 merge, concat이 있다. SELECT D1.*, D2.first_name AS cust_first_name, D2.last_name AS cust_last_name, D2.store_id FROM sakila.actor D1 INNER JOIN sakila.c-ustomer D2 ON D1.first_name = D2.first_name; -- first_name이 똑같으면 무조건 붙이기 -- FROM TABLE1 [INNER|LEFT|RIGHT|FULL] JOIN TABLE2 ON TABLE1.KEY1 = TABL..
· 정리/SQL
GROUP BY : 말 그대로 ~을 기준으로(BY) 짝지어 주는 것.(GROUP) == ( GROUP BY ) SELECT Continent FROM world.country GROUP BY Continent; -- GROUP BY 절의 변수를 그대로 SELECT 절로 복사 후 실행하면 -- 마치 DISTINCT를 넣은 것처럼 중복값 제거된 표의 틀 생성 ORDER BY : ~을 기준으로(BY) 정렬시켜 주는 것. (ORDER) == ( ORDER BY ) -- ORDER BY 뒤에 기준이 될 변수를 입력 -- 오름차순이 기본값 SELECT * FROM world.country ORDER BY SurfaceArea; -- 내림차순으로 정렬시에는 변수이름 뒤에 DESC를 추가로 입력​ SELECT * FR..
· 정리/SQL
WHERE - select문에서 조건절로 활용한다. e.g. SELECT * FROMworld.city WHEREPopulation >=9000000; world.city에서 population이 9000000이상인 것만 들고 오렴. SELECT COUNT(*) FROMworld.city; -- 전체 관측치 개수 확인 SELECT COUNT(*) FROMworld.city WHEREPopulation >=9000000; -- 조건과 일치하는 관측치 개수 확인 SELECT COUNT(*), SUM(IF(Population >=9000000, 1, 0)) FROMworld.city; # LIKE 키워드를 활용한 패턴 정의 -- 문자의 패턴을 활용한 조건 -- 상품코드, 지역코드 -> 규칙이 있어서 규칙을 활..
미스따문
'분류 전체보기' 카테고리의 글 목록 (10 Page)