분류 전체보기

· 정리
https://urame.tistory.com/entry/%EB%AC%B4%EB%A3%8C-%EA%B0%9C%EB%B0%9C-spark-%EC%84%9C%EB%B2%84-%ED%99%98%EA%B2%BD-%EA%B5%AC%EC%B6%95-%EA%B5%AC%EA%B8%80-colab-%ED%99%9C%EC%9A%A9 초간단 무료 spark 개발 환경 구축 ( 구글 colab + spark 활용 ) 금일은 spark 개발환경을 구축해보겠다. 매번 개인 PC에서 Spark개발 환경을 구성했다. 그때마다 환경 변수 잡는게 너무 귀찮았다. 그리고 꼭 한번에 되지 않는다. ( windows 어려워.. ) 심지어 spark 개 urame.tistory.com
· 정리/SQL
SQL with: - subQuery를 이름 붙여서 정의한 후에 사용- - Query의 전체적인 가독성을 높이고, 재사용할 수 있는 장점이 있어 개발자가 편해짐 - 기본 구조 WITH [ 별명1 ] [ (컬럼1, [, 컬럼2]) ] AS ( sub query ) main query - 다중 선언 WITH [ 별명1 ] [ (컬럼1, [, 컬럼2]) ] AS ( sub query ), [별명2] AS ( sub query2 ) main query # subquery2에서 subquery1을 사용할 수 있다 SELECT V.* FROM (SELECT S.SITE_CODE, S.SITE_NAME, V.VNDR_CODE, V.VNDR_NAME FROM TB_SITE AS S JOIN TB_SITE_VENDOR ..
model training 순서 - 데이터 로딩 - 데이터 행, 열 확인 - 데이터 그룹핑 및 집계 - 차트 - 데이터 분할 - 평균 값 계산 - RMSE, MAE 계산 - 포스터 이미지 표시 CBF 기반 예측 아이템 유사도 기반 평점 예측 예) 영화 평점 예상 문제 가정: 유사한 영화에는 유사한 평점을 부여할 것이다. $$ \hat{r}_{u, i} = \frac{\sum _{j \in I_{u}} sim(i, j)*r_{u, j}}{\sum _{j \in I_{u}} sim(i, j)} $$ r : 사용자 u의 아이템 j에 대한 평점 I : 사용자 u가 평가한 아이템 집합 sim(i, j); 두 아이템 i와 j의 유사도 컨텐츠 기반 유사도 측정 sim(i, j) - 두 아이템 간의 유사도를 어떻게 정..
Prediction vs Discovery Prediction Discovery 설명 사용자의 다음에 행위(클릭/구매/시청 등)할 아이템을 예측하여 추천 사용자가 인지하지 못하는 아이템을 추천 예 ‘매트릭스’를 본 사용자에게 ‘매트릭스2’, ‘매트릭스3’를 추천 ‘매트릭스’를 본 사용자에게 ‘인셉션’, ‘블레이드러너’를 추천 의미 사용자의 navigation step을 단축 Longtail 아이템을 제공하여 사용자의 서비스 exploration을 높임. Beyond Accuracy - Accuracy : 유저의 평점/소비에 맞게 예측 - Diversity : 다양한 유형의 아잍메이 우천되는지 - Serendipity 예상치 못한 아이템이 추천되는지 - Novelty 그동안 경험하지 못한 새로운 아이템이 ..
모델에 대한 성능 평가 단계 이론 데이터 기반 성능 평가 ( TODO ) 심사 위원 평가 과거 이력 데이터 기반 평가의 한계 신규 추천 결과에 대한 사용자의 반응을 알 수 없음 정량적 평가 심사위원 평가 내부 인력, 외부 인력이 추천 결과의 품질을 평가 Quality and Trust of Feedback' A/B Test ( TODO) - 서비스 KPI 지표로 평가 : 매출, PV, UV, CTR Rating Prediction 성능 평가 - 모델이 예측한 Rating과 사용자의 실제 Rating 차이를 계산 Top-K 추천 성능 평가 - 추천한 아이템 중 사용자에 의해 클릭된 아이템의 위치 및 개수를 이용하여 평가 Confusion Matrix Recommended(Predicted) Positive..
추천 시스템 Architecture 추천 시스템이란? 사용자나 서비스에 필요한 바를 잘 정의하고, 요건 다양한 데이터를 수집하고 활용하여, 데이터 적절한 방식을 통해 아이템의 적합도를 계량하여 모델 계량 방식 적절한 방식으로 제공하는 작업 UX/UI --> 어떤 요건에 맞춰 어떤 데이터를 활용해 어떤 모델을 이용해서 어떤 방식으로 계량하는가? 요건 데이터 모델 계량 방식 l Best l Related l Personalized l Context-aware l Explicit l Implicit l CBF l CF l Hybrid l Rating Prediction l Top-K Rec. 추천 시스템 분류 추천 요건에 따른 분류 Best : 전체 중에서 가장 잘팔리는 거. 베스트셀러를 생각하자 Best 지..
Parameter는 함수 혹은 method 정의에서 나열되는 변수명이다. Argument는 함수 혹은 method를 호출할 때, 전달 혹은 입력되는 실제값을 뜻한다. Parameter는 변수(variable) Argument는 값(value) 예시> def function_example(param1, param2): return param1 + param2: result = function_example("argument1", " argument2") print(result) >>> argument1 argument2 프로그래밍을 시작한지 꽤 됐는데도 argument와 parameter가 헷갈릴 때가 있다. 머리에 정리해볼 겸 포스팅을 해봤다. 참고> https://stackoverflow.com/que..
Dataset Dataset class 정의는 전체 dataset을 구성하는 단계이다. input으로는 전체 input feature와 label(=target)을 넣어주면 된다. dataset class를 정의하려면 필수로 정의해야 하는 함수들이 있는데 다음과 같다. __init__(self) : 필요한 변수들을 선언한다. self.~~ = ~~~ 이런식으로 __len__ : dataset의 사이즈를 return __getitem__ : i번째 data를 return. return type에 제약이 있는 것은 아니지만, 보통 tensor, a tuple of tensors, a dictionary를 많이 쓰는 듯 하다. - 하나의 변수에 target이 함께 있는 경우도 있고, target을 따로 ret..
미스따문
'분류 전체보기' 카테고리의 글 목록 (8 Page)