본문 바로가기

분류 전체보기

(31)
쿠팡 추천시스템 분석 참고자료 쿠팡 추천 시스템 2년간의 변천사 (상품추천에서 실시간 개인화로) ppt 자료 과거, 모델 중심의 플랫폼 단일 모델 혹은 복수의 모델이 상품 추천의 모든 역할 수행 모델 복잡 & 서버 단순 모델은 데이터를 입력받아 복잡한 알고리즘을 통해 학습되며, 이 학습 결과를 통해 새로운 input의 결과를 예측 서버는 모델이 내놓은 결과물을 정렬하는 등의 역할만 수행하면 됨. 모델 변경이 필요하거나, 데이터에 문제가 있거나, 학습을 하루 잘못 시키거나, 새로운 필터를 적용시킬 필요가 있거나(ex.성인 용품) 하면 모델을 다시 학습시켜야 한다. 그렇기 때문에 다음과 같은 문제가 발생한다. 1) 모델 변경에 따라 길어지는 파이프라인(필터, 부스팅, …) 2) 추가 요청사항에 대한 유연성이 떨어진다. 3) 완성..
3-2. 고급 선형대수: 좌표와 변환 선형대수의 내용이 워낙 많아 5개로 나눠서 설명하겠다. 3.2장인 좌표와 변환 내용이다. 벡터의 선형 독립과 랭크 개념, 기저 벡터 등에 대해서 알아보도록 하자. 선형 종속과 선형 독립 선형 종속과 독립은 언제 쓰일까? 예를 들어, 3차원의 공간이 있다고 하자. 이때 선형 독립인 벡터 3가지만 있으면 모든 공간상의 벡터를 표현할 수 있다. 반대로, 2개의 종속 벡터와 1개의 독립 벡터가 있으면 모든 3차원 벡터를 설명할 수 없다. 따라서 N차원에 속한 벡터들을 표현하기 위해선 선형 독립인 벡터들이 N개 필요하다. 극단적이게, 선형 종속인 벡터를 위의 그래프처럼 평행 벡터라고 하자. 이런 경우 2개의 벡터로는 2차원을 모두 표현할 수 없다. $\begin{bmatrix}1\\ 1\\ 0\end{bmatri..
3-3. 고급 선형대수: 고유값, 고유벡터 0. 고유값, 고유벡터가 중요한 이유 SVD, PCA, Pseudo-Inverse, 선형연립방정식의 풀이 등의 응용이 고유값, 고유벡터를 그 밑바탕에 깔고 있기 때문이다. 1. 고유값, 고유벡터의 정의 $Av=\lambda v$ 이 식을 고유방정식이라 한다. 행렬 A에 의한 변환 결과가 자기 자신의 상수배가 되는 0이 아닌 벡터를 고유벡터(eigenvector)라고 하고, 이 상수배 값을 고유값(eigenvalue)이라 한다. 말로 표현할 때는 $\lambda$는 "행렬 $A$의 고유값", $v$는 "행렬 A의 $\lambda$에 대한 고유벡터"라고 하면 된다. 여기서 다루고자 하는 내용은 행렬 A의 원소가 실수인 경우다. 컴퓨터를 활용한 대부분의 고유값, 고유벡터 활용은 실수 행렬을 사용해도 충분하다...
[CB Filtering] 3. TF-IDF Practice Amazon Fine Food Reviews라는 데이터셋을 활용해서 TF-IDF 실습을 했다. 구현은 직접 하지 않고 sklearn에서 제공하는 TfidfVectorizer 기능을 사용했다. feature의 수에 제한을 두지 않으면 메모리 부족으로 터지는 문제가 있어 max_features 파라미터 값으로 10,000을 줬다. 자연어 전처리를 한 결과를 TfidfVectorizer에 넣어줘야 하는 줄 알았는데 TfidfVectorizer에 파라미터로 이것저것 넣어주면 알아서 전처리를 해준다. Tfidf를 구하고 나서는 각 문서를 가장 잘 설명하는 단어를 5개씩 출력했다. In [11]: # This Python 3 environment comes with many helpful analytics libr..
[A/B Test] Page Lanking, Retention 관련 Testing 안녕하세요 데이터맛집의 포테이토입니다. 서비스 런칭 이후, 가장 고민 되는것은 우리의 고객(유저)들에가 우리의 서비스가 얼마나 큰 영향을 미칠지를 계산해 냅니다. 특히 이 글을 마치고 나면 Cost per Revenue / Cost per User 의 개념으로 다가 가게될겁니다. 또한 그 이상을 넘어, How to make best didecision에 다다르고자 수없이 많은 시행착오 끝에 다다를 시기를 앞당기고자 합니다. 오늘 소개 해 드릴 분야는 특히 service maker 관점에서, 우리의 User들은 누가 될 것이고 또한, 앞으로는 어떻게 행동할 것인가를 판단함에 도움을 드리고자 합니다. 우선 마케팅에서 말하고 있는 고객획득과, 재반응은 다음과 같이 정의 됩니다. 애퀴지션(Acquisition)..
2. 편향-분산 트레이드 오프 (Bias-Variance trade off) https://data-analysis-science.tistory.com/62 2. 편향-분산 트레이드 오프 (Bias-Variance trade off) 안녕하십니까 허브솔트입니다. 지난 시간에는 앙상블의 알고리즘들에 대해 알아보았는데요, 오늘은 편향 분산 트레이드 오프에 대해 공부해 볼께요! 편향 분산 트레이드 오프는 비단 앙상블에 data-analysis-science.tistory.com 개인 블로그로 이전하였어요
[CB Filtering] 2. Keyword-based Vector Space Model 이전글 1. 2020/03/12 - [추천 시스템/Content-based Filtering] - [CB Filtering] 1. 개요 저번 포스팅에서 개요를 설명하며 봤던 그림이다. 오늘 내용은 빨간 박스를 친 부분이다. 대부분의 추천 시스템은 TF-IDF를 활용한 Vector Space Model을 정보 획득 모델로 사용한다. Vector Space Model(VSM)은 문서의 공간적 표현(spatial representation)이다. 간단한 예를 들어보면 다음과 같다. Document 1: The boxer rebellion Document 2: The boxer Document 3: The rebellion 전체 문서는 "rebellion", "the", "boxer"로 이루어져 있으며, 각각의..
Collaborative Filtering(CF: 협업필터링)2: 유사도 계산법 Collaborative Filterting1: 개요 Collaborative Filtering(CF: 협업필터링)1: 특징, 개념 CF에 관한 내용들이 많아서 1과 2로 나눠서 게시했다. 1은 CF의 특징, 개념에 관한 내용이고, 2는 CF를 어떻게 계산하는지에대한 직접적인 유도를 하는 내용이다. 관련한 모델 또한 추가로 정리했다. ------------.. data-matzip.tistory.com CF의 특징 개념에 대한 설명의 위의 링크에 게시했으니 참조하길 바랍니다. 그럼 이제 item based와 user based를 사용할 때 어떻게 rating을 계산하는지에 대해 알아보자. 구현 절차 CF를 만들기 위해서는 여러가지 절차를 거쳐야 한다. 1. rating matrix 정리: item bas..