Amazon Fine Food Reviews라는 데이터셋을 활용해서 TF-IDF 실습을 했다.


구현은 직접 하지 않고 sklearn에서 제공하는 TfidfVectorizer 기능을 사용했다.


feature의 수에 제한을 두지 않으면 메모리 부족으로 터지는 문제가 있어 max_features 파라미터 값으로 10,000을 줬다.


자연어 전처리를 한 결과를 TfidfVectorizer에 넣어줘야 하는 줄 알았는데 TfidfVectorizer에 파라미터로 이것저것 넣어주면 알아서 전처리를 해준다.


Tfidf를 구하고 나서는 각 문서를 가장 잘 설명하는 단어를 5개씩 출력했다.


import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

In [12]:
import nltk
from nltk.corpus import stopwords
import re
from sklearn.feature_extraction.text import TfidfVectorizer
In [13]:
r = pd.read_csv("/kaggle/input/amazon-fine-food-reviews/Reviews.csv")
In [14]:
# ProductId를 기준으로 Text 통합
r = r.groupby('ProductId')['Text'].agg(lambda col: ''.join(col))
In [15]:
r = pd.DataFrame({'ProductId':r.index, 'Text':r.values})
In [16]:
tfidf = TfidfVectorizer(stop_words="english", max_features=10000)
response = tfidf.fit_transform(r["Text"])
TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
                dtype=<class 'numpy.float64'>, encoding='utf-8',
                input='content', lowercase=True, max_df=1.0, max_features=10000,
                min_df=1, ngram_range=(1, 1), norm='l2', preprocessor=None,
                smooth_idf=True, stop_words='english', strip_accents=None,
                sublinear_tf=False, token_pattern='(?u)\\b\\w\\w+\\b',
                tokenizer=None, use_idf=True, vocabulary=None)
In [17]:
In [18]:
# 상위 20개 항목을 대상으로 해당 항목을 가장 잘 설명하는 단어 다섯개 출력
feature_names = np.array(tfidf.get_feature_names())
n = 5

for i in range(20):
    tfidf_sorting = np.argsort(response[i].toarray()).flatten()[::-1]
['book' 'soup' 'children' 'chicken' 'read']
['farms' 'packet' 'contains' 'fruit' 'natural']
['china' 'wont' 'dogs' 'imports' 'chicken']
['books' 'ingredients' 'stores' 'book' 'recipes']
['treats' 'liver' 'dog' 'dogs' 'br']
['treats' 'liver' 'dog' 'dogs' 'br']
['tin' 'cookies' 'grams' 'dollars' 'sweet']
['does' 'tummy' 'bother' 'sensitive' 'stomach']
['flies' 'fly' 'trap' 'caught' 'traps']
['victor' 'fly' 'bait' 'traps' 'unreal']
['quot' 'windows' 'printed' 'car' 'reverse']
['beetlejuice' 'movie' 'burton' 'keaton' 'film']
['beetlejuice' 'movie' 'burton' 'keaton' 'film']
['trap' 'mole' 'moles' 'traps' 'spikes']
['bees' 'trap' 'traps' 'yellow' 'ive']
['gopher' 'trap' 'traps' 'set' 'gophers']
['trap' 'mole' 'moles' 'traps' 'set']
['fleas' 'flea' 'trap' 'traps' 'br']
['flies' 'fly' 'trap' 'traps' 'bait']
['flies' 'trap' 'fly' 'traps' 'victor']
