Википедия
TF-IDF — статистическая мера, используемая для оценки важности слова в контексте документа , являющегося частью коллекции документов или корпуса . Вес некоторого слова пропорционален количеству употребления этого слова в документе, и обратно пропорционален частоте употребления слова в других документах коллекции.
Мера TF-IDF часто используется в задачах анализа текстов и информационного поиска , например, как один из критериев релевантности документа поисковому запросу, при расчёте меры близости документов при кластеризации .