TF.IDF (term frequency – inverse document frequency) je číselná statistika, která udává, jak důležité je slovo nebo fráze pro dokument v rámci souboru dokumentů.
Jedná se o skóre, které je úměrné počtu výskytů slova v dokumentu, které je kompenzováno frekvencí slova v souboru dokumentů.
Vypočítá se vynásobením „frekvence termínu“, který se v dokumentu vyskytuje, a „inverzní frekvence dokumentu“ tohoto termínu ve všech dokumentech.
Je určena k měření toho, jak relevantní je termín v konkrétním dokumentu ve srovnání s ostatními dokumenty v souboru.
Při vyhledávání zaměřeném na lidi, jako jsou například pracovní nabídky, může TF.IDF pomoci identifikovat slova související s určitými pozicemi nebo rolemi, takže zaměstnavatelé mohou přesně porovnat životopisy s kvalifikací pro danou pozici.
(Viz také BM25)