Accueil > Cours en ligne développement informatique > Calculer TF-IDF avec Python

Calculer TF-IDF avec Python

Publié le 29/12/2022
Modifié le : 15/04/2024
Aucun commentaire
Python, seo
Cours en ligne développement informatique
Alban

Temps de lecture : 2 minutes

Le TF-IDF (Term Frequency – Inverse Document Frequency) est un score de fréquence de terme utilisé pour évaluer l’importance d’un terme dans un document ou une collection de documents. Le TF-IDF d’un terme dans un document est calculé en multipliant sa fréquence dans le document (TF) par son importance inverse dans la collection de documents (IDF). Voici comment vous pouvez calculer le TF-IDF d’un texte avec Python :

Séparez le texte en tokens (mots ou phrases) à l'aide de la bibliothèque nltk (Natural Language Toolkit).

Calculez la fréquence de chaque token dans le texte (TF).
Calculez l’importance inverse de chaque token dans la collection de documents (IDF).
Multipliez le TF et l’IDF de chaque token pour obtenir leur score TF-IDF.

Voici un exemple de code Python qui implémente ces étapes pour calculer le TF-IDF d’un texte :

import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

# Définissez le texte à analyser
text = "Ceci est le texte que je souhaite analyser, trouver les termes qui reviennent le plus souvent pour mieux comprendre de quoi il parle ou tout simplement pour obtenir des super statistiques qui vont me servir dans mes analyses SEO."

# Séparez le texte en tokens à l'aide de word_tokenize
tokens = word_tokenize(text)

# Enlevez les mots vides (stop words) à l'aide de la liste de mots vides de nltk (ici les français, mais il est possible de récupérer d'autres langues)
filtered_tokens = [token for token in tokens if token.lower() not in stopwords.words("french")]

# Calculez la fréquence de chaque token dans le texte (TF)
tf_scores = {}
for token in filtered_tokens:
    if token in tf_scores:
        tf_scores[token] += 1
    else:
        tf_scores[token] = 1

# Calculez l'importance inverse de chaque token dans la collection de documents (IDF)
# Pour simplifier, nous allons supposer que nous avons seulement un document dans notre collection
idf_scores = {token: 1 for token in set(filtered_tokens)}

# Multipliez le TF et l'IDF de chaque token pour obtenir leur score TF-IDF
tfidf_scores = {token: tf_scores[token] * idf_scores[token] for token in tf_scores}

# Affichez les scores TF-IDF
for token, score in tf_scores.items():
    print(f"Token: {token}, TF-IDF: {score}")

Ce code calcule d’abord les scores TF de chaque token en comptant le nombre de fois où chaque token apparaît dans le texte. Il calcule ensuite les scores IDF en attribuant une valeur de 1 à chaque token unique dans le texte (puisque nous avons seulement un document dans notre collection). Enfin, il multiplie les scores TF et IDF de chaque token pour obtenir leur score TF-IDF et affiche ces scores.

Alban

Webmarketing et Développement vont pour moi de paire. J'ai eu la chance de pouvoir pratiquer les deux en entreprise depuis presque 15 ans, en agence d'abord ensuite chez l'annonceur. Je suis passionné par le NLP, j'ai développé de nombreux outils que je mets aujourd'hui à disposition sur Refbax. J'imagine aussi Refbax comme un lieu de partage de connaissance (Python, PHP, Webmarketing), de veille, mais aussi des outils mis à la disposition des SEO et des rédacteurs. J'espère que vous trouverez un peu de cela en parcourant le site. Retrouvez mes publications sur medium.com

Calculer TF-IDF avec Python

Alban

Laisser un commentaire Annuler la réponse

Sur le même thème 🤩

Comment les moteurs de recherche comprenne la sémantique d’un texte ?

Enfilez-votre cape

Apprenez le webmarketing et le code grâce à nos différentes ressources et améliorez la visibilité de votre site internet, grâce à nos outils SEO.