Documentation/Pipelines & Automatisation

⚙️Pipelines & Automatisation

Automatiser des analyses récurrentes tels que le Topic Modeling ou Narrative Filtering

Topic Modeling

Objectif

Extraire automatiquement les sujets émergents d'un corpus en combinant traduction, chunking, analyse de sentiment, lemmatisation, vectorisation, clustering et annotation dans un pipeline unique.

Prérequis

Avoir créé une importation avec des données collectées.
Avoir créé une analyse.

Étapes

1
Dans la barre latérale, ouvrez Pipelines et cliquez sur Topic Modeling.
2
Sélectionnez le Client, le Projet, l'Importation et l'Analyse.
3
Sélectionnez une ou plusieurs importations que l'on souhaite rattacher à l'analyse. Filtrez les posts éligibles à la classification en filtrant par date, type de posts ou langue.

Configurez le pipeline :

Champ	Description	Exemple
Type de données	Sélectionnez le type de données à clusteriser : le texte des posts, les images ou le transcript de vidéos.	texte
Langue	Sélectionnez la langue souhaitée pour les résultats (dédié à la traduction du corpus et à l'annotation)	fr
Sentence Splitting	Activez le sentence splitting (découpage des textes en paragraphes) pour les textes longs. Recommandé pour Telegram, Facebook, Linkedin, Presse, etc.	true
Activer le clustering	Désactiver cette option si vous souhaitez uniquement préparer les données, sans réaliser le clustering final.	true
Soft Clustering	Activez le soft clustering pour associer l'ensemble des documents à un topic. Si l'option est désactivée, on considère qu'un document peut ne pas être classé (bruit).	false

(facultatif) Ajustez les paramètres avancés du clustering :

Champ	Description	Exemple
Longueur min. du texte	Nombre de caractères minimum pour considérer les textes à classer.	90
Pourcentage de hashtags max	Proportion de hashtags	4
Pourcentage de mentions max	Proportion de mentions	4
n_neighbors	UMAP - nombre de voisins	15
n_epochs	UMAP - nombre d'epochs	2500
learning_rate	UMAP - learning_rate	0.5
spread	UMAP - spread	1.0
min_dist	UMAP - min_dist	0.0
metric_umap	UMAP - metric	cosine
random_state	Etat aléatoire	42
min_cluster_size	HDBSCAN - min_cluster_size	None
min_samples	HDBSCAN - min_samples	6
cluster_method_selection	HDBSCAN - cluster_method_selection	eom
metric_hdbscan	HDBSCAN - metrique de distance	euclidean

6
Cliquez sur Lancer. Le pipeline exécute automatiquement : lemmatisation → vectorisation → clustering → extraction des mots-clés représentatifs.

Narrative Filtering

Objectif

Filtrer les narratifs dans un corpus de données.

Prérequis

Avoir créé une importation avec des données collectées.
Avoir créé une analyse.

Étapes

1
Dans la barre latérale, ouvrez Pipelines et cliquez sur Narrative Filtering.
2
Sélectionnez le Client, le Projet, l'Importation et l'Analyse.
3
Sélectionnez une ou plusieurs importations que l'on souhaite rattacher à l'analyse. Filtrez les posts éligibles à la classification en filtrant par date et type de posts.
4
Sélectionnez le type de documents à classer (texte des posts, résultats OCR sur les iamges ou transcript de vidéos).
5
Sélectionnez les narratifs / claims de référence pour la classification.

Configurez le pipeline :

Champ	Description	Exemple
Nombre de claims par chunk	Nombre de claims de référence à associer à chaque chunk de texte pour la classification, lors de l'étape de calcul de similarité.	5
Seuil de similarité	Distance cosinus minimale entre le texte et le claim de référence.	0.7
Activer le reranker	Activez le reranker pour sélectionner les claims les plus pertinents après le calcul de similarité.	true
Nombre de claims par chunk après reranking	Nombre de claims de référence à associer à chaque chunk de texte après le reranking.	3
Langue	Langue des traductions et du chunking	fr
Sentence Splitting	Découpe le texte en phrases (sentence_split). Recommandé pour les textes longs (ex : posts Facebook, Linkedin, articles de presse) afin d'améliorer la granularité de la classification.	true

7
Cliquez sur Lancer. Le pipeline exécute automatiquement : lemmatisation → vectorisation → clustering → extraction des mots-clés représentatifs.

Programmer une alerte

Objectif

Configurer une alerte automatique qui se déclenche lorsque de nouveaux contenus correspondant à des critères définis apparaissent dans une importation.

Prérequis

Avoir une importation en collecte active.

Étapes

1
Dans la barre latérale, cliquez sur Programmer une alerte.
2
Sélectionnez l'Importation sur laquelle surveiller les nouveaux contenus.
3
Ajoutez les emails des destinataires de l'alerte et indiquez l'intitulé de l'email.

Configurez les critères de déclenchement :

Champ	Description	Exemple
Types de posts	Sélectionnez les types de posts à surveiller (posts, retweet, commentaire, citations).	Posts originaux
Période	Définissez la période des posts éligibles à génération d'un email.	Uniquement pour les données historiques
Nombre de posts à afficher dans l'email	Nombre de posts à inclure dans l'email de notification.	20
Minimum de posts pour déclencher l'alerte	Nombre minimum de posts requis pour déclencher l'alerte.	0
Minimum d'engagements pour déclencher l'alerte	Nombre minimum d'engagements requis pour déclencher l'alerte.	0

Filtrez les contenus éligibles à l'alerte:

Champ	Description	Exemple
Filtre booléen sur le texte des posts	Filtrez les contenus éligibles à l'alerte en utilisant un filtre booléen sur le texte des posts.	(Apple OR Samsung) AND (iPhone OR Galaxy) AND NOT (reconditionné OR occasion)
Langue	Filtrez les contenus éligibles à l'alerte en fonction de la langue des posts.	fr
Usernames	Filtrez les contenus éligibles à l'alerte en fonction des noms d'utilisateur.	user1, user2, user3
Followers	Filtrez les contenus éligibles à l'alerte en fonction du nombre de followers des utilisateurs.	1000
Engagements	Filtrez les contenus éligibles à l'alerte en fonction du nombre d'engagements des posts.	100

Activez la synthèse LLM pour produire un résumé des contenus détectés :

Champ	Description	Exemple
Rôle du LLM	Définissez le rôle du LLM pour produire un résumé des contenus détectés.	Tu es un analyste qui réalise une veille concurrentielle quotidienne sur les smartphones.
Instructions	Fournissez des instructions supplémentaires au LLM pour produire un résumé des contenus détectés.	Résume les points clés des discussions sur les smartphones.

7
Cliquez sur Créer l'alerte.

✓ Résultat attendu

L'alerte est active. Lorsque le seuil est atteint, les destinataires reçoivent un e-mail de notification avec un résumé des contenus détectés.

Précédent🤖 Classification par LLM Suivant👨‍🚀 Gestion des panels