🔧Préparer des documents
Enrichir les données brutes collectées avec des traitements NLP légers : langue, traduction, NER, réseaux d'interaction.
Détecter la langue
Objectif
Détecter automatiquement la langue des posts de l'importation pour permettre des traitements adaptés (traduction, analyse, etc.).
Prérequis
- Avoir collecté des données sur une importation.
Étapes
- 1
Dans la barre latérale, ouvrez Préparer des documents puis cliquez sur Détection de langue.
- 2
Sélectionnez le Client, le Projet et l'Importation cible.
- 3
(facultatif) Filtrez les posts par période.
- 4
(facultatif) Des paramètres avancés peuvent être configurés pour optimiser le temps de traitement ou forcer la détection sur des posts disposant déjà d'une langue détectée.
- 5
(facultatif) Planifiez une exécution récurrente pour maintenir à jour la langue détectée sur les nouveaux documents.
- 6
Cliquez sur Lancer pour déclencher la détection.
✓ Résultat attendu
Chaque document de l'importation se voit attribuer un code de langue ISO 639-1 (ex : `fr`, `en`, `es`). Ce champ est utilisé par les étapes de traduction et d'analyse.
Erreurs fréquentes
| Erreur | Cause probable | Solution |
|---|---|---|
| Résultat incohérent sur des textes très courts | Les textes de moins de 20 caractères sont difficiles à détecter de façon fiable. | Considérez ces cas comme du bruit et filtrez-les manuellement si nécessaire. |
Traduction
Objectif
Traduire les documents de l'importation vers une langue cible pour homogénéiser le corpus avant analyse.
Prérequis
- Avoir collecté des données.
Étapes
- 1
Dans Préparer des documents, cliquez sur Traduction.
- 2
Sélectionnez le Client, le Projet et l'Importation.
- 3
Sélectionnez le type de données sur lequel vous souhaitez appliquer la traduction : le texte du post, le texte détecté dans les images (OCR), le transcript vidéo (vidéo).
- 4
Choisissez la Langue cible de traduction.
Champ Description Exemple Langue cible Langue vers laquelle tous les documents seront traduits. En général on traduit vers `fr` ou `en` pour homogénéiser le corpus. fr - 5
(recommandé) si vous connaissez la langue d'origine de vos documents, utilisez le champ "Langue source".
- 6
(facultatif) Configurez des paramètres avancés pour filtrer les posts par date de publication ou écraser les traductions existantes.
- 7
(facultatif) Planifier une exécution récurrente pour traduire automatiquement les nouveaux documents à mesure qu'ils sont collectés.
- 8
Cliquez sur Lancer.
✓ Résultat attendu
Un champ `text_fr` / `text_en` / `text_ru` est ajouté à chaque document avec le texte traduit dans la langue cible.
Erreurs fréquentes
| Erreur | Cause probable | Solution |
|---|---|---|
| Certains documents ne sont pas traduits | Les documents déjà dans la langue cible sont laissés inchangés par souci d'efficacité. | C'est un comportement normal. Vérifiez avec le champ de langue détectée. |
NER (entités nommées)
Objectif
Extraire automatiquement les entités nommées (personnes, organisations, lieux) des documents pour enrichir le corpus.
Prérequis
- Avoir collecté des données sur l'importation.
Étapes
- 1
Dans Préparer des documents, cliquez sur NER.
- 2
Sélectionnez le Client, le Projet et l'Importation.
- 3
Sélectionnez un modèle de NER adapté à votre besoin (monolingue ou multilingue).
- 4
Sélectionnez le texte sur lequel vous souhaitez appliquer le modèle NER : le texte original ou le document traduit.
- 5
Définissez les entitées à extraire (personnes, organisations, lieux, etc.).
- 6
(facultatif) Configurez des paramètres avancés pour filtrer les posts par date de publication.
- 7
(facultatif) Planifiez une exécution récurrente pour maintenir à jour les entités extraites sur les nouveaux documents.
- 8
Cliquez sur Lancer.
✓ Résultat attendu
Chaque document est associé à des entités détectées, leur type (PER, ORG, LOC, MISC) et leur position dans le texte.
Réseaux d'interactions
Objectif
Construire un graphe des interactions (mentions, réponses, retweets) entre les comptes de l'importation.
Prérequis
- Avoir collecté des données sur une importation de type Twitter API ou similaire avec des interactions entre comptes.
Étapes
- 1
Dans Préparer des documents, cliquez sur Réseaux d'interactions.
- 2
Sélectionnez le Client, le Projet et l'Importation.
- 3
Sélectionnez les posts à inclure dans le graphe : période, type de posts.
- 4
Configurez le(s) réseau(x) à produire via les trois sections ci-dessous.
Référence des champs — Configuration réseau
Champ Description Exemple period Granularité temporelle des graphes produits. `static` = un seul graphe global ; les autres valeurs produisent un graphe par tranche de temps. static, day, week network_type Types de relations à modéliser. Chaque type produit un fichier de graphe séparé. interactions, mentions, quotes, comments, shares, conversation threshold_attribute Attribut de nœud utilisé pour le filtrage par seuil. degree threshold Valeur minimale de `threshold_attribute` pour qu'un nœud soit conservé dans le graphe. 1 max_nodes Nombre maximal de nœuds conservés dans le graphe final (les nœuds les plus importants sont gardés). 5000 n_composantes Nombre de composantes connexes à conserver. Entier = N composantes, décimal 0–1 = percentile de taille, vide = toutes. 1.0 min_nodes_composantes Taille minimale d'une composante connexe pour être incluse. 3 modularity_resolution Résolution de l'algorithme de détection de communautés (Louvain). Plus élevée = communautés plus petites et nombreuses. 1.0 mutual_relationships Si activé, conserve uniquement les paires avec interactions mutuelles → réseau non directionnel. false compute_dynamic_metrics Calcule les métriques de centralité à chaque période temporelle. Désactiver accélère le traitement. true dynamic_nodes True = nœuds et liens varient par période. False = nœuds fixes, seuls les liens changent. true dynamic_filtering True = filtre les N nœuds les plus importants à chaque période. False = filtre calculé sur l'ensemble des données. true Référence des champs — Métriques
Champ Description Exemple degree Nombre total de liens d'un nœud (entrant + sortant). — in_degree Nombre de liens entrants (mentions reçues, réponses reçues…). — out_degree Nombre de liens sortants (mentions émises, réponses émises…). — degree_centrality Centralité de degré normalisée : part du degree total du nœud dans le réseau. — in_degree_centrality Centralité de degré entrant normalisée. — out_degree_centrality Centralité de degré sortant normalisée. — betweenness_centrality Fréquence à laquelle un nœud se trouve sur le chemin le plus court entre deux autres nœuds. Mesure le rôle de pont d'un compte. — eigenvector_centrality Centralité de vecteur propre : un nœud est influent s'il est connecté à d'autres nœuds influents. — Référence des champs — Visualisation (Sigma)
Champ Description Exemple node_color Attribut de nœud utilisé pour la couleur (ex : modularity = couleur par communauté). modularity node_size / node_size_range Attribut pilotant la taille des nœuds, et plage [min, max] en pixels. in_degree · [2, 15] node_label / node_label_size Attribut affiché comme label, et taille fixe ou variable (None = taille fixe définie par `default_node_label_size`). label · 12 node_border_color_from Source de la couleur de bordure du nœud (`node` = même couleur que le nœud, `None` = pas de bordure colorée). node node_halo_size Attribut pour la taille du halo autour du nœud. `None` = pas de halo. none edge_color / default_edge_color Attribut pilotant la couleur des arêtes, ou couleur hexadécimale fixe si `edge_color` = None. none · #e1e1e1 default_edge_type Forme des arêtes dans la visualisation Sigma. arrow / rectangle / line / curve / triangle edge_size / edge_size_range Attribut pilotant l'épaisseur des arêtes, et plage [min, max] en pixels. weight · [1, 15] background_color Couleur de fond de la visualisation. white start_layout Durée en secondes du calcul de layout ForceAtlas2 avant arrêt automatique. 10.0 label_density Nombre de labels affichés par cellule de grille. Réduire pour alléger l'affichage. 1 barnesHutTheta / barnesHutOptimize Paramètres de l'optimisation Barnes-Hut pour la répulsion (O(n·log n)). Theta ≈ 1.0 = rapide. 1.5 · true gravity / scalingRatio Attraction vers le centre et échelle globale du layout. scalingRatio élevé = nœuds plus espacés. 1.5 · 500 linLogMode Active le modèle LinLog de Noack, qui favorise la séparation visuelle des communautés. true strongGravityMode Active une gravité linéaire qui attire les composantes isolées vers le centre. true - 5
Cliquez sur Lancer.
✓ Résultat attendu
Un fichier de graphe (nœuds = comptes, arêtes = interactions) est produit et stocké dans GCS. Ce fichier est exploitable dans un outil de visualisation de réseau (Gephi, etc.).
OCR (extraction de texte depuis les images)
Objectif
Extraire automatiquement le texte visible dans les images des posts de l'importation à l'aide de PaddleOCR (GPU). Le texte extrait est stocké en base et peut ensuite être traduit, vectorisé ou analysé.
Prérequis
- Avoir collecté des données incluant des images (posts avec médias).
- Avoir lancé le téléchargement des médias (images stockées dans GCS).
Étapes
- 1
Dans Préparer des documents, cliquez sur OCR.
- 2
Sélectionnez le Client, le Projet et l'Importation cible.
- 3
Choisissez la langue OCR (`ocr_lang`). Le modèle `fr` prend en charge le Latin multilingue (français, anglais et accents).
Champ Description Exemple ocr_lang Langue du modèle PaddleOCR. `fr` charge le modèle Latin multilingue couvrant FR + EN + accents. fr - 4
(facultatif) Activez Retraiter les images déjà OCR-isées (`force_all`) pour forcer le recalcul sur des images déjà traitées.
- 5
(facultatif) Sélectionnez les types de posts dont les images doivent être traitées : originaux, commentaires, repartages, citations.
- 6
(facultatif) Filtrez les posts par période (start_date / end_date).
- 7
(facultatif) Dépliez les paramètres avancés pour ajuster les seuils du modèle PaddleOCR et les tailles de batch.
- 8
(facultatif) Planifiez une exécution récurrente pour traiter automatiquement les nouvelles images collectées.
- 9
Cliquez sur Lancer l'OCR.
✓ Résultat attendu
Le texte extrait est enregistré dans la base de données pour chaque document dont les images ont été traitées. Ce champ peut ensuite être utilisé dans la traduction ou la vectorisation.
Erreurs fréquentes
| Erreur | Cause probable | Solution |
|---|---|---|
| Aucun texte extrait sur certaines images | Les seuils de détection (`text_det_thresh`, `text_det_box_thresh`) peuvent être trop élevés pour des images de faible qualité. | Abaissez les seuils dans les paramètres avancés (ex : `text_det_thresh` à 0.3). |
| Le job est accepté mais aucune tâche ne démarre | Aucune image liée à l'importation n'est disponible dans GCS. | Vérifiez que le téléchargement des médias a bien été effectué au préalable. |
Télécharger des documents
Objectif
Télécharger les médias (images, vidéos) associés aux documents de l'importation pour un traitement local.
Prérequis
- Avoir collecté des données incluant des URLs de médias.
Étapes
- 1
Dans Préparer des documents, cliquez sur Télécharger des documents.
- 2
Sélectionnez le Client, le Projet et l'Importation.
- 3
Sélectionnez le Type de média à télécharger (images, vidéos, ou les deux).
- 4
(Facultatif) Filtrez les posts par date de publication et par type.
- 5
(Facultatif) Des paramètres avancés permettent d'optimiser le téléchargement ou de forcer le téléchargement de fichiers déjà existants.
- 6
(Facultatif) Planifiez le téléchargement des nouveaux posts collectés.
- 7
Cliquez sur Lancer.
✓ Résultat attendu
Les médias sont téléchargés depuis leurs URLs d'origine et stockés dans GCS, liés à l'importation.
Erreurs fréquentes
| Erreur | Cause probable | Solution |
|---|---|---|
| Médias manquants dans le résultat | Certaines URLs sont expirées (cas fréquent sur Twitter/X) ou ont été supprimées par l'auteur. | C'est normal. Seuls les médias encore accessibles au moment du lancement sont téléchargés. |