📖Référence
Glossaire, codes marché, types d'importation, quotas API et FAQ pour une utilisation experte de SDS Manager.
Glossaire
Objectif
Définir les termes clés utilisés dans SDS Manager pour s'assurer d'une compréhension commune.
Étapes
- 1
Voici les termes essentiels à connaître :
Champ Description Exemple Importation Conteneur logique d'une collecte de données. C'est notre "Master dataset" contenant nos données brutes. Défini par une plateforme, un marché et un contexte client/projet. Toutes les opérations (collecte, analyse, export) y sont rattachées. importation_id = un jeu de données brutes Analyse Une analyse est un sous-corpus d'une importation. C'est un ensemble de données dérivé d'une importation, utilisé pour des traitements spécifiques comme les traitements NLP, le clustering, l'analyse de coordination, narrative filtering, l'analyse d'image ou de video analyse_id = un sous-ensemble de données enrichis Prompt Un ensemble d'instructions ou de questions fournies à un modèle de langage pour générer des réponses ou effectuer des tâches de classification. Prompt dédié à la classification d'un compte ou d'un post Scrapper Fonction chargée de collecter des données sur une plateforme sociale via son API ou du scraping. scrapper/x, scrapper/linkedin, scrapper/tiktok Post Un post est une publication sur une plateforme sociale. Dans notre modèle de données, un post contient uniquement les métadonnées (date, plateforme, engagements, etc.). Il peut être associé à un ou plusieurs Documents (texte, image, video) et un ou plusieurs Accounts (auteur, utilisateur mentionné, ...). https://x.com/camille_moscow/status/2059330005528678614 Document Un document est un contenu associé à un post, pouvant être du texte, une image ou une vidéo. C'est la matière première de l'analyse pour nos pipelines NLP, d'analyse d'image ou de video. Texte d'un post, image jointe, vidéo intégrée Chunk Segment de texte exploitable au sein d'une analyse. Ca peut être le texte d'un post nettoyé, et éventuellement découpé en paragraphes. Un chunk est associé à un vecteur. Texte d'un post découpé en segments de 3 phrases. Embedding / Vecteur Représentation numérique d'un texte dans un espace multidimensionnel. Deux textes sémantiquement proches ont des vecteurs proches (similarité cosinus élevée). Les vecteurs servent à classer les posts. Narratif Récit ou angle d'interprétation d'un événement, défini par un ensemble de claims. Utilisé comme référence pour le Narrative Filtering. Narratif anti-vaccination, narratif géopolitique, etc. Claim Affirmation précise et factuelle représentative d'un narratif. Vectorisée pour permettre la comparaison sémantique avec les documents du corpus. Les vaccins ARNm modifient l'ADN. Panel Cohorte de panélistes surveillés sur plusieurs plateformes. Permet de filtrer les analyses pour ne regarder que les contributions d'un groupe défini. Panel journalistes politique FR Panéliste Individu suivi dans le cadre d'un panel, identifié par ses comptes sur différentes plateformes. Jean Dupont — @jeandupont sur X, jean-dupont sur LinkedIn Scheduler Tâche planifiée (cron) qui déclenche automatiquement un job scrapper ou d'analyse selon une fréquence définie. Collecte X quotidienne à 6h du matin Tâche Unité d'exécution dans la file d'attente GCP Cloud Tasks. Chaque job lancé depuis SDS Manager crée une tâche (Cloud Task). Une requête formulée à l'infrastructure génère une ou plusieurs tâches dans la file d'attente