SDS Manager
Documentation
Documentation/Référence

📖Référence

Glossaire, codes marché, types d'importation, quotas API et FAQ pour une utilisation experte de SDS Manager.

Glossaire

Objectif

Définir les termes clés utilisés dans SDS Manager pour s'assurer d'une compréhension commune.

Étapes

  1. 1

    Voici les termes essentiels à connaître :

    ChampDescriptionExemple
    ImportationConteneur logique d'une collecte de données. C'est notre "Master dataset" contenant nos données brutes. Défini par une plateforme, un marché et un contexte client/projet. Toutes les opérations (collecte, analyse, export) y sont rattachées.importation_id = un jeu de données brutes
    AnalyseUne analyse est un sous-corpus d'une importation. C'est un ensemble de données dérivé d'une importation, utilisé pour des traitements spécifiques comme les traitements NLP, le clustering, l'analyse de coordination, narrative filtering, l'analyse d'image ou de videoanalyse_id = un sous-ensemble de données enrichis
    PromptUn ensemble d'instructions ou de questions fournies à un modèle de langage pour générer des réponses ou effectuer des tâches de classification.Prompt dédié à la classification d'un compte ou d'un post
    ScrapperFonction chargée de collecter des données sur une plateforme sociale via son API ou du scraping.scrapper/x, scrapper/linkedin, scrapper/tiktok
    PostUn post est une publication sur une plateforme sociale. Dans notre modèle de données, un post contient uniquement les métadonnées (date, plateforme, engagements, etc.). Il peut être associé à un ou plusieurs Documents (texte, image, video) et un ou plusieurs Accounts (auteur, utilisateur mentionné, ...).https://x.com/camille_moscow/status/2059330005528678614
    DocumentUn document est un contenu associé à un post, pouvant être du texte, une image ou une vidéo. C'est la matière première de l'analyse pour nos pipelines NLP, d'analyse d'image ou de video.Texte d'un post, image jointe, vidéo intégrée
    ChunkSegment de texte exploitable au sein d'une analyse. Ca peut être le texte d'un post nettoyé, et éventuellement découpé en paragraphes. Un chunk est associé à un vecteur.Texte d'un post découpé en segments de 3 phrases.
    Embedding / VecteurReprésentation numérique d'un texte dans un espace multidimensionnel. Deux textes sémantiquement proches ont des vecteurs proches (similarité cosinus élevée).Les vecteurs servent à classer les posts.
    NarratifRécit ou angle d'interprétation d'un événement, défini par un ensemble de claims. Utilisé comme référence pour le Narrative Filtering.Narratif anti-vaccination, narratif géopolitique, etc.
    ClaimAffirmation précise et factuelle représentative d'un narratif. Vectorisée pour permettre la comparaison sémantique avec les documents du corpus.Les vaccins ARNm modifient l'ADN.
    PanelCohorte de panélistes surveillés sur plusieurs plateformes. Permet de filtrer les analyses pour ne regarder que les contributions d'un groupe défini.Panel journalistes politique FR
    PanélisteIndividu suivi dans le cadre d'un panel, identifié par ses comptes sur différentes plateformes.Jean Dupont — @jeandupont sur X, jean-dupont sur LinkedIn
    SchedulerTâche planifiée (cron) qui déclenche automatiquement un job scrapper ou d'analyse selon une fréquence définie.Collecte X quotidienne à 6h du matin
    TâcheUnité d'exécution dans la file d'attente GCP Cloud Tasks. Chaque job lancé depuis SDS Manager crée une tâche (Cloud Task).Une requête formulée à l'infrastructure génère une ou plusieurs tâches dans la file d'attente