Guide de Préparation des Données AI en SST

Standards, Métadonnées & Meilleures Pratiques pour AgenticX5

📅 Octobre 2025
🏢 GenAISafety & Preventera
📊 Version 1.0
1.2M+
Incidents Harmonisés
100+
Agents Agentiques
95%
Couverture Métadonnées
85%
Réduction Temps

🎯 Introduction et Contexte

📌 Objectif du Guide
Ce guide fournit un cadre complet pour la préparation des données destinées aux projets d'intelligence artificielle en SST/HSE dans le contexte AgenticX5.

🤖 Contexte AgenticX5

AgenticX5 est un écosystème de 100+ agents agentiques spécialisés orchestrés par la plateforme Safety Graph. Ces agents travaillent en parallèle 24/7 pour :

  • Prédiction & Analyse avec 85-95% d'accuracy
  • Conformité Automatisée (C-25, ISO 45001, GDPR, ESG)
  • Harmonisation Multi-Juridictionnelle (SCIAN ↔ SOC ↔ NACE)
  • Data Lineage 100% Traçable
  • ROI Mesurable avec 16x accélération

📊 Données de Référence

  • 793,000+ incidents CNESST (Québec)
  • 220,000+ incidents OSHA (USA)
  • 150,000+ incidents EU-OSHA (Europe)
  • Total : 1.2M+ incidents harmonisés

⚡ Enjeux de Qualité

  • Précision des modèles ML
  • Conformité réglementaire
  • Interopérabilité des systèmes
  • Reproductibilité scientifique

📋 Standards et Référentiels

Standards de Métadonnées Internationaux

🌐 Dublin Core

Organisation: Dublin Core Metadata Initiative (DCMI)

Standard international léger comprenant 15 éléments de base universels :

Title Creator Subject Description Publisher Contributor Date Type Format Identifier Source Language Relation Coverage Rights
Usage AgenticX5: Documentation automatique des datasets CNESST, OSHA, EU-OSHA avec métadonnées standardisées.

📚 DDI (Data Documentation Initiative)

Organisation: DDI Alliance

Standard XML pour documenter les données de recherche couvrant le cycle de vie complet :

  • Conception de l'étude
  • Collecte de données
  • Traitement et analyse
  • Archivage et préservation
  • Découverte et réutilisation

🔧 ISO 11179

Référence: ISO/IEC 11179-3:2023

Norme internationale pour les registres de métadonnées définissant :

  • Principes de nomination cohérente
  • Définition sémantique d'éléments
  • Enregistrement standardisé
  • Cohérence multi-systèmes

🔗 DCAT (Data Catalog Vocabulary)

Organisation: W3C Recommendation

Vocabulaire RDF pour publication de catalogues de données sur le Web. Standard de facto pour Open Data gouvernementaux.

Classifications Sectorielles

Classification Juridiction Organisation Usage AgenticX5
SCIAN 🇨🇦 Canada / ALENA Statistique Canada Classification primaire 793K+ incidents CNESST
SOC 🇺🇸 États-Unis US Bureau of Labor Statistics Classification 220K+ incidents OSHA
NACE 🇪🇺 Union Européenne Eurostat Classification 150K+ incidents EU-OSHA

Normes HSE

🏅 ISO 45001:2018

Titre: Systèmes de management de la santé et de la sécurité au travail

  • Contexte organisationnel
  • Leadership et participation
  • Planification et évaluation des risques
  • Évaluation de la performance

⚖️ Loi C-25 (Québec)

Titre: Loi modernisant le régime de santé et de sécurité du travail

  • Mécanismes de prévention renforcés
  • Comités SST obligatoires
  • Prévention violence et harcèlement
  • Obligations accrues employeurs

📦 Inventaire des Types de Données HSE

🚨 Incidents et Lésions

Incidents avec Temps Perdu:

  • ID unique incident (UUID)
  • Date et heure (ISO 8601)
  • Classification SCIAN (6 digits)
  • Type de lésion
  • Gravité (échelle 1-5)
  • Jours de travail perdus
  • Coûts (direct/indirect)

Quasi-Accidents (Near Miss)

Ratio selon pyramide de Bird : 30:1 à 600:1

🔍 Inspection et Audit

Inspections Préventives:

  • ID inspection
  • Type d'inspection
  • Zone inspectée
  • Checklist utilisée
  • Observations structurées
  • Actions correctives

Formats recommandés: JSON PostgreSQL

⚠️ Évaluation des Risques

Analyses de Risques:

  • Dangers identifiés
  • Probabilité (1-5)
  • Gravité (1-5)
  • Niveau de risque (P × G)
  • Mesures de contrôle
  • Risque résiduel

Méthodologies: Matrice 5×5 HAZOP FMEA

🧪 Matières Dangereuses

Inventaire SIMDUT 2015:

  • Nom standardisé (IUPAC)
  • Numéro CAS
  • Classification SIMDUT
  • Quantité et localisation
  • Conditions de stockage
  • FDS (Fiche de Données de Sécurité)

🎓 Formation et Compétences

Formations SST:

  • Titre et type de formation
  • Durée et validité
  • Participants (pseudonymisés)
  • Résultats/évaluations
  • Certificats émis

🌡️ Données Environnementales

Mesures d'Exposition:

  • Type de mesure (bruit, température, etc.)
  • Valeur mesurée vs. VLE
  • Conformité
  • Équipement utilisé

Données Météo: Corrélation incidents avec conditions

⚠️ Confidentialité: Conformité GDPR et Loi 25 (Québec) - minimisation et pseudonymisation obligatoires. Utiliser des UUID, jamais de noms réels dans datasets ML.

🏷️ Métadonnées Standards et Mapping Dublin Core

🎯 Schéma Hybride AgenticX5
Pour assurer l'interopérabilité maximale, AgenticX5 utilise un schéma hybride combinant : Dublin Core DDI ISO 11179 Extensions SST

Mapping Dublin Core pour Incident SST

Dublin Core Element Valeur Exemple Mapping Champ SST
dc:title "Incident chute depuis hauteur - Site Montréal" incident_title
dc:creator "GenAISafety Safety Graph System" system_name
dc:subject "Chute de hauteur; Échafaudage; SCIAN 236220" keywords, scian_code
dc:description "Travailleur chute d'échafaudage 3m. Fracture poignet. 45j perdus." incident_description
dc:date "2024-03-15T14:30:00-05:00" incident_datetime (ISO 8601)
dc:identifier "uuid:550e8400-e29b-41d4-a716-446655440000" incident_id (UUID)
dc:language "fr-CA" language (ISO 639-1 + ISO 3166-1)
dc:coverage "Montréal, Québec, Canada; 2024-03-15" geographic_location, temporal_coverage
dc:rights "© CNESST 2024. Licence CC-BY-NC-SA 4.0" license, access_rights

Vocabulaire Contrôlé SST

⚠️ Types de Dangers

Biologique Chimique Physique Ergonomique Psychosocial Mécanique Électrique Chute Incendie Environnemental

🩹 Types de Lésions

Fracture Entorse/Foulure Contusion Lacération Brûlure Commotion TMS Intoxication
✅ Avantages du Registre ISO 11179:
  • Définitions sémantiques partagées
  • Évite la duplication et l'ambiguïté
  • Facilite l'intégration multi-systèmes
  • Base pour génération automatique de documentation

📝 Étapes de Préparation des Données

1️⃣ Collecte des Données

Identification des Sources:

  • Systèmes internes (SIRH, GMAO, ERP)
  • Sources externes (CNESST, météo)
  • Safety Graph Platform (1.2M+ incidents)

Méthodes d'extraction:

API REST GraphQL Connecteurs DB CSV/Excel

2️⃣ Nettoyage des Données

Actions critiques:

  • Détection valeurs manquantes
  • Imputation stratégique
  • Détection et correction d'outliers
  • Dédoublonnage (exact et fuzzy)
  • Standardisation des formats
⚠️ Z-score > 3σ nécessite investigation

3️⃣ Structuration et Transformation

Normalisation (3NF):

  • dim_sites (sites/établissements)
  • dim_employees (pseudonymisée)
  • dim_injury_types (types lésions)
  • fact_incidents (faits principaux)

Enrichissement: Météo, géocodage, features ML

4️⃣ Validation et Contrôle Qualité

Tests Automatisés:

Great Expectations ydata-profiling
  • Complétude ≥ 95%
  • Exactitude (validations métier)
  • Consistance (formats standard)
  • Data Lineage 100% traçable

5️⃣ Documentation

Livrables essentiels:

  • README.md complet
  • Dictionnaire de données (CSV/Excel)
  • Métadonnées Dublin Core (JSON)
  • Data Quality Report (HTML)
  • CHANGELOG avec versioning

6️⃣ Stockage et Sauvegarde

Architecture Modern Data Stack:

  • Bronze Layer (Raw Data - S3/Blob)
  • Silver Layer (Cleaned - Parquet)
  • Gold Layer (Curated - Snowflake/BigQuery)
  • Feature Store (ML - Feast/Tecton)
📐 Règle 3-2-1: 3 copies, 2 médias différents, 1 hors site

📊 Partitionnement Parquet Recommandé

s3://safetygraph-prod/cleaned/incidents/ ├── year=2020/ │ ├── month=01/ │ │ ├── part-00000.parquet │ │ └── part-00001.parquet │ ├── month=02/ │ └── ... ├── year=2021/ └── year=2024/ └── month=10/ └── part-00000.parquet

Avantages: Requêtes plus rapides, coûts réduits, maintenance facilitée

🛠️ Outils et Technologies Recommandés

Stack Technologique AgenticX5

Catégorie Outil Recommandé Usage Type
Orchestration ETL Apache Airflow / Prefect Pipelines complexes, scheduling Open Source
Transformation dbt (Data Build Tool) Transformations SQL dans DWH Open Source
Data Warehouse Snowflake / BigQuery Analytics, requêtes ML Commercial
Lakehouse Databricks ML à grande échelle, Spark Commercial
Data Quality Great Expectations Tests automatisés qualité Open Source
Data Catalog DataHub (LinkedIn) Metadata management, lineage Open Source
Feature Store Feast Gestion features ML Open Source
MLOps MLflow Tracking, registry, deployment Open Source
Visualisation Tableau / Power BI Dashboards métier Commercial
💡 Recommandation AgenticX5: Architecture cloud-native avec Snowflake + Airflow + dbt + MLflow pour équilibre optimal entre performance, coûts et scalabilité.

🔐 Gouvernance et Conformité

⚖️ Loi 25 (Québec)

Protection des Renseignements Personnels

  • Minimisation des données
  • Pseudonymisation systématique
  • Chiffrement au repos et en transit
  • Contrôle d'accès (RBAC)
  • PIA (Privacy Impact Assessment)

🌍 GDPR (Europe)

Applicabilité EU-OSHA

  • Base légale (intérêt légitime SST)
  • Données sensibles de santé
  • DPIA obligatoire pour ML
  • Privacy by Design

📊 ISO 45001

Management SST

  • Informations documentées (Clause 7.5)
  • Surveillance performance (Clause 9.1)
  • Actions correctives (Clause 10.2)
  • KPIs mesurables requis

🔒 Sécurité des Données

Mesures Techniques:

  • Chiffrement SSE-KMS (S3)
  • TLS 1.3 pour transports
  • Logs d'accès activés
  • Audits réguliers
⚠️ Rétention Obligatoire (Québec):
• Registres d'accidents: Minimum 5 ans
• Registres d'exposition (substances): Minimum 30 ans
Recommandation AgenticX5: Conserver 10 ans pour analyses longitudinales

Checklist de Validation

📋 Complétude des Données

  • Tous les incidents ont un UUID
  • Pas de doublons détectés
  • Dates ISO 8601 valides
  • Codes SCIAN 6 digits valides
  • Vocabulaire contrôlé respecté

🎯 Qualité des Données

  • Score complétude ≥ 95%
  • Variables critiques 100% complètes
  • Validations Great Expectations réussies
  • Outliers investigués et documentés
  • Formats standardisés appliqués

🏷️ Métadonnées

  • 15 éléments Dublin Core complétés
  • DOI ou UUID assignés
  • Licences spécifiées
  • DDI méthodologie documentée
  • ISO 11179 dictionnaire exhaustif

📚 Documentation

  • README.md créé
  • Dictionnaire de données (CSV)
  • Métadonnées JSON conformes
  • Data Quality Report généré
  • CHANGELOG maintenu

🔐 Conformité

  • PIA/DPIA réalisée (Loi 25/GDPR)
  • Pseudonymisation appliquée
  • Chiffrement configuré
  • RBAC en place
  • Politique de rétention définie

🚀 Déploiement

  • Environnements séparés (Dev/Staging/Prod)
  • Pipelines CI/CD configurés
  • Monitoring et alertes actifs
  • Backups automatiques
  • Plan disaster recovery testé