'Rédaction des informations personnelles avant d'utiliser des images pour la formation en IA'

'PiiBlur Team'8 lecture min.

Les équipes d'IA héritent souvent des données d'image du reste de l'entreprise : téléchargements d'assistance, clips de dashcam, photos d'inspection, images d'installations, soumissions publiques ou supports d'archives. Ces données peuvent être utiles pour la formation ou l'évaluation, mais elles contiennent généralement des personnes qui n'ont jamais accepté de faire partie d'un ensemble de données modèle.

Avant que les images ne soient transférées dans des outils d'annotation, des compartiments de formation de modèles ou des environnements de fournisseurs, supprimez les informations personnelles visuelles. La rédaction est plus facile à effectuer à la frontière qu'après qu'un ensemble de données a été copié dans cinq systèmes en aval.

Qu'est-ce qui compte comme informations personnelles visuelles dans un ensemble de données d'IA ?

Les visages et les plaques d’immatriculation sont les catégories évidentes. Ils ne sont pas les seuls à compter.

Les ensembles de données de formation et d’évaluation contiennent souvent :

  • Visages et têtes dans les scènes d'arrière-plan
  • Plaques d'immatriculation des véhicules
  • Badges nominatifs et identifiants d'employés
  • Passeports, cartes d'identité et cartes de crédit
  • Écrans affichant des tableaux de bord, des tickets, des e-mails ou des dossiers patients
  • Tableaux blancs, documents, étiquettes et notes manuscrites
  • Codes QR et codes-barres qui encodent les données de compte, d'expédition ou de contact
  • Tatouages ​​ou signes distinctifs
  • Panneaux de signalisation et marqueurs de localisation

Un ensemble de données peut être sensible à la confidentialité même lorsque la cible du modèle n'est pas une personne. Un modèle de dommages routiers capture toujours les plaques. Un modèle de rayonnage de vente au détail captive toujours les acheteurs. Un modèle d'inspection de maison capture toujours des photos de famille, du courrier et des documents sur un bureau.

Mettre la rédaction avant l'annotation

La séquence la plus sûre est :

  1. Ingérez des médias bruts dans un stockage restreint.
  2. Exécutez la rédaction automatique.
  3. Stockez les dérivés expurgés dans un compartiment d'ensemble de données distinct.
  4. Envoyez uniquement les fichiers rédigés pour annotation, formation et évaluation.
  5. Conservez les originaux bruts selon une politique de conservation plus courte.

N'attendez pas après l'annotation. Les fournisseurs d'étiquetage, les sous-traitants et les réviseurs internes peuvent tout voir dans le cadre. Si une image contient un visage, une plaque, un badge ou un document, la violation de la vie privée s'est déjà produite au moment où quelqu'un dessine le premier cadre de délimitation.

Gardez les originaux et les données d'entraînement séparés

Utilisez différents compartiments, préfixes ou comptes de stockage pour les médias bruts et rédigés :

s3://restricted-raw-media/fleet/2026/06/08/clip-001.mp4
s3://ml-redacted-datasets/fleet/2026/06/08/clip-001.mp4

Accordez aux outils d’annotation et aux tâches de formation de modèles un accès uniquement à l’emplacement rédigé. Si la tâche de formation ne peut pas lire les originaux, une modification accidentelle de la configuration ne peut pas divulguer de médias bruts dans les artefacts du modèle.

Choisissez des catégories en fonction de la tâche modèle

Rédigez les informations personnelles qui n'ont aucun rapport avec l'objectif du modèle.

Modèles de rue ou de cartographie. Rédigez les visages et les plaques d'immatriculation par défaut. Décidez si les panneaux de signalisation doivent rester en fonction de l'objectif du modèle. Un modèle de navigation peut nécessiter un texte de signe ; ce n’est probablement pas le cas d’un modèle basé sur l’état de la chaussée.

Modèles d'assurance et de réclamations. Rédigez des visages, des plaques, des documents, des cartes d'identité, des écrans et des cartes de crédit. Les photos de dommages incluent souvent des informations sur des biens, du courrier et des véhicules sans rapport.

Modèles de vente au détail et d'installations. Rédigez des visages, des badges nominatifs, des écrans, des documents et des écritures visibles. Les caméras des magasins et des cliniques captent plus d’informations internes que ce à quoi les équipes s’attendent.

Modèles d'imagerie immobilière et résidentielle. Rédigez des visages, des plaques d'immatriculation, des documents, des écrans et des panneaux de signalisation. Les photos intérieures incluent souvent du courrier, des diplômes, des photos de famille et des écrans d'appareils.

Si la catégorie PII fait partie de la cible du modèle, utilisez un examen de confidentialité avant de prendre une décision. Par exemple, un modèle de reconnaissance de plaques d'immatriculation ne peut pas s'entraîner sur des plaques entièrement floues, mais ce projet a un fardeau de consentement et de gouvernance très différent de celui d'un classificateur d'images générique.

Préserver l'utilité de l'ensemble de données

La rédaction change les pixels. C'est là le point, mais le changement peut affecter les performances du modèle si vous rédigez un texte trop large.

Une approche pratique :

  • Rédigez uniquement les catégories PII sélectionnées, pas les images entières.
  • Gardez les choix de catégories stables dans une version d'ensemble de données.
  • Enregistrez les paramètres de rédaction avec les métadonnées de l'ensemble de données.
  • Exécutez une petite évaluation avant et après la rédaction.
  • Comparez les métriques du modèle sur la tâche qui vous intéresse réellement.

Si la rédaction nuit aux performances, inspectez les exemples. Le problème vient peut-être du fait qu'une catégorie est trop large pour le cas d'utilisation, et non que la rédaction soit erronée. Par exemple, la suppression des panneaux de signalisation peut nuire à un modèle de reconnaissance des panneaux de signalisation, mais n'a aucun effet mesurable sur un modèle de défauts de revêtement routier.

Versionnez vos ensembles de données expurgés

Traitez les paramètres de rédaction dans le cadre de la gestion des versions des ensembles de données.

Enregistrer:

  • Version de l'ensemble de données source
  • Date de rédaction
  • Catégories PII sélectionnées
  • Méthode de rédaction
  • Traitement des identifiants de tâches
  • Résultats de l'examen d'échantillonnage
  • Limites connues

Cela compte plus tard. Si le comportement d'un modèle change, vous devez savoir si les données d'entraînement ont changé en raison de nouvelles étiquettes, de nouvelles images, de nouveaux paramètres de rédaction ou des trois.

Utilisez l'examen par échantillonnage, pas la confiance aveugle

La rédaction automatisée devrait réduire l’exposition et non supprimer la responsabilité. Créez une étape de révision dans la création d’un ensemble de données.

Pour un petit ensemble de données, examinez chaque fichier. Pour un ensemble de données volumineux, échantillonnez suffisamment de fichiers pour détecter des modèles :

  • Images en basse lumière
  • Flou de mouvement
  • Images grand angle ou fisheye
  • Petits visages lointains
  • Écrans réfléchissants
  • Scènes de rue denses
  • Scans ou photos de documents

Suivez les échecs par catégorie. Si des plaques sont systématiquement manquées dans les images de nuit, ajustez le flux de travail avant que l'ensemble de données ne se déplace vers le bas.

La rétention est importante

La rédaction ne répond pas à toutes les questions relatives à la confidentialité. Vous avez toujours besoin d'une politique de conservation pour les médias sources bruts.

Demander:

  • Pourquoi devons-nous conserver l'original ?
  • Qui peut y accéder ?
  • Quand est-il supprimé ?
  • Les équipes en aval peuvent-elles faire leur travail à partir du dérivé rédigé ?
  • Les sauvegardes et les répliques sont-elles couvertes par la même politique ?

De nombreuses équipes conservent les médias bruts pour toujours parce que personne n'est propriétaire de la suppression. Il s'agit d'un bug de processus, pas d'une exigence technique.

Automatisation du flux de travail

Le API PiiBlur est conçu pour cette étape limite. Téléchargez des fichiers sources, sélectionnez des catégories, recevez un webhook une fois le traitement terminé et écrivez les sorties rédigées dans le compartiment de l'ensemble de données.

Pour les ensembles de données d’images, commencez par API de rédaction d'images. Pour les clips vidéo, utilisez le API de rédaction vidéo. Si votre ensemble de données contient principalement des personnes ou des véhicules, les exemples API de flou de visage et API de flou de plaque d'immatriculation couvrent la forme de requête courante.