'Schwärzen personenbezogener Daten vor der Verwendung von Bildern für das KI-Training'
KI-Teams übernehmen häufig Bilddaten vom Rest des Unternehmens: Support-Uploads, Dashcam-Clips, Inspektionsfotos, Anlagenaufnahmen, öffentliche Einreichungen oder Archivmedien. Diese Daten können für das Training oder die Evaluierung nützlich sein, enthalten jedoch normalerweise Personen, die nie zugestimmt haben, Teil eines Modelldatensatzes zu sein.
Entfernen Sie visuelle PII, bevor Bilder in Anmerkungstools, Modelltrainings-Buckets oder Anbieterumgebungen verschoben werden. Die Schwärzung ist an der Grenze einfacher durchzuführen als nachdem ein Datensatz in fünf nachgelagerte Systeme kopiert wurde.
Was zählt als visuelle PII in einem KI-Datensatz?
Gesichter und Nummernschilder sind die offensichtlichen Kategorien. Sie sind nicht die einzigen, die wichtig sind.
Trainings- und Bewertungsdatensätze enthalten häufig:
- Gesichter und Köpfe in Hintergrundszenen
- Kfz-Kennzeichen
- Namensschilder und Mitarbeiterausweise
- Reisepässe, Personalausweise und Kreditkarten
- Bildschirme mit Dashboards, Tickets, E-Mails oder Patientenakten
- Whiteboards, Dokumente, Etiketten und handschriftliche Notizen
- QR-Codes und Barcodes, die Konto-, Sendungs- oder Kontaktdaten verschlüsseln
- Tätowierungen oder markante Markierungen
- Straßenschilder und Standortmarkierungen
Ein Datensatz kann datenschutzrelevant sein, selbst wenn das Modellziel keine Person ist. Ein Straßenschadensmodell erfasst immer noch Kennzeichen. Ein Einzelhandelsregalmodell fasziniert immer noch Käufer. Ein Hausinspektionsmodell erfasst immer noch Familienfotos, Post und Dokumente auf einem Schreibtisch.
Schwärzung vor Anmerkung setzen
Die sicherste Reihenfolge ist:
- Nehmen Sie Rohmedien in einen eingeschränkten Speicher auf.
- Führen Sie die automatische Schwärzung durch.
- Speichern Sie geschwärzte Ableitungen in einem separaten Datensatz-Bucket.
- Senden Sie nur redigierte Dateien zur Kommentierung, Schulung und Auswertung.
- Bewahren Sie die Rohoriginale im Rahmen einer kürzeren Aufbewahrungsfrist auf.
Warten Sie nicht bis nach der Anmerkung. Etikettierende Anbieter, Auftragnehmer und interne Prüfer sehen möglicherweise alles im Rahmen. Wenn ein Bild ein Gesicht, ein Schild, ein Abzeichen oder ein Dokument enthält, ist die Privatsphäre bereits gefährdet, wenn jemand den ersten Begrenzungsrahmen zeichnet.
Halten Sie Originale und Trainingsdaten getrennt
Verwenden Sie unterschiedliche Buckets, Präfixe oder Speicherkonten für Roh- und redigierte Medien:
s3://restricted-raw-media/fleet/2026/06/08/clip-001.mp4
s3://ml-redacted-datasets/fleet/2026/06/08/clip-001.mp4
Gewähren Sie Anmerkungstools und Modelltrainingsjobs nur Zugriff auf den geschwärzten Speicherort. Wenn der Trainingsjob die Originale nicht lesen kann, kann eine versehentliche Konfigurationsänderung nicht dazu führen, dass Rohdaten in Modellartefakte gelangen.
Wählen Sie Kategorien basierend auf der Modellaufgabe
Schwärzen Sie die personenbezogenen Daten, die nichts mit dem Modellziel zu tun haben.
Straßen- oder Kartenmodelle. Gesichter und Nummernschilder standardmäßig schwärzen. Entscheiden Sie anhand des Zwecks des Modells, ob Straßenschilder erhalten bleiben sollen. Ein Navigationsmodell benötigt möglicherweise Zeichentext; Bei einem Modell mit Straßenbelagszustand ist dies wahrscheinlich nicht der Fall.Versicherungs- und Schadensersatzmodelle. Schwärzen Sie Gesichter, Kennzeichen, Dokumente, Ausweise, Bildschirme und Kreditkarten. Schadensfotos enthalten häufig nicht relevante Eigentums-, Post- und Fahrzeuginformationen.Einzelhandels- und Einrichtungsmodelle. Schwärzen Sie Gesichter, Namensschilder, Bildschirme, Dokumente und sichtbare Schrift. Kameras in Geschäften und Kliniken erfassen mehr interne Informationen, als die Teams erwarten.Immobilien- und Hausbildmodelle. Gesichter, Nummernschilder, Dokumente, Bildschirme und Straßenschilder schwärzen. Innenaufnahmen umfassen oft Post, Diplome, Familienfotos und Gerätebildschirme.
Wenn die PII-Kategorie Teil des Modellziels ist, führen Sie vor Ihrer Entscheidung eine Datenschutzprüfung durch. Beispielsweise kann ein Nummernschilderkennungsmodell nicht auf vollständig unscharfen Nummernschildern trainiert werden, aber dieses Projekt hat eine ganz andere Zustimmungs- und Governance-Belastung als ein generischer Bildklassifikator.
Bewahren Sie die Nützlichkeit des Datensatzes
Durch die Schwärzung werden Pixel verändert. Das ist der Punkt, aber die Änderung kann sich auf die Modellleistung auswirken, wenn Sie zu weit gehen.
Ein praktischer Ansatz:
- Schwärzen Sie nur ausgewählte PII-Kategorien, nicht ganze Bilder.
- Halten Sie die Kategorieauswahl innerhalb einer Datensatzversion stabil.
- Speichern Sie die Schwärzungseinstellungen mit den Metadaten des Datensatzes.
- Führen Sie vor und nach der Schwärzung eine kleine Bewertung durch.
- Vergleichen Sie Modellmetriken für die Aufgabe, die Sie tatsächlich interessiert.
Wenn die Schwärzung die Leistung beeinträchtigt, prüfen Sie die Beispiele. Das Problem liegt möglicherweise darin, dass eine Kategorie für den Anwendungsfall zu weit gefasst ist, und nicht darin, dass die Schwärzung falsch ist. Beispielsweise kann das Schwärzen von Straßenschildern einem Straßenschild-Erkennungsmodell schaden, hat aber keine messbaren Auswirkungen auf ein Modell von Straßenoberflächenfehlern.
Versionieren Sie Ihre redigierten Datensätze
Behandeln Sie Schwärzungseinstellungen als Teil der Datensatzversionierung.
Aufnahme:
- Version des Quelldatensatzes
- Redaktionsdatum
- PII-Kategorien ausgewählt
- Schwärzungsmethode
- Verarbeitung von Job-IDs
- Stichprobenprüfungsergebnisse
- Bekannte Einschränkungen
Das ist später wichtig. Wenn sich das Verhalten eines Modells ändert, müssen Sie wissen, ob sich die Trainingsdaten aufgrund neuer Beschriftungen, neuer Bilder, neuer Schwärzungseinstellungen oder aller drei geändert haben.
Nutzen Sie eine Stichprobenprüfung, kein blindes Vertrauen
Durch die automatisierte Schwärzung soll die Offenlegung verringert und nicht die Verantwortlichkeit aufgehoben werden. Bauen Sie einen Überprüfungsschritt in die Datensatzerstellung ein.
Überprüfen Sie bei einem kleinen Datensatz jede Datei. Probieren Sie für einen großen Datensatz genügend Dateien aus, um Muster zu erkennen:
- Aufnahmen bei schlechten Lichtverhältnissen
- Bewegungsunschärfe
- Weitwinkel- oder Fischaugenbilder
- Kleine entfernte Gesichter
- Reflektierende Bildschirme
- Dichte Straßenszenen
- Scans oder Fotos von Dokumenten
Verfolgen Sie Fehler nach Kategorie. Wenn in Nachtaufnahmen ständig Kennzeichen fehlen, passen Sie den Arbeitsablauf an, bevor der Datensatz nachgelagert verschoben wird.
Aufbewahrung ist wichtig
Redaction beantwortet nicht jede Datenschutzfrage. Sie benötigen weiterhin eine Aufbewahrungsrichtlinie für die Rohquellmedien.
Fragen Sie:
- Warum müssen wir das Original behalten?
- Wer kann darauf zugreifen?
- Wann wird es gelöscht?
- Können nachgelagerte Teams ihre Arbeit anhand des redigierten Derivats erledigen?
- Sind Backups und Replikate von derselben Richtlinie abgedeckt?
Viele Teams bewahren Rohdaten für immer auf, da niemand für die Löschung zuständig ist. Das ist ein Prozessfehler, keine technische Anforderung.
Automatisierung des Workflows
Der PiiBlur-API ist für diesen Grenzschritt konzipiert. Laden Sie Quelldateien hoch, wählen Sie Kategorien aus, erhalten Sie einen Webhook, wenn die Verarbeitung abgeschlossen ist, und schreiben Sie redigierte Ausgaben in den Datensatz-Bucket.
Beginnen Sie für Bilddatensätze mit Bildredaktions-API. Verwenden Sie für Videoclips das Video-Redaktions-API. Wenn Ihr Datensatz hauptsächlich Personen oder Fahrzeuge enthält, decken die Beispiele Gesichtsunschärfe-API und API zum Verwischen von Nummernschildern die allgemeine Anforderungsform ab.