'Redacción de PII antes de utilizar imágenes para el entrenamiento de IA'

'PiiBlur Team'7 lectura mínima

Los equipos de IA a menudo heredan datos de imágenes del resto de la empresa: cargas de soporte, clips de cámaras de tablero, fotografías de inspección, imágenes de instalaciones, presentaciones públicas o medios de archivo. Esos datos pueden ser útiles para la capacitación o la evaluación, pero generalmente contienen personas que nunca aceptaron ser parte de un conjunto de datos modelo.

Antes de que las imágenes pasen a herramientas de anotación, grupos de entrenamiento de modelos o entornos de proveedores, elimine la PII visual. La redacción es más fácil de realizar en el límite que después de que un conjunto de datos se haya copiado en cinco sistemas posteriores.

¿Qué se considera PII visual en un conjunto de datos de IA?

Las caras y las matrículas son las categorías obvias. No son los únicos que importan.

Los conjuntos de datos de capacitación y evaluación suelen contener:

  • Rostros y cabezas en escenas de fondo.
  • Matrículas de vehículos
  • Tarjetas de identificación e identificaciones de empleados
  • Pasaportes, DNI y tarjetas de crédito.
  • Pantallas que muestran paneles, tickets, correos electrónicos o registros de pacientes
  • Pizarras blancas, documentos, etiquetas y notas escritas a mano.
  • Códigos QR y códigos de barras que codifican datos de cuentas, envíos o contactos
  • Tatuajes o marcas distintivas
  • Señales de tráfico y marcadores de ubicación.

Un conjunto de datos puede ser sensible a la privacidad incluso cuando el objetivo del modelo no es una persona. Un modelo de daños en la carretera todavía captura placas. Un modelo de estantería minorista todavía atrae a los compradores. Un modelo de inspección de viviendas todavía captura fotografías familiares, correo y documentos sobre un escritorio.

Poner la redacción antes de la anotación

La secuencia más segura es:

  1. Ingerir medios sin procesar en un almacenamiento restringido.
  2. Ejecute la redacción automatizada.
  3. Almacene los derivados redactados en un depósito de conjunto de datos separado.
  4. Envíe únicamente archivos redactados para anotación, capacitación y evaluación.
  5. Mantenga los originales sin procesar bajo una política de retención más corta.

No espere hasta después de la anotación. Los proveedores de etiquetado, contratistas y revisores internos pueden ver todo en el marco. Si una imagen contiene una cara, una placa, una insignia o un documento, la exposición a la privacidad ya se habrá producido cuando alguien dibuje el primer cuadro delimitador.

Mantenga los originales y los datos de entrenamiento separados

Utilice diferentes depósitos, prefijos o cuentas de almacenamiento para medios sin editar y redactados:

s3://restricted-raw-media/fleet/2026/06/08/clip-001.mp4
s3://ml-redacted-datasets/fleet/2026/06/08/clip-001.mp4

Brinde acceso a las herramientas de anotación y a los trabajos de capacitación de modelos solo a la ubicación redactada. Si el trabajo de entrenamiento no puede leer los originales, un cambio de configuración accidental no puede filtrar medios sin procesar a los artefactos del modelo.

Elija categorías según la tarea modelo

Redactar la PII que no esté relacionada con el objetivo del modelo.

Modelos de calles o mapas. Redactar caras y matrículas de forma predeterminada. Decida si las señales de tráfico deben permanecer según el propósito del modelo. Un modelo de navegación puede necesitar texto de señalización; un modelo de condición del pavimento probablemente no.

Modelos de seguros y reclamaciones. Redactar rostros, placas, documentos, tarjetas de identificación, pantallas y tarjetas de crédito. Las fotografías de daños frecuentemente incluyen información no relacionada sobre propiedad, correo y vehículos.

Modelos minoristas y de instalaciones. Redactar rostros, credenciales, pantallas, documentos y escritura visible. Las cámaras de las tiendas y clínicas captan más información interna de la que esperan los equipos.

Modelos de imágenes del hogar y bienes raíces. Redactar rostros, matrículas, documentos, pantallas y señales de tráfico. Las tomas de interiores suelen incluir correo, diplomas, fotografías familiares y pantallas de dispositivos.

Si la categoría de PII es parte del objetivo del modelo, utilice una revisión de privacidad antes de decidir. Por ejemplo, un modelo de reconocimiento de matrículas no puede entrenarse en matrículas completamente borrosas, pero ese proyecto tiene una carga de consentimiento y gobernanza muy diferente a la de un clasificador de imágenes genérico.

Preservar la utilidad del conjunto de datos

La redacción cambia los píxeles. Ese es el punto, pero el cambio puede afectar el rendimiento del modelo si redacta de manera demasiado amplia.

Un enfoque práctico:

  • Redactar sólo categorías de PII seleccionadas, no imágenes completas.
  • Mantenga estables las opciones de categorías dentro de una versión de conjunto de datos.
  • Guarde la configuración de redacción con los metadatos del conjunto de datos.
  • Realizar una pequeña evaluación antes y después de la redacción.
  • Compare las métricas del modelo sobre la tarea que realmente le interesa.

Si la redacción perjudica el rendimiento, inspeccione los ejemplos. El problema puede ser que una categoría sea demasiado amplia para el caso de uso, no que la redacción sea incorrecta. Por ejemplo, la redacción de señales de tráfico puede perjudicar un modelo de reconocimiento de señales de tráfico, pero no tiene ningún efecto mensurable en un modelo de defectos en la superficie de la carretera.

Versione sus conjuntos de datos redactados

Trate la configuración de redacción como parte del control de versiones del conjunto de datos.

Registro:

  • Versión del conjunto de datos fuente
  • Fecha de redacción
  • Categorías de PII seleccionadas
  • Método de redacción
  • Procesamiento de identificaciones de trabajos
  • Resultados de la revisión de muestreo
  • Limitaciones conocidas

Esto importa más adelante. Si el comportamiento de un modelo cambia, necesita saber si los datos de entrenamiento cambiaron debido a nuevas etiquetas, nuevas imágenes, nuevas configuraciones de redacción o las tres cosas.

Utilice revisión de muestreo, no confianza ciega

La redacción automatizada debería reducir la exposición, no eliminar la responsabilidad. Cree un paso de revisión en la creación del conjunto de datos.

Para un conjunto de datos pequeño, revise cada archivo. Para un conjunto de datos grande, muestre suficientes archivos para detectar patrones:

  • Imágenes con poca luz
  • Desenfoque de movimiento
  • Imágenes gran angular u ojo de pez
  • Pequeñas caras distantes
  • Pantallas reflectantes
  • Escenas callejeras densas.
  • Escaneos o fotografías de documentos.

Seguimiento de errores por categoría. Si las placas se omiten constantemente en el metraje nocturno, ajuste el flujo de trabajo antes de que el conjunto de datos avance.

La retención importa

La redacción no responde a todas las preguntas sobre privacidad. Aún necesita una política de retención para los medios de origen sin formato.

Preguntar:

  • ¿Por qué necesitamos conservar el original?
  • ¿Quién puede acceder a él?
  • ¿Cuándo se elimina?
  • ¿Pueden los equipos posteriores hacer su trabajo a partir del derivado redactado?
  • ¿Las copias de seguridad y las réplicas están cubiertas por la misma política?

Muchos equipos conservan los medios sin editar para siempre porque nadie es propietario de la eliminación. Se trata de un error de proceso, no de un requisito técnico.

Automatizar el flujo de trabajo

El PiiBlur API está diseñado para este paso límite. Cargue archivos de origen, seleccione categorías, reciba un webhook cuando se complete el procesamiento y escriba resultados redactados en el depósito del conjunto de datos.

Para conjuntos de datos de imágenes, comience con API de redacción de imágenes. Para videoclips, utilice API de redacción de vídeos. Si su conjunto de datos contiene principalmente personas o vehículos, los ejemplos API de desenfoque facial y API de desenfoque de matrícula cubren la forma de solicitud común.