Dependiendo de si quieres anotar un vídeo con subtítulos y emoji bonitos (por ejemplo, para ponerlo en youtube), o si quieres anotar objetos o eventos en el vídeo con el propósito de usar los datos anotados para entrenar algoritmos de aprendizaje automático, tienes que elegir entre los dos tipos de respuestas que se muestran a continuación.
Para el propósito del aprendizaje automático, estas anotaciones suelen consumir mucho tiempo. (Por ejemplo, una startup de autoconducción mencionó en un podcast que por cada hora de conducción, invierten más de 600 horas en anotar los datos recogidos). Por lo tanto, la elección de la herramienta de anotación puede tener un enorme coste de tiempo. La anotación de imágenes es mucho más sencilla que la de vídeo: el vídeo es una estructura de datos compleja, y todo en él es más difícil. Para hacer anotaciones en vídeo, hay que manejar códecs y reproductores de vídeo incompatibles, sincronizar las anotaciones entre fotogramas, hacer un seguimiento de múltiples objetos anotados con estados variables a lo largo de múltiples fotogramas, y diseñar la UX para permitir operaciones complejas. Por si fuera poco, en un minuto de vídeo hay 1.800 imágenes que deben ser anotadas. En nuestro caso particular de autoconducción, utilizamos Tasq.
GUÍA PARA ANOTACIÓN DE VÍDEOS PARA EL APRENDIZAJE MÁQUINA. AQUÍ ESTÁ LO MÁS DESTACADO:
Si estás buscando anotar vídeos para un conjunto de datos de entrenamiento de ML, ¿cuáles son tus opciones? Aquí las tienes, de peor a mejor.
- Elige una muestra de tus vídeos, extrae todos los fotogramas y anótalos como imágenes. Le recomendamos que no haga esto, ya que está perdiendo todos los beneficios inherentes al formato de vídeo, al tiempo que incurre en el coste de anotar un gran número de imágenes. Incluso si se utiliza un equipo de anotadores, este enfoque no es eficiente.
- Tome algunos vídeos, consiga una herramienta de anotación de vídeo y haga un esfuerzo personal durante unos días para anotarlos (como vídeos). Es probable que esto no funcione. Incluso un video corto puede tomar muchas horas para anotar.
- Utilizar un conjunto de datos relevantes disponibles para el entrenamiento. Dependiendo de su problema específico y de la similitud de sus datos con el conjunto de datos de entrenamiento disponible, este es un gran atajo a tomar. Si tiene esta opción, hágala.
- Elija una muestra de sus vídeos, consiga una herramienta de anotación de vídeos, contrate a un equipo interno/remoto y anótelos (como vídeos). Esto puede funcionar. Siga leyendo para conocer las herramientas de anotación.
Si decide utilizar una herramienta de anotación de vídeo, estas son las características importantes que debe tener en cuenta en las herramientas que evalúe:
- Anotar los fotogramas clave. Hay 1.800 fotogramas por minuto en un vídeo de 30 fps, pero los fotogramas posteriores suelen estar correlacionados: no querrá (ni tendrá que) anotar todos y cada uno de los fotogramas desde cero. Como mínimo, es necesario anotar los fotogramas clave e interpolar entre ellos.
- Formato de vídeo nativo. No es necesario extraer todos los fotogramas del vídeo para poder anotarlos – si su herramienta necesita este paso, es una señal segura de que esta herramienta está, de hecho, anotando imágenes y no vídeos.
- Seguimiento e integración de ML. El seguimiento automatizado de los objetos anotados (por ejemplo, utilizando el flujo óptico) puede ahorrar mucho tiempo en las anotaciones. La posibilidad de utilizar las predicciones de los modelos de aprendizaje automático para las anotaciones iniciales (que serán corregidas por los expertos) es otro ahorro de tiempo. Las herramientas que utilizan el aprendizaje activo, donde el anotador está esencialmente enseñando el modelo de ML, pueden ser especialmente útiles.
- Identificaciones coherentes. Cuando hay más de un objeto anotado, los objetos deben tener IDs consistentes durante la duración del video. Esto es útil cada vez que se quiera hacer un seguimiento de los objetos a lo largo de un vídeo, y se convierte en algo crucial si los objetos entran y salen del cuadro durante el vídeo.
- Anotación distribuida. Anotar cada minuto de un vídeo puede llevar horas. La opción de compartir la carga de trabajo de anotación entre un equipo de trabajadores es extremadamente beneficiosa. El proceso de instalación y configuración para cada trabajador, si es que lo hay, debe ser mínimo.
- Segmentación de vídeos largos. Otro aspecto de la distribución de una gran carga de trabajo es la capacidad de dividir vídeos largos en segmentos más cortos (cada segmento puede ser anotado por diferentes trabajadores), y luego fusionar las anotaciones resultantes, con una calidad consistente.
- Múltiples anotadores. Compare y fusione múltiples anotaciones de varios trabajadores en el mismo segmento de vídeo, para reducir los errores de anotación y mejorar la calidad.
- Etiquetas personalizadas. ¿Puede personalizar las herramientas de anotación para añadir sus propias etiquetas?
- Atributos personalizados. ¿Puede personalizar las herramientas de anotación para añadir atributos personalizados a los objetos (por ejemplo, el color del semáforo)?
- Tipos de anotación. ¿Tiene lo que necesita? Cuadros delimitadores (BBOX), líneas, círculos, puntos, cuadros 3D.
.