¿Existe algún programa informático que pueda leer los labios de un vídeo?

Como Ankur menciona en su respuesta, esto parece ser todavía un área activa de investigación – encontró sólo una de las implementaciones publicadas en Github. El código para el mejor modelo Lipnet, no está disponible.

  • Lipnet: end to end sentence level lip reading, ICLR 2017 Este parece ser el trabajo más reciente en esta área – presentado para la conferencia ICLR el próximo mes.
    • Lipnet afirma ser el primer modelo de lectura de labios a nivel de frase con una precisión del 95,2% en el corpus GRID superando al experimentado lector de labios humano y el estado del arte anterior que tiene una precisión del 84%.
    • El código para esto no está disponible
    • Los enlaces de vídeo muestran los resultados de este trabajo

Aquí hay otros trabajos de muestra

  • Ponderación dinámica de flujos para Turbo-Decodificación-Based Audiovisual ASR 2016 Este fue el modelo de rendimiento anterior del estado del arte 84% en el corpus GRID antes de lipnet
  • Lipreading with Long Short-Term Memory Un código de proyecto para este trabajo está disponible en Github (implementado en Keras) LipRead El rendimiento de este código es 79.6% en el mismo corpus GRID que Lipnet rinde al 95,2%
  • Lectura de labios usando CNN y LSTM Tampoco se pudo encontrar el código fuente para esto.

.