Como Ankur menciona en su respuesta, esto parece ser todavía un área activa de investigación - encontró sólo una de las implementaciones publicadas en Github. El código para el mejor modelo Lipnet, no está disponible.
- Lipnet: end to end sentence level lip reading, ICLR 2017 Este parece ser el trabajo más reciente en esta área - presentado para la conferencia