Vamos a implementar varias arquitecturas de redes neuronales transformer preentrenadas que tienen la capacidad de resumir las imágenes, el sonido y el texto de un video para luego generar un comentario sobre este de forma automática como si fuera una persona.
Abrir desde colab he instalar las siguientes dependencias adicionales
!pip install -q pytube
!pip install -q decord
!pip install -q torchviz
!pip install -q transformers
!pip install -q sentencepiece
!pip install -q datasets
!pip3 install -q imageio==2.4.1