Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

¿Nos serviría tener las imágenes de los programas? #11

Open
dcabo opened this issue Feb 28, 2019 · 0 comments
Open

¿Nos serviría tener las imágenes de los programas? #11

dcabo opened this issue Feb 28, 2019 · 0 comments
Labels

Comments

@dcabo
Copy link
Member

dcabo commented Feb 28, 2019

En principio vamos a trabajar sólo con las transcripciones, pero ¿serviría de algo descargar también el vídeo, si existe, y generar los fotogramas de cada segundo? De cara a usarlos en los resultados de búsqueda. O -pero esto es ya un poco ida de olla- para hacer algo como el Frinkiac de los Simpsons.

Para ello, primero tenemos que explorar la posibilidad de descargar los vídeos de los Telediarios, que es nuestro primer caso de uso. Cogemos un Telediario cualquiera, como Aznar en la comisión de investigación de la Gürtel, Telediario de las 15h. (ID: 4743546)

Para descargar el vídeo, podemos usar youtube-dl, que soporta también la web de RTVE A la Carta. Después de instalarlo (brew install youtube-dl):

$ youtube-dl http://www.rtve.es/alacarta/videos/telediario/telediario-15-horas-18-09-18/4743546/

Son 600MB, y tarda un rato largo: no parece ser mi Wifi, igual es que están desenterrando el fichero del sotano, porque un segundo intento va considerablemente más rápido. He mirado el código de youtube-dl, pero no veo una forma de bajarme el fichero con menos calidad, y he probado -f 'worst' y ni caso, creo que no lo soporta. Y yo mirando el JSON y la web e incluso usando el Web Inspector soy incapaz de encontrar las versiones de menos calidad. (Bueno, he conseguido ver el fichero .m3u8 que se descarga al elegir calidad media (276MB), y eso se lo puedo pasar a youtube-dl, pero no sé de donde sale esa URL, así que nada.)

Pero me aparece un aviso, que dice:

WARNING: 4743546: malformed AAC bitstream detected. Install ffmpeg or avconv to fix this automatically.

y no consigo verlo en VLC con el fichero de subtítulos, parece tener algún error. Por no volver a bajarlo, ahora ya con ffmpeg instalado vía Homebrew, hago esto:

$ ffmpeg -i Telediario\ -\ 15\ horas\ -\ 18_09_18-4743546.mp4 -c copy -bsf:a aac_adtstoasc output.mp4

Ahora ya tenemos el vídeo para poder trabajar. (No lo puedo pegar aquí, pero puedo subirlo a cualquier lado para hacer pruebas si hace falta.)

Por cierto, hay tres imágenes ya preparadas por RTVE, con tres tamaños distintos, como ésta de Pablo Iglesias preguntando a Aznar. Las imágenes son distintas según el tamaño en este ejemplo concreto. También hay un thumbnail que por el nombre parece el oficial para ese programa, y que coincide con una de las tres imágenes anteriores.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

1 participant