Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Publicar el corpus de contenido de Telediarios #96

Open
dcabo opened this issue Feb 27, 2020 · 14 comments
Open

Publicar el corpus de contenido de Telediarios #96

dcabo opened this issue Feb 27, 2020 · 14 comments

Comments

@dcabo
Copy link
Member

dcabo commented Feb 27, 2020

En paralelo a #95, que permitirá a cualquiera descargarse sus subtítulos, vamos a publicar el corpus con el que estamos trabajando, para facilitar que otros hagan los análisis que quieran.

Como solución inicial, hasta que sepamos mejor cómo se usa esto, lo más claro parece generar dos corpus: uno con los ficheros de subtítulos originales de la web de RTVE, sin más; y otro con el contenido procesado por nosotros (que ahora mismo es simplemente convertido a frases, porque la extracción de entidades de #10 no está terminada al 100%, así que no la voy a incluir ahora). Voy a generarlos a mano por ahora.

Para generar el primer fichero, corpus_raw.tar.gz, en midas:

$ cd /var/www/verba.civio.es/rtve/staging
$ tar cvzf corpus_raw.tar.gz --exclude=*output* --exclude=*cue* --exclude=*invalid* *vtt *json
$ mv corpus_raw.tar.gz ..

Para generar el corpus con el contenido por frases:

$ cd /var/www/verba.civio.es/rtve/staging
$ mkdir jq
$ cp *.json jq
$ find *.output.json -exec sh -c "jq -c '{text: .text, start_time: .start_time, end_time: .end_time}' < {} > jq/{}" \;
$ cd jq
$ tar cvzf corpus_cooked.tar.gz --exclude=*cue* *json
$ mv corpus_cooked.tar.gz ../..
$ cd ..
$ rm -rf jq

Los ficheros producidos incluyen datos del 23 de diciembre de 2013 hasta el 22 de enero de 2023, inclusive. Vamos a subirlos a Datos Civio, pero de momento los enlaces son:

¿Es este formato cómodo para los que quieren usar los datos?

@lirondos
Copy link

lirondos commented Mar 2, 2020

Pregunta: cada uno de los ficheros del corpus contiene ¿un telediario completo?

@dcabo
Copy link
Member Author

dcabo commented Mar 2, 2020

@lirondos sí, exacto. En el primero (raw), cada fichero VTT es un Telediario, en el formato original, subtítulos. En el segundo (cooked, perdonad los malos nombres), es el mismo contenido pero partido en frases.

Para cada Telediario hay un fichero con un nombre del estilo 123456.json, que tiene metadatos como el nombre del programa (“Telediario 21h”), fecha, imagen...

Si hay una forma más estándar de organizar esto me decís.

@davidhguerrero
Copy link

davidhguerrero commented Mar 18, 2020

Hola,

he empleado algún tiempo en el preprocesado de los datos y en hacer pruebas con Flair.

Tengo algunas ideas - muy experimentales todavía - para a empezar a encontrar una manera de solucionar algunas de estas cuestiones.

He tenido algunos problemas para instalar Flair en local. Estoy trabajando con Kaggel. Tiene inconvenientes, pero también tiene ventajas =). Si alguien necesita resolver algún aspecto del preprocesado de las noticias ejecutar su código o experimentar con Flair, le comparto el Notebook =).

He leido que @DiegoVicen ha trabajado en mejorar la precisión de la segmentación en bloques
. No se se si hay alguien mas trabajando en encontrar algún mecanismo que permita agrupar por temáticas los textos del Telediario.

@dcabo con el preprocesado y lo que he empezado a jugar con Flair, estoy en condiciones de empezar a trabajar cualquiera de las cuestiones que planteabas, no se cual puede ser mas prioritaria =).

Saludos

@palmerabollo
Copy link
Contributor

Hola. Los enlaces de dropbox ya no están disponibles y no he encontrado los datos en Datos Civio. ¿Sabéis si están disponibles en algún sitio y cómo importarlos en mi elasticsearch local para cacharrear?

@dcabo
Copy link
Member Author

dcabo commented Dec 26, 2020

Hola, Guido. Perdona, que no le he podido dedicar nada de tiempo a Verba desde que empezó el virus y lo de los corpus sigue estando cogido con pinzas. Acabo de actualizar los enlaces al principio del issue, apuntando a corpus con datos de hasta ayer. Cualquier cosa me dices.

@luisignaciomenendez
Copy link

Hola! Sería posible descargar el corpus actualizado a día de hoy?

Muchas gracias de antemano :)

@dcabo
Copy link
Member Author

dcabo commented Oct 17, 2022

Hola, @luisignaciomenendez. Acabo de actualizar los ficheros en la entrada original. Cualquier problema me dices. Si acabas usando esto para algún paper o similar, dinos, por favor, nos gusta conocer posibles aplicaciones de los datos.

@luisignaciomenendez
Copy link

Sin duda! De momento es todo muy preliminar así que aún no puede llamarse proyecto. En cuanto tengamos algo más encauzado os diremos sin falta. Muchas gracias David

@rubiojr
Copy link

rubiojr commented Oct 8, 2024

¿Es este formato cómodo para los que quieren usar los datos?

Por no marearos pidiendo copias actualizadas, he empezado un pequeño proyectillo (https://github.com/rubiojr/verba-go) para poder tener una copia local de los datos y realizar busquedas locales. Depende de que verba.civio.es esté en pié, pero la sincronización con los scripts del repository es eficiente para que solo actualice el contenido nuevo diario.

De momento solo hay algun script para sincronizar los contenidos localmente y poder buscar en una base de datos local, pero llevo idea de publicar una re-implementacion (compatible) del API en Go sin dependencia de Elasticsearch, y publicar el servicio.

Los datos y la idea de Verba, son fantasticos. Gracias por compartir 😃 .

Espero que a alguien le sirva de ayuda 🚀

@dcabo
Copy link
Member Author

dcabo commented Oct 9, 2024

Pues estupendo, Sergio. Si necesitas cualquier cosa me dices. Verba se nos quedó un poco a medias, porque queríamos añadir funcionalidad en plan topic modelling y nos liamos con otras cosas, pero me alegro de que te sirva. Y eso, cualquier cosa aquí estamos.

@rubiojr
Copy link

rubiojr commented Oct 9, 2024

@dcabo esta genial la app, adoro la interface.

De momento estoy cacharreando un poco solo. No veo las noticias 🙈, pero no me importa pasarlas por un LLM y que me de un sumario para empezar el dia 😺. Los transcripts son una fuente de datos que lo facilita. Los sumarios de algunos LLMs salen bastante decentes.

Mi idea es volver a montar el frontend sobre un backend algo menos oneroso, para poder dejarlo en un VPS que me cueste no mas de un par de cafes al mes.

@dcabo
Copy link
Member Author

dcabo commented Oct 15, 2024

La interfaz es cosa de @carmen-tm, le alegrará oir que te gusta.

Lo de Elastic sí que es un poco grande para arrancar, sí. Tenía sentido porque queríamos hacer más cosas, pero nos quedamos a medias. Pero la gente de Elastic se portó muy bien y nos dio alojamiento en su nube, así que eso que nos ahorramos.

Lo dicho, cualquier cosa aquí estamos.

@davidhguerrero
Copy link

davidhguerrero commented Oct 25, 2024 via email

@rubiojr
Copy link

rubiojr commented Oct 25, 2024

Gracias @davidhguerrero 🙇. Al final me decidí por implementar un pequeño api server que implementa (parte de) el API de Verba y sincroniza el corpus una vez al día desde verba.civio.es. Está corriendo en https://verba.rbel.co actualmente 🚀

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

6 participants