-
Notifications
You must be signed in to change notification settings - Fork 5
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Publicar el corpus de contenido de Telediarios #96
Comments
Pregunta: cada uno de los ficheros del corpus contiene ¿un telediario completo? |
@lirondos sí, exacto. En el primero (raw), cada fichero VTT es un Telediario, en el formato original, subtítulos. En el segundo (cooked, perdonad los malos nombres), es el mismo contenido pero partido en frases. Para cada Telediario hay un fichero con un nombre del estilo 123456.json, que tiene metadatos como el nombre del programa (“Telediario 21h”), fecha, imagen... Si hay una forma más estándar de organizar esto me decís. |
Hola, he empleado algún tiempo en el preprocesado de los datos y en hacer pruebas con Flair. Tengo algunas ideas - muy experimentales todavía - para a empezar a encontrar una manera de solucionar algunas de estas cuestiones. He tenido algunos problemas para instalar Flair en local. Estoy trabajando con Kaggel. Tiene inconvenientes, pero también tiene ventajas =). Si alguien necesita resolver algún aspecto del preprocesado de las noticias ejecutar su código o experimentar con Flair, le comparto el Notebook =). He leido que @DiegoVicen ha trabajado en mejorar la precisión de la segmentación en bloques @dcabo con el preprocesado y lo que he empezado a jugar con Flair, estoy en condiciones de empezar a trabajar cualquiera de las cuestiones que planteabas, no se cual puede ser mas prioritaria =). Saludos |
Hola. Los enlaces de dropbox ya no están disponibles y no he encontrado los datos en Datos Civio. ¿Sabéis si están disponibles en algún sitio y cómo importarlos en mi elasticsearch local para cacharrear? |
Hola, Guido. Perdona, que no le he podido dedicar nada de tiempo a Verba desde que empezó el virus y lo de los corpus sigue estando cogido con pinzas. Acabo de actualizar los enlaces al principio del issue, apuntando a corpus con datos de hasta ayer. Cualquier cosa me dices. |
Hola! Sería posible descargar el corpus actualizado a día de hoy? Muchas gracias de antemano :) |
Hola, @luisignaciomenendez. Acabo de actualizar los ficheros en la entrada original. Cualquier problema me dices. Si acabas usando esto para algún paper o similar, dinos, por favor, nos gusta conocer posibles aplicaciones de los datos. |
Sin duda! De momento es todo muy preliminar así que aún no puede llamarse proyecto. En cuanto tengamos algo más encauzado os diremos sin falta. Muchas gracias David |
Por no marearos pidiendo copias actualizadas, he empezado un pequeño proyectillo (https://github.com/rubiojr/verba-go) para poder tener una copia local de los datos y realizar busquedas locales. Depende de que De momento solo hay algun script para sincronizar los contenidos localmente y poder buscar en una base de datos local, pero llevo idea de publicar una re-implementacion (compatible) del API en Go sin dependencia de Elasticsearch, y publicar el servicio. Los datos y la idea de Verba, son fantasticos. Gracias por compartir 😃 . Espero que a alguien le sirva de ayuda 🚀 |
Pues estupendo, Sergio. Si necesitas cualquier cosa me dices. Verba se nos quedó un poco a medias, porque queríamos añadir funcionalidad en plan topic modelling y nos liamos con otras cosas, pero me alegro de que te sirva. Y eso, cualquier cosa aquí estamos. |
@dcabo esta genial la app, adoro la interface. De momento estoy cacharreando un poco solo. No veo las noticias 🙈, pero no me importa pasarlas por un LLM y que me de un sumario para empezar el dia 😺. Los transcripts son una fuente de datos que lo facilita. Los sumarios de algunos LLMs salen bastante decentes. Mi idea es volver a montar el frontend sobre un backend algo menos oneroso, para poder dejarlo en un VPS que me cueste no mas de un par de cafes al mes. |
La interfaz es cosa de @carmen-tm, le alegrará oir que te gusta. Lo de Elastic sí que es un poco grande para arrancar, sí. Tenía sentido porque queríamos hacer más cosas, pero nos quedamos a medias. Pero la gente de Elastic se portó muy bien y nos dio alojamiento en su nube, así que eso que nos ahorramos. Lo dicho, cualquier cosa aquí estamos. |
Hola Sergio,
hace algún tiempo, estructuré los datos y los subí a Kaggle, por si pudiera ser de alguna ayuda =)
https://www.kaggle.com/datasets/davidhguerrero/total-dataset-tve
Aunque no dispongo de mucho tiempo, si necesitas cualquier cosa, también puedes contactarme.
Saludos,
David
…________________________________
De: David Cabo ***@***.***>
Enviado: martes, 15 de octubre de 2024 20:47
Para: civio/verba ***@***.***>
Cc: davidhguerrero ***@***.***>; Comment ***@***.***>
Asunto: Re: [civio/verba] Publicar el corpus de contenido de Telediarios (#96)
La interfaz es cosa de @carmen-tm<https://github.com/carmen-tm>, le alegrará oir que te gusta.
Lo de Elastic sí que es un poco grande para arrancar, sí. Tenía sentido porque queríamos hacer más cosas, pero nos quedamos a medias. Pero la gente de Elastic se portó muy bien y nos dio alojamiento en su nube, así que eso que nos ahorramos.
Lo dicho, cualquier cosa aquí estamos.
—
Reply to this email directly, view it on GitHub<#96 (comment)>, or unsubscribe<https://github.com/notifications/unsubscribe-auth/AFNQ5ZSE2UBSZ57X3RZDKB3Z3VPLLAVCNFSM6AAAAABPTEAMMOVHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMZDIMJUG43DIMJQGU>.
You are receiving this because you commented.Message ID: ***@***.***>
|
Gracias @davidhguerrero 🙇. Al final me decidí por implementar un pequeño api server que implementa (parte de) el API de Verba y sincroniza el corpus una vez al día desde verba.civio.es. Está corriendo en https://verba.rbel.co actualmente 🚀 |
En paralelo a #95, que permitirá a cualquiera descargarse sus subtítulos, vamos a publicar el corpus con el que estamos trabajando, para facilitar que otros hagan los análisis que quieran.
Como solución inicial, hasta que sepamos mejor cómo se usa esto, lo más claro parece generar dos corpus: uno con los ficheros de subtítulos originales de la web de RTVE, sin más; y otro con el contenido procesado por nosotros (que ahora mismo es simplemente convertido a frases, porque la extracción de entidades de #10 no está terminada al 100%, así que no la voy a incluir ahora). Voy a generarlos a mano por ahora.
Para generar el primer fichero,
corpus_raw.tar.gz
, enmidas
:Para generar el corpus con el contenido por frases:
Los ficheros producidos incluyen datos del 23 de diciembre de 2013 hasta el 22 de enero de 2023, inclusive. Vamos a subirlos a Datos Civio, pero de momento los enlaces son:
syntok
(JSON) con metadatos de RTVE (JSON): corpus_cooked.tar.gz¿Es este formato cómodo para los que quieren usar los datos?
The text was updated successfully, but these errors were encountered: