El Surti: Construir un conocimiento común y comprensible

Proyecto: AI KUAA

Tamaño del medio: 10 - 20

Solución: Un chatbot en Guaraní que impulsa la interacción con la comunidad y promueve modelos de periodismo sustentables


El Surti, un colectivo periodístico paraguayo reconocido por su periodismo visual y comunitario, lleva más de una década creando contenido que reflejan las realidades de poblaciones subrepresentadas. Este es especialmente relevante para hablantes de guaraní y la variante híbrida que mezcla con el español, el jopará. Estos son idiomas principalmente orales que permanecen en gran medida invisibles para las principales herramientas digitales y los sistemas de inteligencia artificial, por la falta de datos de entrenamiento y representación lingüística en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés).

Para enfrentar este desafío, El Surti lanzó AI KUAA, una iniciativa cuyo nombre proviene del término guaraní kuaa que significa “conocimiento”. El proyecto busca reducir la brecha entre los modelos de lenguaje basados en IA y los idiomas orales no centralizados, y mejorar la representación tecnológica y la usabilidad del guaraní mediante un enfoque de tres ejes:

  • Mejorar la representación del guaraní en la base de datos Common Voice de Mozilla.

  • Desarrollar un chatbot capaz de comprender insumos en audio en guaraní.

  • Diseñar un kit de herramientas para que otros medios puedan construir soluciones similares y alcanzar audiencias desatendidas.

El problema: la brecha digital en los idiomas orales

La inspiración para AI KUAA surgió del proyecto previo de El Surti, “EVA”, un chatbot sobre mujeres encarceladas por microtráfico en Paraguay. Durante su desarrollo, el equipo identificó una limitación crucial: las herramientas de IA y los servicios de transcripción tenían dificultades para reconocer y procesar el guaraní, especialmente el híbrido jopará, que combina guaraní y español.

Como explica el director de El Surti, Alejandro Valdez Sanabria, “AI KUAA busca resolver una brecha entre los hablantes de lenguas orales no centralizadas y su reconocimiento en los grandes idiomas que utilizan la inteligencia artificial y los chatbots más populares”. Esta dificultad se agrava en los entornos digitales, donde no existen suficientes datos documentados para entrenar modelos de IA en estos idiomas. El equipo comprendió que, para servir realmente a su comunidad, debía hacer que la IA fuera comprensible y utilizable en su lengua nativa.

Construcción de la solución: la hoja de ruta hacia el prototipo

El proyecto es un proceso colaborativo e iterativo que equilibra la evolución tecnológica con la participación comunitaria. El objetivo no es solo construir un chatbot, sino crear una solución sostenible y adaptable que empodere a la comunidad guaraní-hablante.

El equipo


El Surti conformó un equipo diverso para abordar el proyecto, y “equilibrar el componente técnico con el comunitario”. Sebastián Auyanet actúa como coordinador del proyecto y supervisa tanto el modelo de negocio como los aspectos comunitarios. En el área editorial y comunitaria, incorporaron a Leila Bareiro, hablante de guaraní, como coordinadora de comunidad, mientras que Valdez mantiene la dirección general y editorial.

El equipo técnico está integrado por Sebastián Hacher y Axel Marazzi, diseñadores conversacionales y de experiencia de usuario (UX) que ya habían trabajado en el proyecto EVA, junto a un desarrollador.

Herramientas y proceso


El equipo utiliza una combinación de herramientas establecidas y de código abierto.

Una parte clave del proyecto consiste en entrenar a la IA para comprender el guaraní utilizando la base de datos Common Voice de Mozilla. Esta plataforma permite que voluntarios donen sus voces para crear un repositorio de datos de lenguaje hablado. El equipo organizó “mingas (encuentros comunitarios) donde las personas grabaron sus voces para alimentar la base de datos, acumular varias horas de audio en guaraní y aumentar el porcentaje de validación del conjunto de datos.

Los flujos conversacionales y la lógica del chatbot se construyen en plataformas como Voiceflow y Botmaker, lo suficientemente robustas como para gestionar millones de interacciones. Estas herramientas se integran mediante una API desarrollada por El Surti, que conecta componentes de código abierto como Transformers y PyTorch para procesar y transcribir audio.

Uno de los principales desafíos ha sido adaptar estas herramientas a un idioma oral. El equipo trabaja con un enfoque centrado en la voz, buscando crear un chatbot que reconozca y transcriba mensajes de voz en guaraní, una funcionalidad que recientemente se ha vuelto más accesible.

Desafíos enfrentados

  • Limitaciones técnicas: entrenar un modelo que maneje guaraní y jopará implicó partir de bases de datos muy limitadas. Los modelos debían procesar frases híbridas con ambos idiomas en el mismo audio. “La dificultad está en detectar, traducir por separado y darle sentido a todo en tiempo real sin demoras”, explica Hacher.

  • Participación comunitaria: la plataforma Common Voice requiere saber leer en guaraní o español para participar, lo que excluye a muchos hablantes fluidos de guaraní que no saben leerlo. El equipo exploró nuevas APIs para permitir contribuciones solo de voz a través de WhatsApp.

  • Tecnologías cambiantes: “Los paneles cambian todas las semanas”, comenta Auyanet. Las actualizaciones constantes en las herramientas de reconocimiento de voz obligaron al equipo a ajustar reiteradamente sus flujos de trabajo.

Oportunidades: AI KUAA, más allá de reconocer un idioma

Reforzar la presencia del guaraní en el entorno digital fortalece la identidad cultural y abre nuevas formas de conexión con las audiencias, especialmente en zonas de baja conectividad donde WhatsApp es esencial. El bot podría servir para distribuir información hiperlocal y personalizada, así como para habilitar narrativas colaborativas.

Al documentar su metodología y compartir su código, El Surti busca apoyar a otras organizaciones que enfrenten desafíos similares. Con la mitad de los idiomas del mundo subrepresentados en la IA, el modelo podría tener aplicaciones de gran alcance.

Lecciones para las redacciones

  • La comunidad es la base: el éxito del proyecto está profundamente ligado a su enfoque comunitario. Al involucrar a la población guaraní-hablante en mingas para construir el conjunto de datos, El Surti no solo desarrolla una solución técnica, sino que también fomenta un sentido de pertenencia y representación. Este modelo colaborativo, como señala Hacher, es la “capa de diseño entre la tecnología y la comunidad”.

  • Iterar y adaptarse: el panorama de la IA cambia constantemente, con nuevas herramientas y modelos cada semana. El equipo de El Surti adoptó un enfoque iterativo, probando y ajustando continuamente sus soluciones. Esta flexibilidad es esencial para desarrollar productos en entornos tecnológicos en rápida evolución. La primera versión de su chatbot, aunque aún en español, se utilizó para registrar suscriptores, ofreciendo datos de gran valor sobre el comportamiento y las necesidades de la comunidad.

  • Priorizar la narrativa sobre la automatización: la experiencia previa con el proyecto EVA les enseñó la importancia de un enfoque centrado en las personas. El Surti usa la IA como herramienta para interactuar y comprender la intención del usuario, pero la narrativa central sigue en manos de periodistas humanos. Como señalan Marazzi y Hacher, el desafío consiste en usar las nuevas herramientas generativas para potenciar (no reemplazar) la creatividad y la integridad periodística.

Explore Previous Grantees Journeys

Find our 2024 Innovation Challenge grantees, their journeys and the outcomes here. This grantmaking programme enabled 35 news organisations around the world to experiment and implement solutions to enhance and improve journalistic systems and processes using AI technologies.

Previous Grantees
Read 2024 Report

The JournalismAI Innovation Challenge, supported by the Google News Initiative, is organised by the JournalismAI team at Polis – the journalism think-tank at the London School of Economics and Political Science, and it is powered by the Google News Initiative.