En un paso significativo para ampliar el acceso a la literatura clásica, Project Gutenberg se asoció con el Instituto de Tecnología de Massachusetts (MIT) y Microsoft para crear una amplia colección de audiolibros utilizando inteligencia artificial (IA). El proyecto ofrece miles de audiolibros gratuitos en importantes plataformas como Spotify, Apple y Google Podcasts.
El proyecto aprovecha los nuevos avances en la síntesis de voz neural con características humanas para dar vida a miles de libros queridos en un nuevo formato de audio accesible, e incluso puede leer libros en la voz del usuario con solo 5 segundos de audio.
Esta iniciativa, liderada por Mark Hamilton (MIT) y Brendan Walsh (Microsoft), junto con el profesor supervisor William T. Freeman (MIT), busca democratizar el acceso a la literatura para incluir a personas con discapacidades visuales, aprendices de idiomas, niños y aquellos que simplemente prefieren escuchar sus libros.
Aprovechando la IA para Escalar la Producción de Audiolibros
Ya sea que estés aprendiendo a leer, buscando tecnología de lectura inclusiva o a punto de emprender un largo viaje, los audiolibros pueden ser un recurso invaluable. Sin embargo, crear audiolibros no es tan simple como presionar «reproducir». La grabación de lectores humanos profesionales puede llevar mucho tiempo y ser costosa, requiriendo cientos de horas de tiempo de lectura por libro.
Con la tasa de publicación de libros en constante aumento, los creadores buscan soluciones más rápidas. La producción automatizada de audiolibros ofrece una alternativa prometedora, pero históricamente ha estado plagada de narraciones robóticas y poco naturales. Además, es difícil para los algoritmos entender qué partes de un libro deben leer. Los seres humanos saben omitir los números de página, las tablas de contenido y las notas al pie, pero los algoritmos deben ser inteligentes para evitar estos obstáculos.
Project Gutenberg, la biblioteca en línea más antigua con más de 60,000 obras, es consciente de estos desafíos. El CEO de Project Gutenberg, Greg Newby, comenta: «Habíamos intentado crear audiolibros en el pasado, pero la calidad simplemente no era muy buena, por lo que abandonamos el esfuerzo». Con esta nueva tecnología, nuestros socios pudieron crear audiolibros de mucha mejor calidad mucho más rápido que antes».
El proyecto utiliza nuevos avances en la síntesis de voz neural para crear voces realistas que suenan similares a hablantes humanos nativos. El enfoque utiliza una red profunda que está entrenada para imitar la calidad y el tono de los hablantes nativos, puede hablar en varios idiomas e incluso identificar y estilizar la lectura de texto emocional.
Evaluando los Libros por su Estructura
Con un modelo de síntesis de voz de alta calidad en manos, el equipo se propuso transcribir tantos de los 60,000+ libros de Project Gutenberg como fuera posible. Mark Hamilton, uno de los líderes del proyecto, comparte que esta fue la parte más difícil. «Es difícil encontrar incluso dos libros en Project Gutenberg que tengan exactamente la misma estructura. Aunque los libros se muestran de manera agradable para los lectores en línea, contienen todo tipo de texto que no querrías escuchar en tu audiolibro. Se convirtió más en un arte que en una ciencia encontrar lo que los usuarios querrían escuchar en un libro dado».
Para abordar esto, el equipo buscó en la colección grupos grandes de libros con una apariencia y formato de archivo similares. Esto permitió crear analizadores específicos que podían adaptarse a las peculiaridades de cada libro. Al final, el equipo identificó más de 5,000 libros que podían ser analizados con una precisión razonable.
Hablando Millones de Oraciones
El siguiente desafío al que se enfrentó el equipo fue cómo hablar eficientemente los millones de oraciones extraídas de los cinco mil libros. Normalmente, esto llevaría mucho tiempo incluso para una computadora. Para asegurarse de que estos algoritmos pudieran escalarse, el equipo utilizó la biblioteca de cómputo distribuido SynapseML para orquestar millones de llamadas de inferencia de modelo en cientos de máquinas. Esto permitió a los investigadores utilizar rápidamente servicios modernos de texto a voz como VALL-E y Microsoft AI para crear más de 35,000 horas de audiolibros en un poco más de dos horas, sin costo alguno para la organización sin fines de lucro Project Gutenberg.
Para los amantes de los audiolibros interesados, la colección completa de audiolibros se puede escuchar de forma gratuita en la mayoría de las principales plataformas de podcast, incluyendo Spotify, Google Podcasts, Apple Podcasts y el Archivo de Internet.
Creando Audiolibros en tu Propia Voz
Después de donar 5,000 libros al dominio público, el equipo demostró una aplicación que podía crear un audiolibro completo en la voz de alguien, utilizando solo 5 segundos de audio de ejemplo. Esta demostración, denominada «Creación Automatizada de Audiolibros a Gran Escala», que se presentó en la conferencia Interspeech 2023, ilustró cómo los últimos avances en la síntesis de voz generativa podían utilizarse rápidamente para crear audiolibros personalizados para cualquier persona con un micrófono. El equipo espera explorar si esta tecnología puede ayudar a crear audiolibros más inclusivos que fomenten una conexión más personal entre los oyentes y sus obras favoritas.
Llevando la Literatura Clásica a una Audiencia Global
Gracias a la colaboración, Project Gutenberg ha ampliado su colección de audiolibros en casi 5,000 títulos, que ahora están disponibles en plataformas populares como Spotify y Apple Podcasts. Newby considera esto como un hito en el camino de Project Gutenberg, expresando optimismo de que «nuestra biblioteca es más accesible que nunca».