Después de que Google equipara su Zettelkasten NotebookLM con tecnología de inteligencia artificial con una función de resúmenes de audio en septiembre, no hubo tregua en X y otras redes sociales por un momento. Muchos usuarios querían experimentar cómo obtener información de un solo archivo PDF o URL, y luego de un archivo más adelante. vídeo de youtube con texto – Puedes armar tu propio podcast que también parece muy realista. A algunas personas les explicaron sus trabajos de física y a los periodistas les explicaron los suyos. extracto de tarjeta de crédito.
anuncio
Los moderadores de IA de Google ahora se enfrentan a la competencia de Meta: la empresa matriz de Facebook ha introducido su propio generador de podcasts. El nombre responde CuadernoLlama Se basa en el modelo de lenguaje de Meta Llama-3.1-70B, incluida la generación de lenguaje. A diferencia de la descripción general de Listening de Google, la versión de Zuckerberg es de código abierto y el código ya está disponible en GitHub. De este modo, puede servir como punto de partida para sus propios desarrollos. el resultados¿Quién prefirió NotebookLlama? Gracias – que en realidad sería mejor llamado “Llama de descripción general de audio”, ya que solo tiene creación de podcasts y no toda la funcionalidad NotebookLM – sigue siendo relativamente débil. A diferencia de la versión de Google, las voces a menudo suenan poco naturales, hay artefactos y los moderadores, por defecto una mujer y un hombre, no avanzan. Hay una falta de emoción y los acentos a veces parecen “fuera de lugar”.
PDF o sitio web impreso como entrada
La entrada inicial son archivos PDF, que se convierten a texto puro. Si desea utilizar un sitio web como entrada, debe guardarlo como PDF, pero este problema también ocurre regularmente con NotebookLM, porque solo permite como entrada sitios web que no bloquean el rastreador de inteligencia artificial de Google. Luego, Llama-3.1-70B crea una transcripción para el podcast, que luego se mejora aún más a través de Llama-3.1-8B para crear un diálogo que suene más humano. Finalmente la creación de audio finaliza con Conversación de texto a voz y sono.
En teoría, es posible ejecutar NotebookLlama en su computadora. Entonces, según los creadores, deberías usar Llama 8B o menos para toda la tubería. De lo contrario, es obligatorio un servidor GPU o un proveedor de API con capacidad Llama. Los requisitos para la IA suelen ser altos: cuando se utilizan 70B, se requiere una GPU con 140GB de memoria combinada (resolución: bfloat-16). Los metainvestigadores, incluido Vikas Sharma, admiten que su proyecto todavía tiene que ponerse al día. Actualmente existe un modelo de conversión de voz a texto a voz más automatizado. “Esa es la limitación, por supuesto. [der Output] Suena así.” Además, el guión podría ser más interesante si lo escribieran dos clientes discutiendo. “En este momento, solo usamos una plantilla para escribir esquemas de podcasts”.
Google trajo a los actores al estudio.
Google también ha contratado a expertos para que proporcionen una visión general del audio. Esto incluye al autor de best sellers Steven Berlin Johnson, quien es el director creativo y proviene de la industria de contenidos. La directora del proyecto NotebookLM, Raisa Martin, también le dijo a Heise online que no utilizaron voces generadas completamente artificialmente para los dos moderadores de podcasts impulsados por IA, sino que trajeron oradores (actores/actores de voz) al estudio. NotebookLM quiere ganar dinero en el futuro ofreciendo a evaluadores seleccionados trabajos que recientemente han comenzado la fase de vista previa. Además, los usuarios ahora pueden personalizar parcialmente la descripción general de escucha mediante un mensaje.
NotebookLlama no es el primer intento de copiar el creador de podcasts de Google. Proyecto Abrir cuaderno LM También es de código abierto y utiliza Metas Llama 3.1 y MeloTTS. Sin embargo, los evaluadores se quejan de que el programa tiene una mayor tendencia a tener alucinaciones que el programa original de Google. NotebookLM, que incluye resúmenes de audio, intenta solucionar el problema asegurándose de que la salida siempre siga las plantillas lo más fielmente posible; El conocimiento global es de importancia secundaria para el modelo. Pero también hay errores en las resúmenes de audio. La experta en aprendizaje automático Iwona Biallinka-Pirola presentó su tesis doctoral de 2008 en septiembre y descubrió que el podcast estaba lleno de “comparaciones irracionales” y repeticiones “de 1.000 maneras diferentes”.
(Licenciatura)
More Stories
Lanzamiento de un nuevo juego de cartas coleccionables para Android e iOS
En retrospectiva en Apple: ya no hay MacBooks con 8GB de RAM
Leer más tarde Omnívoro | neblina en línea