- La IA y el aprendizaje automático permiten detectar patrones y estructuras en sonidos animales, abriendo la puerta a descifrar gramáticas ocultas.
- Proyectos como Earth Species Project, CETI, DolphinGemma o Perch combinan bioacústica e IA para estudiar comunicación y conservar ecosistemas.
- Ya existen aplicaciones domésticas y de entretenimiento, desde traductores experimentales para mascotas hasta generadores de “mascotas parlantes”.
- Los avances técnicos plantean retos científicos, éticos y filosóficos sobre cómo, cuánto y para qué debemos comunicarnos con otras especies.
La idea de mantener una conversación real con un animal ha estado en nuestra cultura desde siempre: cuentos donde el zorro da consejos, películas con perros parlantes o delfines que parecen reírse de nosotros. Durante siglos ha sido un sueño más cercano a la fantasía que a la ciencia. Sin embargo, la irrupción de la inteligencia artificial ha cambiado el tablero: por primera vez, hay proyectos serios que intentan descifrar de verdad cómo se comunican otras especies y si podemos crear algo parecido a un traductor universal.
Hoy en día, entre sensores, micrófonos submarinos y algoritmos capaces de procesar millones de datos, hablar con animales ya no suena a cuento de hadas, sino a proyecto de ingeniería, bioacústica y aprendizaje automático. Eso no significa que mañana tu perro vaya a leer las noticias, pero sí que estamos empezando a entender la estructura de sus sonidos, sus emociones e incluso a generar “frases” en sus propios códigos. Y, de paso, nos estamos topando con preguntas éticas bastante serias sobre hasta dónde deberíamos llegar.
Por qué hablar con animales usando IA no es tan sencillo
El primer gran obstáculo es que los animales no emiten mensajes “con subtítulos”. No vienen etiquetados con su significado. Muchas especies se comunican con sonidos fuera de nuestro rango auditivo, con ritmos muy rápidos o con señales que mezclan vocalizaciones, gestos, vibraciones e incluso cambios fisiológicos (por ejemplo, en la frecuencia cardiaca). Nuestro cerebro no está diseñado de fábrica para interpretar todo eso.
Entra en juego la inteligencia artificial basada en aprendizaje automático. Estos modelos son expertos en buscar patrones en montañas de datos sin que nadie les diga exactamente qué tienen que encontrar. Si a un algoritmo le damos horas y horas de registros de sonidos, vídeos de conducta y datos ambientales, puede descubrir regularidades que se nos escapan a simple vista: repeticiones de secuencias, cambios de ritmo, estructuras internas… justo lo que necesitamos para empezar a hablar de “gramática” animal.
Un buen ejemplo está en el Caribe con el proyecto CETI (Cetacean Translation Initiative), centrado en los cachalotes. Este equipo lleva años grabando sus famosas “codas”, series de chasquidos que usan para relacionarse entre ellos. Un estudio publicado en Nature Communications en 2024 mostró que esos clics tienen una estructura combinatoria y contextual: no son ruidos al azar, sino que siguen patrones de ritmo y tempo que recuerdan a un alfabeto sonoro. Eso sugiere que podrían construir mensajes complejos, aunque todavía no sepamos qué significan.
Aun así, que haya estructura no implica automáticamente que entendamos el mensaje. Si fuésemos una especie alienígena intentando descifrar el español solo por el sonido, sin ver gestos, sin saber quién habla con quién ni en qué situaciones, tendríamos serios problemas. Los investigadores insisten en que los modelos de IA necesitan ese “quién, cuándo y para qué” de cada vocalización para no confundir señales que, en función del contexto, pueden querer decir cosas distintas.
Por eso, la IA no sustituye al trabajo de campo, sino que lo complementa. Sin biólogos y etólogos tomando notas, grabando vídeo, identificando individuos y situaciones (peligro, juego, cortejo, alimentación…), los algoritmos se quedan cojos. En pocas palabras: la IA puede ver patrones, pero sin el contexto conductual humano, corre el riesgo de inventarse “lenguajes” que en realidad no existen.
Proyectos pioneros: Earth Species Project, CETI y otros experimentos
Uno de los actores más ambiciosos en este campo es el Earth Species Project (ESP), una organización sin ánimo de lucro con sede en California. Su objetivo es bastante loco, dicho en plata: desarrollar modelos de inteligencia artificial capaces de ayudar a descifrar la comunicación de todo el reino animal, desde gusanos hasta ballenas, y publicar después esos avances para que estén disponibles de forma abierta.
ESP trabaja con técnicas similares a las que se usan en los modelos de lenguaje humano, pero aplicadas a sonidos animales. Buscan que la IA aprenda representaciones internas de los sonidos que permitan separar qué parte del “mensaje” tiene que ver con el individuo (su voz propia), cuál con la especie y cuál con situaciones concretas (alerta, juego, alimentación…). A partir de ahí, la idea es construir una especie de “diccionarios” útiles para la investigación y, a largo plazo, para herramientas prácticas.
En paralelo, ESP está desarrollando algoritmos experimentales con capacidades muy llamativas. Uno de ellos puede detectar qué individuo está “hablando” dentro de un grupo ruidoso, algo crucial en colonias de aves, colonias de murciélagos o grupos de cetáceos donde todos emiten sonidos a la vez. Otro algoritmo es capaz de generar llamadas sintéticas que imitan las vocalizaciones naturales de una especie, es decir, hacer que la IA “hable su idioma” aunque todavía no tengamos claro el significado exacto de cada llamada.
Esta última parte es tan prometedora como inquietante. Aza Raskin, cofundador y presidente de ESP, lo resume así: estamos empezando a “hacer que la IA hable el idioma de los animales”, aunque no sepamos del todo qué está diciendo. Esto abre posibilidades increíbles para la investigación, pero también plantea dudas sobre hasta qué punto es responsable “intervenir” en las conversaciones de otras especies.
ESP no es el único proyecto potente. Además de CETI, centrado en cachalotes, existen iniciativas como DeepSqueak, un sistema que analiza los ultrasonidos de las ratas para determinar si están bajo estrés o experimentan emociones positivas, y algoritmos desarrollados por investigadores como Elodie Briefer para interpretar los gruñidos de los cerdos y clasificar si el animal se siente más bien “feliz” o “triste”. La IA ya está leyendo estados emocionales a partir de la voz en distintas especies.
Del laboratorio a tu casa: apps para comunicarte con perros y gatos
Más allá de la ciencia pura, estas mismas técnicas están llegando al mundo de las mascotas. No son pocos los dueños que sueñan con saber qué quiere exactamente su perro o qué piensa su gato cuando maúlla frente al cuenco vacío. Aunque aún estamos lejos de una traducción palabra por palabra, hay proyectos que buscan una comunicación más profunda con animales domésticos usando IA.
Earth Species Project ha dado a conocer un plan para desarrollar una aplicación de traducción para perros y gatos, impulsada por sus avances en delfines y cuervos. La idea no es tanto que tú puedas charlar de política con tu mascota, sino ofrecer a investigadores, veterinarios y expertos en comportamiento una herramienta que traduzca patrones de sonido, movimientos y vibraciones a categorías comprensibles para humanos (por ejemplo, tipos de emoción o necesidades básicas).
Detrás hay un equipo multidisciplinar de ingenieros, tecnólogos y especialistas en conducta animal que recopilan y analizan enormes bases de datos con algoritmos avanzados. Su meta es entender mejor los “lenguajes” de los animales domésticos para mejorar su bienestar: detectar estrés, malestar, dolor, juego, excitación positiva… y diseñar pautas de manejo y convivencia más respetuosas.
Conviene aclarar algo importante: traducir “emociones” no equivale a traducir “lenguaje”. Un sistema puede ser muy bueno identificando si un ladrido está asociado a excitación positiva, frustración o miedo, sin que eso implique que el perro esté “diciendo” algo equivalente a una frase humana. La tentación de antropomorfizar es enorme: si la app etiqueta un sonido como “feliz”, el usuario puede imaginar una frase completa del tipo “¡qué bien, esto me encanta!”, cuando quizá solo hay un aumento de arousal o una señal de coordinación.
Aun así, estas herramientas pueden marcar un antes y un después en cómo nos relacionamos con nuestras mascotas. Permitirían afinar entrenamientos, prevenir problemas de conducta, detectar malestar antes de que aparezcan síntomas físicos e incluso mejorar diagnósticos veterinarios. Y, sobre todo, podrían ayudarnos a escuchar mejor lo que ya nos están diciendo con su cuerpo y su voz, aunque no haya “palabras” de por medio.
IA para “hacer hablar” fotos de animales: Dreamina, DreamFace y TalkingPets
Paralelamente a la investigación científica, han aparecido herramientas más orientadas al entretenimiento que, usando IA, permiten crear videos de mascotas parlantes a partir de una simple fotografía. No decodifican el lenguaje animal real, pero sí aprovechan los avances en animación facial y sincronización labial para generar contenido muy realista y, de paso, viralizable.
Un ejemplo destacado es Dreamina, un generador de vídeos de avatar con IA que utiliza un modelo avanzado llamado OmniHuman 1.5. Este sistema realiza un mapeo facial preciso para animar cualquier imagen con sincronización de labios y expresiones naturales. Gracias a su animación impulsada por audio y tecnología multimodal guiada por texto, es capaz de crear movimientos fluidos, expresiones ricas y escenas con varios personajes (incluyendo animales) que reaccionan de forma coherente al audio.
Con Dreamina puedes subir una foto de tu mascota, añadir un texto o un archivo de audio y dejar que la IA genere un vídeo donde el animal parece hablar o cantar. Además de convertir al perro o al gato en un pequeño avatar protagonista para redes sociales, permite controlar mediante indicaciones los gestos: inclinaciones de cabeza, movimiento de cola, saludos con la pata, cambios de expresión facial, etc. De este modo, el contenido se ajusta al tono del mensaje (divertido, emotivo, épico…).
DreamFace ofrece una función muy similar, centrada en la sincronización labial para mascotas. Subes una foto clara de tu perro, escribes un guion o subes un audio, y la aplicación alinea los movimientos de la boca con el sonido, incluyendo pequeños detalles como microsonrisas o el momento exacto en el que ladra. El resultado son vídeos en alta definición listos para descargar y compartir, con opciones para personalizar la voz, la velocidad de habla y el estilo del mensaje.
TalkingPets, por su parte, es una plataforma web pensada para que cualquiera pueda crear mascotas parlantes de forma sencilla. La interfaz está diseñada para usuarios sin experiencia técnica: eliges una foto, añades un guion o un audio y ajustas voz y velocidad. En unos minutos tienes un vídeo con movimientos de labios, expresiones y gestos coordinados con el sonido, perfecto para TikTok, Instagram o YouTube. Además, integra opciones para compartir directamente en redes.
Estas herramientas no solo sirven para hacer bromas. Pueden aplicarse a entrenamiento y educación (vídeos donde una mascota animada “explica” cómo cuidar de un perro, por ejemplo), homenajes conmemorativos a animales que ya no están, marketing para negocios de mascotas (clínicas veterinarias, peluquerías, tiendas) o incluso contenido educativo infantil donde los animales son personajes que cuentan historias.
Modelos de IA que ya “escuchan” la naturaleza: DolphinGemma y Perch
Mientras el usuario medio juega con apps de mascotas parlantes, los laboratorios punteros están desarrollando modelos de IA capaces de sumergirse en grabaciones reales para desentrañar la bioacústica de ecosistemas enteros. Aquí destacan dos proyectos de Google DeepMind: DolphinGemma y Perch.
DolphinGemma aplica el mismo principio de los modelos de lenguaje (LLM) que usamos a diario, pero en lugar de texto se entrena con décadas de grabaciones de delfines. Su función principal es procesar secuencias de sonidos naturales de estos cetáceos, detectar patrones y predecir qué sonidos vienen después. No se limita a catalogar silbidos aislados, sino que intenta captar la gramática y la sintaxis de sus vocalizaciones.
El gran objetivo es llegar a un “vocabulario compartido” que, con el tiempo, permita alguna forma de comunicación bidireccional. Aún queda muchísimo camino, pero ya hay experimentos sugerentes. En Alaska, por ejemplo, un grupo de científicos mantuvo una especie de “conversación” acústica de unos 20 minutos con una ballena jorobada apodada Twain. Los investigadores emitieron una llamada de contacto conocida (whup/throp) y la ballena respondió de forma repetida, creando un intercambio de llamada y respuesta que parece intencional.
En otro estudio de 2013, investigadores entrenaron a un grupo de delfines para asociar un sonido concreto a la palabra “sargazo”. Más tarde, al analizar interacciones naturales con un algoritmo de IA, descubrieron que ese sonido había sido incorporado por los delfines en su propio repertorio para referirse a esa alga. Fue la primera vez que se documentó una “palabra” humana que saltaba al vocabulario de otra especie, al menos en sentido funcional.
Perch, el otro gran modelo de DeepMind, está pensado más para conservación. Es una IA entrenada con sonidos de aves, mamíferos, anfibios y ruidos humanos (minería, barcos, tráfico…) que puede procesar miles o millones de horas de audio de la naturaleza para detectar quién está ahí y en qué condiciones. Utiliza un enfoque de “modelado ágil” con búsqueda por vectores y aprendizaje activo, lo que le permite crear buenos clasificadores de especies a partir de muy pocos ejemplos.
Gracias a Perch, los conservacionistas pueden monitorizar la salud de un ecosistema escuchando su “banda sonora”: presencia de especies clave, cambios en la diversidad de cantos, aparición de ruidos industriales que interfieren con la comunicación animal, etc. El modelo ha sido clave, por ejemplo, para localizar una nueva población del esquivo errante de las llanuras en Australia o para encontrar vocalizaciones de mieleros hawaianos amenazados por la malaria aviar mucho más rápido que con métodos tradicionales.
Lo más interesante es que Perch es un modelo abierto y accesible. Sus herramientas están disponibles para la comunidad científica y el público a través de plataformas como Kaggle, y se han integrado en sistemas tan conocidos como BirdNet Analyzer de la Universidad de Cornell. Esto democratiza el uso de IA en conservación y multiplica las posibilidades de escuchar lo que está ocurriendo en bosques, océanos o arrecifes de coral sin tener que estar físicamente allí.
Retos científicos: gramáticas ocultas y mundos sensoriales distintos
Intentar traducir el “lenguaje” de otras especies es mucho más complejo que pasar un texto por Google Translate. Para empezar, los científicos hablan de “gramáticas ocultas”: estructuras profundas que organizan las vocalizaciones pero que no se ven a simple oído. Los modelos como DolphinGemma o los que usa ESP tratan de aprender estas gramáticas a partir de millones de ejemplos, igual que un modelo humano aprende a predecir la siguiente palabra.
Uno de los grandes escollos es el concepto de Umwelt, el mundo sensorial propio de cada especie (la percepción sensorial). Muchos animales no perciben el entorno como nosotros: algunos dependen de señales químicas, otros de vibraciones, otros de la temperatura, otros de la ecolocalización. Lo que para nosotros es un simple “sonido” para un delfín puede ser casi una imagen tridimensional generada por el eco, así que interpretar qué significa realmente ese sonido para él es extremadamente difícil.
También está la complejidad estructural de ciertas especies. Cetáceos, aves cantoras o algunos primates muestran dialectos regionales, turnos de interacción y repertorios jerárquicos muy ricos. Un canto puede variar ligeramente según la población o el contexto, y ciertas combinaciones solo ocurren en momentos muy específicos (cortejo, alarma, coordinación de grupo…). Sin registros audiovisuales detallados que vinculen sonido y comportamiento, la IA puede detectar patrones sin llegar a comprender su función.
El volumen de datos es otro desafío. Los micrófonos, hidrófonos y sensores modernos recogen cantidades ingentes de información. Analizar miles o millones de horas de grabación para identificar llamadas individuales, especies presentes y posibles significados requiere infraestructura computacional enorme y modelos muy robustos frente al ruido (viento, lluvia, motores de barcos, etc.).
Además, hay un debate abierto sobre hasta qué punto estas herramientas pueden ir más allá de la simple clasificación. Algunos expertos, como el psicólogo Robert Seyfarth, se muestran cautos: consideran que la IA es fantástica para identificar repertorios vocales, individuos o patrones estadísticos, pero dudan de que, por sí sola, pueda revelar el “significado” profundo de las vocalizaciones sin el apoyo de estudios de comportamiento clásicos.
Dilemas éticos: ¿debemos hablar con los animales a cualquier precio?
Suponiendo que la tecnología siga avanzando y lleguemos a algo parecido a una conversación básica con otras especies, surgirán preguntas morales que no se resuelven con más datos. Una de las más obvias es si se puede “preguntar” sin manipular. Muchas especies, en especial las marinas, son extremadamente sensibles al sonido. Emitir señales artificiales para provocar respuestas puede atraer, estresar o desorientar a los animales.
Varios análisis recientes proponen establecer marcos éticos y legales antes de que estas tecnologías se popularicen. La posibilidad de intervenir en la comunicación animal también podría usarse para actividades poco éticas: facilitar la caza, intensificar el turismo invasivo, controlar poblaciones con métodos agresivos o alterar la dinámica social de grupos salvajes. No basta con que sea técnicamente posible; hay que decidir qué es aceptable hacer y qué no.
Hay además un riesgo de alterar la propia identidad de las especies. Como sugiere el escritor David Farrier, si pudiéramos hablar con un león en nuestro idioma, quizá el proceso de adaptación cambiaría tanto su forma de relacionarse con su entorno que ya no sería exactamente un león tal y como lo entendemos hoy. Traducir no es inocente: también transforma.
Otra dimensión ética tiene que ver con nuestra responsabilidad. Incluso sin traductores de IA, ya sabemos que muchas especies están amenazadas y que la degradación de sus hábitats es, en gran parte, culpa nuestra. La gran incógnita es si escuchar a los animales “decirnos” que están sufriendo cambiaría de verdad nuestra disposición a protegerlos, o si se convertiría en otro dato más que ignoramos mientras seguimos con el mismo modelo de consumo.
Por si fuera poco, el ruido antropogénico —motores de barcos, explotación minera submarina, sonares industriales— ya está ahogando la comunicación de especies como las ballenas. Muchas reducen sus cantos o cambian de frecuencia para no competir con nuestro estruendo. Es una paradoja inquietante: las mismas actividades que nos proporcionan la tecnología para hablar con ellos son, a la vez, las que están silenciando sus voces en el océano.
Tal vez el giro más incómodo de toda esta historia sea que el mayor avance no consista en que un perro nos diga “tengo hambre” o una ballena nos recite un poema, sino en que dejemos de confundir traducción con comprensión. La inteligencia artificial puede dibujar un mapa de patrones sonoros, pero el sentido último está en la vida del animal, en su umwelt, en su mundo social y sensorial. Cuando ese mundo empiece a asomarse a nuestras pantallas, lo realmente transformador podría ser que, por fin, aprendamos a escuchar de verdad.
