¿Es posible dividir una grabación de un conjunto en pistas de instrumentos individuales? (Música, Grabación, Software)

Hobbes preguntó.

Esta pregunta está inspirada en los comentarios a esta pregunta relacionada:

Me sorprendería si no se pudiera encontrar una aplicación para móviles o al menos algún SW para Apple/PC que filtre un determinado instrumento del sonido de la orquesta.

¿Es esto posible?

Comentarios

  • Tuomo debería prepararse para sorprenderse, entonces. –  > Por Kilian Foth.
  • Es posible hasta cierto punto, pero no como en el programa de televisión C.S.I. Melodyne puede separar las voces voces, aunque no necesariamente instrumentos. No es perfecto ni como en las películas, pero es un paso en la dirección general de poder separar los instrumentos. –  > Por piiperi Reinstalar Mónica.
  • El problema con Melodyne podría ser el modelo o los datos de muestra que utiliza para separar las voces. Los filtros tienen que tener algunos parámetros de afinación. Creo que si sus filtros fueran actualizados para tener curvas realistas de ataque + sostenimiento + decaimiento de los instrumentos, podría tener una oportunidad. –  > Por ggcg.
4 respuestas
guidot

No es posible dado el estado actual de la técnica. Por lo tanto, los ingenieros de grabación distribuyen los micrófonos para tener pistas separadas para los instrumentos o grupos de instrumentos (para poder cambiar el equilibrio) y, por lo tanto, se necesitan grabaciones especiales como música menos uno con la voz solista filtrada para producir material de formación con voces completas de tutti y nada más.

Es posible que la inteligencia artificial ofrezca esa posibilidad en el futuro, pero yo no contendría la respiración.

Tenga en cuenta que la división a todos los componentes es aún más difícil, que para extraer un instrumento.

Comentarios

  • Interesante. Intuitivamente pensé que si la entrada era, por ejemplo, un sonido de calidad de CD, de alguna manera la combinación de lo siguiente: 1) Los instrumentos no están perfectamente afinados, es decir, algunas diferencias en la «frecuencia nominal». 2) Perfil de frecuencia, como amplitudes de los armónicos y modos de frecuencia normales de los instrumentos 3) El hecho de que los miembros no [independientemente de la posición desde la que se «escuche»] tocan exactamente al mismo ritmo 4) Correlación cruzada [filtrada] de los canales R y L para encontrar qué componentes de frecuencia, impactos, etc. provienen de la misma dirección. Pero, creo que fui demasiado optimista ;-( –  > Por Tuomo.
  • Ni siquiera cerca de ser posible, ya que tratar de sacar los sobretonos pertenecientes a cada instrumento simplemente no puede suceder. –  > Por Carl Witthoft.
  • @CarlWitthoft, ¿qué crees que hace que sacar los sobretonos de cada instrumento sea algo que simplemente no puede suceder? ¿Es 100% imposible o sólo es posible con alguna corrupción de datos debido a la falta de grados de libertad? Sólo tengo curiosidad. –  > Por ggcg.
  • @CarlWitthoft, veo que tenemos antecedentes similares así que me interesaría mucho tu opinión sobre esto, y sobre mi propuesta de respuesta. No digo que sea imposible pero sí marginal en el mejor de los casos y con un desorden distorsionado como resultado. –  > Por ggcg.
Laurence Payne

No, en el estado actual de la técnica, no es posible «deshacer el pastel» en la práctica, salvo en casos especiales como una grabación en estéreo con un solo instrumento en el centro, etc.

Sin embargo, me sorprendería mucho que los militares no estuvieran interesados en un software que pueda aislar una voz de un balbuceo. Si eso tiene éxito, prepárense para un spin-off.

[más tarde]

¡Intenta esto! Si puede reconocer una voz…

https://vocalremover.org/

Comentarios

  • @»Tal vez el hermano de Max»: aunque supongo que nunca habríamos llegado al punto de que alguien ande por la luna sin tener una mente suficientemente desafiante, me encanta tu simbolismo de deshornear pasteles [¡perdón por mi inglés no nativo!  > Por Tuomo.
  • Creo que el reconocimiento de voz en una grabación es posible en la actualidad. Tal vez me equivoque en eso. –  > Por ggcg.
  • Una voz enterrada en el «balbuceo» es una tarea más fácil que separar numerosas señales coherentes, ya que te preocupas por todas ellas, en lugar de por una sola. Puedes destruir el resto de la señal en el proceso de extraer la única y a través de ella. –  > Por ggcg.
  • Bueno, ¡todavía tienes la versión original para «destruir» al extraer el siguiente instrumento! –  > Por Laurence Payne.
  • @LaurencePayne, estoy de acuerdo, pero entonces hay que hacer el proceso en bucle y cada vez se hacen elecciones diferentes, por lo que comprobar y afinar dos veces podría ser complicado. Esto no es un problema tan grande si se asume que el fondo es «ruido». –  > Por ggcg.
Edward

Existen modelos de aprendizaje automático que intentan separar las grabaciones en varias pistas de instrumentos, como el «Spleeter» de Deezer, el PixelPlayer del MIT y el (muy caro) RX8 de Izotope. Los investigadores «enseñan» a su programa de aprendizaje automático alimentándolo con grandes cantidades de multipistas reales. Después de entrenar el modelo, se le puede dar cualquier grabación y éste intentará crear multipistas que «se parezcan» a las que aprendieron.

Está lejos de ser perfecto, y cada pista de instrumento tendrá algún ruido extra y faltarán piezas significativas. El software no siempre puede distinguir entre, por ejemplo, un hi-hat o un cantante que hace un sonido «t». El resultado acaba sonando como un mp3 de muy baja calidad. Aun así, es una prueba de concepto interesante y casi seguro que mejorará con el tiempo.

Ahora mismo, Spleeter se puede instalar de forma gratuita, pero sólo viene con modelos preentrenados para música tipo pop/rock (batería, bajo, voz, piano, otros). Si quieres separar una orquesta, tendrías que encontrar un montón de multipistas orquestales para entrenarlo.

Demostración de su modelo en el MIT:

[su_youtube url=»https://www.youtube.com/embed/2eVDLEQlKD0?start=0″]

Demostración del modelo Spleeter:

[su_youtube url=»https://www.youtube.com/embed/bIvzxtfZ5iE?start=63″]

ggcg

Eso depende de lo limpio que esperes que sea y de lo automatizado que esperes que esté. Existe tecnología para identificar voces específicas en una grabación mono de varias personas en un lugar ruidoso, así que no puedo creer que sea imposible. Pero habría que hacer un gran esfuerzo y un trabajo manual para decidir si lo que captan los filtros es real o un artefacto.

Existe un software, y las versiones caseras no son difíciles de hacer, que puede identificar las notas separadas presentes en una grabación. Pero el siguiente paso sería atribuirlas a un instrumento específico. Para ello, habría que identificar que existe un instrumento específico entre la colección de sonidos. Esto no es imposible, ya que podemos tomar versiones grabadas de las respuestas al impulso de cada instrumento, o utilizar datos simulados de modelos y convolucionarlos con la grabación. No estoy de acuerdo con los comentarios de que es imposible, o ni siquiera cercano. Pero hay numerosos escollos y posibles ambigüedades. Sería una tarea más fácil si en lugar de intentar demostrar que hay un violín en la mezcla de 100 instrumentos se proporcionara una biblioteca de instrumentos que se sabe que están en la grabación. Entonces habrás reducido el esfuerzo requerido y el número de errores que podrían cometerse.

Aun así, tendrás sonidos superpuestos de muchos instrumentos mezclados y habrá posibles ambigüedades y fallos a la hora de identificar qué nota fue tocada por cada instrumento. Incluso si pudieras hacer una separación rudimentaria que identificara correctamente las notas y las asignara a los instrumentos, los sonidos reales podrían ser un desastre, ya que probablemente habrías conseguido una distribución de amplitud y fase errónea para cada instrumento. Supongamos que un violín y un saxo tocan la misma nota y que descubrimos correctamente ambos instrumentos basándonos en perfiles armónicos detallados. ¿Cómo se puede determinar si ambos contribuyen en un 50% al sonido global? Además, si has encontrado los picos correctos en un filtro de señal pero no has conseguido la fase y has restado lo que creías que era el Saxo, el «violín» podría estar distorsionado como resultado de alguna ambigüedad de fase. Tendrías que corregir esto sintetizando entonces la pista original usando las señales separadas, y modulando las variables desconocidas en cada espectro hasta que consiguieras igualar el original sin ruido. E incluso entonces puedes tener todo un espacio de posibles mezclas que sinteticen correctamente al original.

De nuevo, afirmo, no es imposible pero sí muy costoso obtener un resultado sucio. Al final puede no valer nada.