¿Cómo se hacen las transcripciones de audio a texto?
El trabajo de transcripción se requiere cuando tenemos un audio o vídeo y necesitamos pasar su contenido a texto, a veces para su posterior traducción.
Tradicionalmente, la persona que hacía la transcripción escuchaba el texto y simultáneamente tecleaba. Hoy en día existen herramientas que nos ayudan a realizar esta tarea de forma más rápida si ya disponemos de un archivo de audio, pero sobre todo para inglés. Si el audio está en otro idioma, el resultado suele ser poco provechoso, pero siempre lo probamos por si el proceso puede acelerar el trabajo y por consiguiente, resultar en un presupuesto más económico. Incluso plataformas muy populares, como YouTube o Google, generan una transcripción, de forma gratuita, con un simple clic. Debemos ser cautos con las herramientas gratuitas, pues no nos aseguran la confidencialidad de nuestros datos, ya que pasan a formar parte de la “nube”.
Si optamos por encargarla a un servicio profesional, lo más habitual es que se use una herramienta en local que permita obtener un borrador de la transcripción. Dependiendo del sistema empleado, la calidad de este borrador nos permitirá agilizar el proceso de transcripción. Invirtiendo en estas herramientas, el precio de las transcripciones es cada vez más asequible.
¿Cuánto se tarda en transcribir un minuto de audio?
El tiempo medio está entre los cuatro y los seis minutos de trabajo por minuto de audio.
¿De qué depende este tiempo?
Para obtener una transcripción final de un archivo de audio influyen varios aspectos, lo cual provocará que tengamos que escuchar el audio varias veces.
- Volumen: si es muy bajo puede implicar que incluso algunas partes sean inaudibles.
- Calidad del sonido: el entorno o sonido ambiente puede influir en la “captura” de los diálogos.
- Dicción de las personas que intervienen: ¿tienen acento local muy marcado?, ¿tienen acento extranjero?
De forma general se distingue entre varios tipos de transcripciones:
- fonética, que utiliza un sistema de símbolos propios para representar los sonidos del habla humana, y
- lingüística, que utiliza la ortografía y convenciones de una lengua.
Este último servicio es al que nos referimos cuando hablamos del servicio de transcripción. Dentro de este, distinguimos entre varios tipos de transcripciones: natural o literal. La transcripción natural elimina todas las expresiones que no aportan ni cambian el significado de lo que se escucha, por ejemplo, uhm, eh, o repeticiones. La literal, por el contrario, incluye todo lo que se escucha, por ejemplo, frases o palabras inacabadas.