Contenidos
Las computadoras y otras máquinas son herramientas fantásticas que nos permiten ser más productivos, obtener más información y mantenernos en contacto. Pero para usarlos, tenemos que “comunicarnos” con ellos de alguna manera. Históricamente, esto ha sido con las entradas manuales de un mouse y un teclado (o pantalla táctil), usando una pantalla para leer lo que la computadora nos devuelve.
Durante la última década, hemos visto el surgimiento gradual de una nueva forma de hablar con las máquinas: la voz y el reconocimiento de voz. Pero, ¿persistirá en el futuro esta forma de “hablar con las máquinas”? Y si es así, ¿cómo podría evolucionar?
El estado de la tecnología
Primero, echemos un vistazo al estado de la tecnología moderna. Las personas todavía usan teclados, ratones y pantallas táctiles para gran parte de sus interacciones diarias, pero cada vez más recurren a las interacciones de voz. Podemos realizar búsquedas en los buscadores más populares con una simple frase. Podemos decir en voz alta lo que nos gustaría escribir y nuestros teléfonos pueden traducirlo a texto escrito. Incluso podemos instalar carteles digitales que puedan hablar con nuestros clientes o interactuar con ellos directamente.
A lo largo de los años, las interacciones de voz se han vuelto increíblemente sofisticadas. Al comienzo del desarrollo de esta tecnología, fue básicamente una apuesta; en la mayoría de los casos, el sistema no lo “escucharía” correctamente o malinterpretaría lo que estaba tratando de decir. Pero hoy en día, los asistentes digitales y los programas de reconocimiento de voz más populares pueden detectar y comprender el lenguaje humano con una precisión similar a la humana.
De acuerdo con esto, los humanos se han acostumbrado gradualmente a las interacciones basadas en la voz. En 2010, es posible que se haya sentido tonto al decir algo como “Ok Google” o “Hola Alexa” a uno de sus dispositivos. Pero en 2021, esto es un lugar común. De hecho, es extraño cuando vemos a alguien que no interactúa con frecuencia con sus máquinas de alguna manera.
Porque la voz se ha apoderado
¿Por qué el reconocimiento de voz ha experimentado un crecimiento y una tasa de desarrollo tan impresionantes en los últimos años? Hay algunas explicaciones posibles. La primera es que la voz es simplemente más cómoda que usar las manos para todo. Si está conduciendo un automóvil y desea mantener las manos en el volante mientras escribe un mensaje, puede pensar “en voz alta” y ocuparse de ello. Si tiene los dedos adoloridos por un largo día de escribir, puede cambiar a entradas de voz y dar un descanso a sus manos. Si estás en la sala de estar sin dispositivos cerca y necesitas saber el nombre del actor en el programa que acabas de ver, puedes decir tu pregunta en voz alta y resolverla en unos momentos.
La voz también es un fruto de poca trascendencia en lo que respecta al desarrollo tecnológico. Como veremos, existen modos alternativos de comunicación de máquina a humano que son mucho más sofisticados y pueden tardar décadas en desarrollarse por completo, pero hemos dominado prácticamente la búsqueda por voz en solo unos pocos años.
Los consumidores ven los beneficios y la tecnología continúa mejorando. Por tanto, tiene sentido que las interacciones de voz con las máquinas se hayan convertido en la nueva norma.
Problemas potenciales con la voz
Dicho esto, existen algunos problemas potenciales con las interacciones basadas en voz con la máquina, incluso a largo plazo:
- Privacidad de datos. Cada nueva tecnología trae consigo preocupaciones de privacidad. Gran parte de nuestra tecnología de reconocimiento de voz y búsqueda por voz siempre está con nosotros; tenemos un teléfono inteligente en nuestra persona y un altavoz inteligente en la esquina de nuestra sala de estar. ¿Escuchan estos sistemas nuestras conversaciones cuando no queremos que lo hagan? ¿Qué tipo de datos recopilan y envían a los maestros de su empresa tecnológica?
- Malentendidos. Incluso con desarrollos sofisticados en los últimos años, el reconocimiento de voz puede fallar. Esto es especialmente cierto cuando las personas hablan con acento o cuando no pueden articular pensamientos completos por diversas razones.
- La curva de aprendizaje. La accesibilidad también puede ser un problema, especialmente con personas que todavía tienen dificultades para hablar. Para obtener los mejores resultados, debe hablar con una voz clara y directa y articular cada una de sus palabras con precisión. No es intuitivo para todos los usuarios.
- Ruido de fondo. El reconocimiento de voz de alta calidad puede resultar confuso si existen niveles significativos de ruido de fondo. Esto significa que el reconocimiento de voz solo es ideal en ciertos lugares y contextos; no se puede usar en un concierto de rock o en un sitio de construcción, por ejemplo.
- Efectos psicologicos. Todavía estamos en los primeros días de la investigación de la voz, pero a la larga podemos encontrar que las interacciones basadas en el lenguaje con las máquinas tienen consecuencias psicológicas. Por ejemplo, puede que nos resulte difícil hablar con las máquinas sin sentir algún tipo de apego emocional a ellas, o podemos condicionarnos a interactuar con el mundo de diferentes formas debido a nuestras interacciones con las máquinas.
Cómo mejorar tu voz
Las empresas de tecnología buscan constantemente formas de mejorar sus interacciones de voz y obtener una ventaja sobre la competencia. Estas son algunas de las áreas de interés más importantes:
- Precisión. Sí, los sistemas de reconocimiento de voz son al menos tan buenos como los humanos, y algunos sistemas superan las capacidades humanas. Sin embargo, todavía hay margen de mejora en términos de precisión, especialmente cuando se trata de casos marginales.
- Funcionalidad predictiva. Combinado con análisis predictivo, las interacciones de voz y habla podrían volverse aún más impresionantes. Las máquinas pueden hacernos preguntas rápidas en lugar de depender de nuestras entradas unidireccionales y brindar sugerencias de manera proactiva sobre las cosas que podemos necesitar.
- Contexto emocional. También vale la pena considerar desarrollar la lectura del contexto emocional en asistentes digitales o incluso imitar el contenido emocional humano en sus respuestas. Por ejemplo, un asistente digital puede saber por su tono que está enojado o asustado y puede responderle con algún tipo de empatía simulada tecnológicamente. Aunque el factor “perturbador” puede ser alto en esta dimensión, hipotéticamente podría conducir a interacciones más naturales.
Alternativas a la voz
Entonces, ¿alguna vez nos alejaremos de la voz como una forma de interactuar con las máquinas? Queda por ver, pero hay un puñado de contendientes que algún día podrían reemplazar tanto la entrada de voz como la manual, incluso si están a años de desarrollarse por completo.
- Gestos. Uno de los desarrollos posibles más interesantes es la comunicación con las máquinas en forma de gestos. En lugar de instruir explícitamente a su dispositivo sobre lo que debe hacer, puede mover los ojos en un patrón determinado para invocar una función específica o puede mover los dedos en el aire para manipular una interfaz holográfica. Los gestos son silenciosos y más abstractos que la voz, lo que los hace más simples y accesibles de muchas maneras. Sin embargo, todavía puede haber una curva de aprendizaje pronunciada y la tecnología aún no está lista para implementarse.
- Pensamientos Un puñado de empresas están estudiando las posibilidades de interacciones directas entre el cerebro y la máquina; en otras palabras, es posible que algún día pueda controlar su computadora solo con sus pensamientos, de la misma manera que podría controlar los movimientos de sus brazos y piernas. Este es un pensamiento aterrador para muchos, ya que implica que la interacción conectiva puede operar en ambas direcciones. Sin embargo, esta tecnología aún se encuentra en sus primeras etapas, por lo que será difícil predecir la presencia o ausencia de problemas.
- Otros métodos de comunicación. Es difícil imaginar cómo será el futuro de las comunicaciones humanas y las máquinas, por lo que no podemos descartar la posibilidad de otros modelos más abstractos. Algún innovador tecnológico podría inventar un nuevo método de comunicación directa que ni siquiera podemos concebir todavía.
Por ahora, los controles de voz y las comunicaciones siguen siendo la fuerza dominante en la forma en que intercambiamos información con las máquinas. La tecnología es tan sofisticada que la mayoría de la gente puede explotar fácilmente su potencial. Existen problemas con su uso, incluidos problemas de privacidad y capacidades predictivas limitadas, pero estos se pueden mitigar (o eliminar) con un mayor desarrollo.