El AI Hub de McAfee informa que las herramientas de clonación de voz disponibles para consumidores están posibilitando una ola de estafas convincentes del tipo 'nieto en apuros' y pariente-necesitado, con muchas personas incapaces de distinguir de forma fiable las voces clonadas de las reales. El análisis advierte que los criminales están utilizando ese audio en operaciones de vishing y smishing para obtener tarjetas de regalo, transferencias o criptomonedas creando sensación de urgencia y eludiendo las verificaciones habituales.

El análisis de McAfee y encuestas del sector relacionadas documentan un marcado aumento del uso indebido de la clonación de voz a medida que herramientas de IA económicas producen imitaciones de audio realistas de familiares y contactos cercanos. Los investigadores encontraron que los atacantes pueden sintetizar grabaciones cortas con tono emocional y de urgencia que persuaden a las víctimas para que transfieran fondos, aprueben pagos o revelen credenciales; muchos consumidores e incluso algunas instituciones tienen dificultades para distinguir audio clonado por IA de grabaciones auténticas. El informe destaca patrones comunes de fraude: una llamada inicial deepfake o un mensaje de voz que afirma que un familiar está en apuros inmediatos, presión posterior para enviar fondos mediante tarjetas de regalo, transferencias bancarias o criptomonedas, y ganchos de ingeniería social que explotan la urgencia, la confusión y la reticencia a consultar con otros. McAfee recomienda defensas en capas que incluyan políticas de verificación de llamadas salientes, confirmación multifactor mediante video o frases de contraseña conocidas, campañas de concienciación pública y controles de los proveedores para detectar audio sintético. Los actores del sector instan a las empresas que operan plataformas de comunicación a marcar flujos de pago inusuales y a los reguladores a actualizar la orientación sobre autenticación basada en la voz. El análisis subraya que la detección tecnológica y la educación del consumidor deben avanzar en tándem para frenar la rápida militarización de las herramientas de síntesis de voz.