captar audio y convertir a texto

Hola que tal.

Alguien ha utilizado alguna herramienta que me pueda mencionar, donde sea posible desde velneo captar el microfono de la maquina y grabar un audio X y ese audio convertirlo a texto para ahorrar tiempo en redacciones de texto en campos de observaciones en algún registro.

De ante mano agradecería mucho.

Saludos.

Buen día.
Básicamente tienes dos opciones

  1. El reconocimiento de voz de windows que desde mi experiencia funciona pésimo
  2. Dragon naturally speak. Que reconoce de maravilla y con casi nada de errores. Cuandi lo activas abre un cuadro de dialogo que es donde dictas y al terminar das la instruccion para que lo copie al campo que tenias seleccionado.
    La pega es que es de pago y no es barato. Y, consume muuuuuchos recursos de la maquina por lo que en maquinas con celeron y poca memoria es malo el desempeño.
    Hay una página web quebutiliza el motor de googl. Speech notes creo que se llama. Su reconocimiento de voz es muy bueno. Pero solo funciona en navegador web. Yo probe en webkit y no funcionaba. No he probado en el nuevo navegador de la 22. De cualquier forma en ese caso tendrian que copiar pegar manualmente.

Saludos.

Hola aztecmexico gracias por tu respuesta y recomendación, He probado speechnotes y en el navegador va excelente, funciona perfecto, pero desde el visor html de velneo hay dificultades al activar el microfono de la maquina.

La otra alternativa como comentas es Dragon naturally speak, vere si puedo resolver algo con ella.

Saludos.

Hola Osuna

Utiliza API CLOUD SPEECH de Google. Desde Velneo con JS puedes utilizarlo perfectamente. Te dejo el link: https://cloud.google.com/speech/?hl=es

Hola driverco02, estuve probando con esa api pero el problema es que el visor html de velneo no da permisos para acceder al microfono de la pc, tambien hice pruebas con la api de microsoft que si permitia la captura del audio y lo convertia a texto pero no funcionaba muy bien que digamos pues sugeria palabras muy distintas a las que hablaba, opte por usar el speechnotes de forma externa.

Gracias.

Hola Osuna, en la presentación de las novedades de la V24 comentan que los permisos de acceso a cámara y micrófono se guardan a nivel usuario (no lo probé) - Minuto 5:10 del video

Espero que te sirva. Un saludo
Luismi.

Muchas gracias lumidodyftec, le echare un vistazo.

Algun avance es este tema, pues estamos planteando en el almacen la operativa por voz y al intentar usar el “webkitSpeechRecognition” no funciona el en visor pero si en el chrome…

Hola emilianorubio.

En Velneo no hay soporte nativo para procesamiento de voz.
El motor Chromium que incorporan tanto Edge y Chrome como el Visor HTML de Velneo, dispone del API de procesamiento de Voz.

Sin embargo, y es algo incomprensible, los de Qt han eliminado esta funcionalidad en el motor Chromium del Visor HTML.

En el próximo Qt6 de Velneo 35 o 36 habrá funcionalidades de Texto a Voz, pero no he visto nada de procesamiento de Voz a Texto, a pesar de que es algo muy demandado en sistemas embebidos en los que QT es experto.

Si ejecutas el test de HTML5 en el Visor HTML de Velneo y en Edge/Chrome obtendrás este resultado en el apartado de Audio:

Como ves no hay soporte ni para el reconocimiento ni para la sintetización de Voz.

Si intentas usar el API de Voz para HTML5 en un javascript de la página HTML del Visor de Velneo:

var SpeechRecognition = SpeechRecognition || webkitSpeechRecognition;
var recognition = new SpeechRecognition();

Recibirás una exception porque no existen los objetos SpeechRecognition ni webkitSpeechRecognition.

Creo que tendrás que recurrir a soluciones de terceros.

Saludos
Paco Satué

Hola Emiliano, nosotros en Rimatcom tenemos una solución web que pasa texto a voz mediante I.A
La podríamos llegar a conectar a tu solución mediante API.
Me hablas si quieres ver una demo a matiasc@rimatcom.com
Un saludo

Muchas gracias.

Me había hecho ilusiones de poder montar en nuestra aplicación de almacen la entrada y salida por voz

Un saludo