Voz a texto en la nube de Google en Python: ahorre traducción y tiempo en JSON

tmo Publicado en Dev

tmo

Estoy usando la solución estándar para procesar voz a texto con marcas de tiempo (ver código a continuación). Sé por esta publicación que es posible agregar argumentos a la herramienta de línea de comandos de gcloud, como --format=json.

Pregunta general : ¿Cómo los especifico google.cloud.speech? Parece que no puedo encontrar ninguna documentación en el sitio de Google sobre cómo hacer esto con Python.

Pregunta específica : Mi objetivo en este momento es escribir un archivo JSON estilo diccionario que contenga entradas para todas las palabras, además de su hora de inicio y finalización por palabra. Me doy cuenta de que escribo en la nube una solución pirata, pero si ya existe una opción, sería preferible.

Codigo :

def transcribe_file_with_word_time_offsets(speech_file, language):
    """Transcribe the given audio file synchronously and output the word time
    offsets."""
    print("Start")

    from google.cloud import speech
    from google.cloud.speech import enums
    from google.cloud.speech import types

    print("checking credentials")

    client = speech.SpeechClient(credentials=credentials)

    print("Checked")
    with io.open(speech_file, 'rb') as audio_file:
        content = audio_file.read()


    print("audio file read")

    audio = types.RecognitionAudio(content=content)

    print("config start")
    config = types.RecognitionConfig(
            encoding=enums.RecognitionConfig.AudioEncoding.FLAC,
            language_code=language,
            enable_word_time_offsets=True)

    print("Recognizing:")
    response = client.recognize(config, audio)
    print("Recognized")

    for result in response.results:
        alternative = result.alternatives[0]
        print('Transcript: {}'.format(alternative.transcript))

        for word_info in alternative.words:
            word = word_info.word
            start_time = word_info.start_time
            end_time = word_info.end_time
            print('Word: {}, start_time: {}, end_time: {}'.format(
                word,
                start_time.seconds + start_time.nanos * 1e-9,
                end_time.seconds + end_time.nanos * 1e-9))

if __name__ == '__main__':
    parser = argparse.ArgumentParser(description=__doc__,
        formatter_class=argparse.RawDescriptionHelpFormatter)
    parser.add_argument(dest='path', help='Audio file to be recognized')
    args = parser.parse_args()
    transcribe_file_with_word_time_offsets(args.path, 'en-US')

Y aquí está la solución hacky:

...
    transcript_dict = {'Word':[], 'start_time': [], 'end_time':[]}

    for result in response.results:
        alternative = result.alternatives[0]
        print('Transcript: {}'.format(alternative.transcript))

        for word_info in alternative.words:
            word = word_info.word
            start_time = word_info.start_time
            end_time = word_info.end_time
            transcript_dict['Word'].append(word)
            transcript_dict['start_time'].append(
                start_time.seconds + start_time.nanos * 1e-9)
            transcript_dict['end_time'].append(
                end_time.seconds + end_time.nanos * 1e-9)

    print(transcript_dict)
...

Ana

Las soluciones que se usan protobufen la pregunta vinculada no funcionaron para mí (noviembre de 2020), pero me llevaron a este comentario , que funcionó para mí con la API de Speech:

speech.types.RecognizeResponse.to_json(response)

# alternatively
type(response).to_json(response)

Ejemplo

from google.cloud import speech_v1 as speech


def transcribe_gcs(gcs_uri):
    client = speech.SpeechClient()

    audio = speech.RecognitionAudio(uri=gcs_uri)
    config = speech.RecognitionConfig(
        language_code="en-US",
    )

    return client.recognize(config=config, audio=audio)


sample_audio_uri = "gs://cloud-samples-tests/speech/brooklyn.flac"

response = transcribe_gcs(sample_audio_uri)
response_json = type(response).to_json(response)


print(response_json)

{
  "results": [
    {
      "alternatives": [
        {
          "transcript": "how old is the Brooklyn Bridge",
          "confidence": 0.98314303,
          "words": []
        }
      ],
      "channelTag": 0
    }
  ]
}

Este artículo se recopila de Internet, indique la fuente cuando se vuelva a imprimir.

En caso de infracción, por favor [email protected] Eliminar

Editado en2020-11-30

Déjame decir algunas palabras

0Comentarios

Iniciar sesiónRevisión de participación posterior

Anterior:django leyó un error de archivo csv dinámico

TOP Lista

Artículos

Voz a texto en la nube de Google en Python: ahorre traducción y tiempo en JSON

Voz a texto en la nube de Google en Python: ahorre traducción y tiempo en JSON

¿Cómo ocultar la aplicación web de los robots de búsqueda? (ASP.NET)

¿Precedencia de operadores?

Importar archivo js con TypeScript 2.0

Cómo conectar Flutter con MongoDB

List <string> devuelve como System.Collections.Generic.List en HttpPost con MVC

Ver todos los comentarios en un video de YouTube

Extraction du nœud enfant de la réponse JSON à l'aide du script SoapUI-Groovy

Comparer des images dans Pygame (pas pixel par pixel)

Error de menú desplegable en Bootstrap 4

Eliminar la barra de menú de la aplicación Electron

Abreviar el vector de nombres en R, usando la biblioteca stringr

Cerrar el menú de material angular desde el controlador

Limitar las entradas de One2many Lines en odoo

Google 스프레드 시트 : QUERY를 사용하여 그룹 내 상위 N 개 케이스 선택

Leer Azure Key Vault Secret de la aplicación Function

Declaración if simple en intérprete de python

actualizar el contenido de la vista de reciclaje falla en la hoja inferior

marco de datos de Python: eliminar filas con claves externas faltantes

¿Cómo instalar el paquete xgboost en python (plataforma Windows)?

cómo colocar la ventana de información para la etiqueta en el mapa de Google

Validación de formulario Angular 4