azure-speech-to-text-rest-py

Простой REST API для преобразования речи в текст из коротких аудиофайлов (до 60 секунд). Не требует SDK — только HTTP-запросы.

npx skills add https://github.com/microsoft/agent-skills --skill azure-speech-to-text-rest-py

Azure Speech to Text REST API for Short Audio

Simple REST API for speech-to-text transcription of short audio files (up to 60 seconds). No SDK required - just HTTP requests.

Prerequisites

  1. Azure subscription - Create one free
  2. Speech resource - Create in Azure Portal
  3. Get credentials - After deployment, go to resource > Keys and Endpoint

Environment Variables

# Required
AZURE_SPEECH_KEY=<your-speech-resource-key>
AZURE_SPEECH_REGION=<region>  # e.g., eastus, westus2, westeurope

# Alternative: Use endpoint directly
AZURE_SPEECH_ENDPOINT=https://<region>.stt.speech.microsoft.com

Installation

pip install requests

Quick Start

import os
import requests

def transcribe_audio(audio_file_path: str, language: str = "en-US") -> dict:
    """Transcribe short audio file (max 60 seconds) using REST API."""
    region = os.environ["AZURE_SPEECH_REGION"]
    api_key = os.environ["AZURE_SPEECH_KEY"]
    
    url = f"https://{region}.stt.speech.microsoft.com/speech/recognition/conversation/cognitiveservices/v1"
    
    headers = {
        "Ocp-Apim-Subscription-Key": api_key,
        "Content-Type": "audio/wav; codecs=audio/pcm; samplerate=16000",
        "Accept": "application/json"
    }
    
    params = {
        "language": language,
        "format": "detailed"  # or "simple"
    }
    
    with open(audio_file_path, "rb") as audio_file:
        response = requests.post(url, headers=headers, params=params, data=audio_file)
    
    response.raise_for_status()
    return response.json()

# Usage
result = transcribe_audio("audio.wav", "en-US")
print(result["DisplayText"])

Audio Requirements

FormatCodecSample RateNotes
WAVPCM16 kHz, monoRecommended
OGGOPUS16 kHz, monoSmaller file size

Limitations:

  • Maximum 60 seconds of audio
  • For pronunciation assessment: maximum 30 seconds
  • No partial/interim results (final only)

Content-Type Headers

# WAV PCM 16kHz
"Content-Type": "audio/wav; codecs=audio/pcm; samplerate=16000"

# OGG OPUS
"Content-Type": "audio/ogg; codecs=opus"

Response Formats

Simple Format (default)

params = {"language": "en-US", "format": "simple"}
{
  "RecognitionStatus": "Success",
  "DisplayText": "Remind me to buy 5 pencils.",
  "Offset": "1236645672289",
  "Duration": "1236645672289"
}

Detailed Format

params = {"language": "en-US", "format": "detailed"}
{
  "RecognitionStatus": "Success",
  "Offset": "1236645672289",
  "Duration": "1236645672289",
  "NBest": [
    {
      "Confidence": 0.9052885,
      "Display": "What's the weather like?",
      "ITN": "what's the weather like",
      "Lexical": "what's the weather like",
      "MaskedITN": "what's the weather like"
    }
  ]
}

Chunked Transfer (Recommended)

For lower latency, stream audio in chunks:

import os
import requests

def transcribe_chunked(audio_file_path: str, language: str = "en-US") -> dict:
    """Stream audio in chunks for lower latency."""
    region = os.environ["AZURE_SPEECH_REGION"]
    api_key = os.environ["AZURE_SPEECH_KEY"]
    
    url = f"https://{region}.stt.speech.microsoft.com/speech/recognition/conversation/cognitiveservices/v1"
    
    headers = {
        "Ocp-Apim-Subscription-Key": api_key,
        "Content-Type": "audio/wav; codecs=audio/pcm; samplerate=16000",
        "Accept": "application/json",
        "Transfer-Encoding": "chunked",
        "Expect": "100-continue"
    }
    
    params = {"language": language, "format": "detailed"}
    
    def generate_chunks(file_path: str, chunk_size: int = 1024):
        with open(file_path, "rb") as f:
            while chunk := f.read(chunk_size):
                yield chunk
    
    response = requests.post(
        url, 
        headers=headers, 
        params=params, 
        data=generate_chunks(audio_file_path)
    )
    
    response.raise_for_status()
    return response.json()

Authentication Options

Option 1: Subscription Key (Simple)

headers = {
    "Ocp-Apim-Subscription-Key": os.environ["AZURE_SPEECH_KEY"]
}

Option 2: Bearer Token

import requests
import os

def get_access_token() -> str:
    """Get access token from the token endpoint."""
    region = os.environ["AZURE_SPEECH_REGION"]
    api_key = os.environ["AZURE_SPEECH_KEY"]
    
    token_url = f"https://{region}.api.cognitive.microsoft.com/sts/v1.0/issueToken"
    
    response = requests.post(
        token_url,
        headers={
            "Ocp-Apim-Subscription-Key": api_key,
            "Content-Type": "application/x-www-form-urlencoded",
            "Content-Length": "0"
        }
    )
    response.raise_for_status()
    return response.text

# Use token in requests (valid for 10 minutes)
token = get_access_token()
headers = {
    "Authorization": f"Bearer {token}",
    "Content-Type": "audio/wav; codecs=audio/pcm; samplerate=16000",
    "Accept": "application/json"
}

Query Parameters

ParameterRequiredValuesDescription
languageYesen-US, de-DE, etc.Language of speech
formatNosimple, detailedResult format (default: simple)
profanityNomasked, removed, rawProfanity handling (default: masked)

Recognition Status Values

StatusDescription
SuccessRecognition succeeded
NoMatchSpeech detected but no words matched
InitialSilenceTimeoutOnly silence detected
BabbleTimeoutOnly noise detected
ErrorInternal service error

Profanity Handling

# Mask profanity with asterisks (default)
params = {"language": "en-US", "profanity": "masked"}

# Remove profanity entirely
params = {"language": "en-US", "profanity": "removed"}

# Include profanity as-is
params = {"language": "en-US", "profanity": "raw"}

Error Handling

import requests

def transcribe_with_error_handling(audio_path: str, language: str = "en-US") -> dict | None:
    """Transcribe with proper error handling."""
    region = os.environ["AZURE_SPEECH_REGION"]
    api_key = os.environ["AZURE_SPEECH_KEY"]
    
    url = f"https://{region}.stt.speech.microsoft.com/speech/recognition/conversation/cognitiveservices/v1"
    
    try:
        with open(audio_path, "rb") as audio_file:
            response = requests.post(
                url,
                headers={
                    "Ocp-Apim-Subscription-Key": api_key,
                    "Content-Type": "audio/wav; codecs=audio/pcm; samplerate=16000",
                    "Accept": "application/json"
                },
                params={"language": language, "format": "detailed"},
                data=audio_file
            )
        
        if response.status_code == 200:
            result = response.json()
            if result.get("RecognitionStatus") == "Success":
                return result
            else:
                print(f"Recognition failed: {result.get('RecognitionStatus')}")
                return None
        elif response.status_code == 400:
            print(f"Bad request: Check language code or audio format")
        elif response.status_code == 401:
            print(f"Unauthorized: Check API key or token")
        elif response.status_code == 403:
            print(f"Forbidden: Missing authorization header")
        else:
            print(f"Error {response.status_code}: {response.text}")
        
        return None
        
    except requests.exceptions.RequestException as e:
        print(f"Request failed: {e}")
        return None

Async Version

import os
import aiohttp
import asyncio

async def transcribe_async(audio_file_path: str, language: str = "en-US") -> dict:
    """Async version using aiohttp."""
    region = os.environ["AZURE_SPEECH_REGION"]
    api_key = os.environ["AZURE_SPEECH_KEY"]
    
    url = f"https://{region}.stt.speech.microsoft.com/speech/recognition/conversation/cognitiveservices/v1"
    
    headers = {
        "Ocp-Apim-Subscription-Key": api_key,
        "Content-Type": "audio/wav; codecs=audio/pcm; samplerate=16000",
        "Accept": "application/json"
    }
    
    params = {"language": language, "format": "detailed"}
    
    async with aiohttp.ClientSession() as session:
        with open(audio_file_path, "rb") as f:
            audio_data = f.read()
        
        async with session.post(url, headers=headers, params=params, data=audio_data) as response:
            response.raise_for_status()
            return await response.json()

# Usage
result = asyncio.run(transcribe_async("audio.wav", "en-US"))
print(result["DisplayText"])

Supported Languages

Common language codes (see full list):

CodeLanguage
en-USEnglish (US)
en-GBEnglish (UK)
de-DEGerman
fr-FRFrench
es-ESSpanish (Spain)
es-MXSpanish (Mexico)
zh-CNChinese (Mandarin)
ja-JPJapanese
ko-KRKorean
pt-BRPortuguese (Brazil)

Best Practices

  1. Pick sync OR async and stay consistent. Do not mix azure.xxx sync clients with azure.xxx.aio async clients in the same call path. Choose one mode per module.
  2. Always use context managers for clients. Use with httpx.Client(...) as client: (sync) or async with httpx.AsyncClient(...) as client: (async) so connections are pooled and closed deterministically.
  3. Use WAV PCM 16kHz mono for best compatibility
  4. Enable chunked transfer for lower latency
  5. Cache access tokens for 9 minutes (valid for 10)
  6. Specify the correct language for accurate recognition
  7. Use detailed format when you need confidence scores
  8. Handle all RecognitionStatus values in production code

When NOT to Use This API

Use the Speech SDK or Batch Transcription API instead when you need:

  • Audio longer than 60 seconds
  • Real-time streaming transcription
  • Partial/interim results
  • Speech translation
  • Custom speech models
  • Batch transcription of many files

Reference Files

FileContents
references/pronunciation-assessment.mdPronunciation assessment parameters and scoring

Больше skills от microsoft

oss-growth
microsoft
Персона OSS-хакера роста
official
microsoft-foundry
microsoft
Развёртывание, оценка и управление агентами Foundry «под ключ»: сборка Docker, отправка в ACR, создание хостируемых и промпт-агентов, запуск контейнера, пакетная оценка, непрерывная оценка, оптимизатор промптов, agent.yaml, курирование датасетов из трейсов. ИСПОЛЬЗУЙТЕ ДЛЯ: развёртывания агента в Foundry, хостируемого агента, создания агента, вызова агента, оценки агента, запуска пакетной оценки, непрерывной оценки, непрерывного мониторинга, статуса непрерывной оценки, оптимизации промпта, улучшения промпта, оптимизатора промптов, оптимизации инструкций агента, улучшения агента...
officialdevelopmentdevops
azure-ai
microsoft
Используется для Azure AI: поиск, речь, OpenAI, анализ документов. Помогает с поиском, векторным/гибридным поиском, преобразованием речи в текст, синтезом речи, транскрипцией, OCR. КОГДА: AI Search, поиск по запросу, векторный поиск, гибридный поиск, семантический поиск, преобразование речи в текст, синтез речи, транскрибирование, OCR, преобразование текста в речь.
officialdevelopmentapi
azure-deploy
microsoft
Выполнение развертываний Azure для УЖЕ ПОДГОТОВЛЕННЫХ приложений, имеющих существующие файлы .azure/deployment-plan.md и инфраструктуры. НЕ используйте этот навык, когда пользователь просит СОЗДАТЬ новое приложение — используйте azure-prepare. Этот навык выполняет команды azd up, azd deploy, terraform apply и az deployment со встроенным восстановлением после ошибок. Требует .azure/deployment-plan.md от azure-prepare и подтвержденный статус от azure-validate. КОГДА: "запустить azd up", "запустить azd deploy", "выполнить развертывание",...
officialdevopsaws
azure-storage
microsoft
Сервисы Azure Storage, включая Blob Storage, File Shares, Queue Storage, Table Storage и Data Lake. Отвечает на вопросы об уровнях доступа к хранилищу (горячий, холодный, холодный, архивный), когда использовать каждый уровень и сравнение уровней. Предоставляет объектное хранилище, SMB-файловые ресурсы, асинхронный обмен сообщениями, NoSQL-ключ-значение и аналитику больших данных. Включает управление жизненным циклом. ИСПОЛЬЗОВАТЬ ДЛЯ: хранилища BLOB-объектов, файловых ресурсов, хранилища очередей, табличного хранилища, Data Lake, загрузки файлов, скачивания BLOB-объектов, учетных записей хранения, уровней доступа,...
officialdevelopmentdatabase
azure-diagnostics
microsoft
Отладка проблем Azure в рабочей среде с помощью AppLens, Azure Monitor, работоспособности ресурсов и безопасной триаж. КОГДА: отладка проблем в рабочей среде, устранение неполадок службы приложений, высокая загрузка ЦП службы приложений, сбой развертывания службы приложений, устранение неполадок контейнерных приложений, устранение неполадок функций, устранение неполадок AKS, kubectl не может подключиться, сбои kube-system/CoreDNS, pod в состоянии ожидания, crashloop, узел не готов, сбои обновления, анализ журналов, KQL, аналитика, сбои извлечения образов, проблемы холодного запуска, сбои проверки работоспособности,...
officialdevopsdevelopment
azure-prepare
microsoft
Подготовка приложений Azure к развертыванию (инфра Bicep/Terraform, azure.yaml, Dockerfiles). Используйте для создания/модернизации или создания+развертывания; не для межоблачной миграции (используйте azure-cloud-migrate). НЕ ИСПОЛЬЗУЙТЕ ДЛЯ: приложений copilot-sdk (используйте azure-hosted-copilot-sdk). КОГДА: "создать приложение", "создать веб-приложение", "создать API", "создать бессерверный HTTP API", "создать фронтенд", "создать бэкенд", "собрать сервис", "модернизировать приложение", "обновить приложение", "добавить аутентификацию", "добавить кэширование", "разместить в Azure", "создать и...
officialdevelopmentdevops
azure-validate
microsoft
Предварительная проверка развертывания на готовность Azure. Выполняет глубокие проверки конфигурации, инфраструктуры (Bicep или Terraform), назначений ролей RBAC, разрешений управляемых удостоверений и предварительных требований перед развертыванием. КОГДА: проверить мое приложение, проверить готовность к развертыванию, выполнить предварительные проверки, проверить конфигурацию, проверить готовность к развертыванию, проверить azure.yaml, проверить Bicep, протестировать перед развертыванием, устранить ошибки развертывания, проверить Azure Functions, проверить приложение-функцию, проверить бессерверное...
officialdevopstesting