azure-speech-to-text-rest-py

tarafından microsoft

Kısa ses dosyalarının (60 saniyeye kadar) konuşmadan metne dönüştürülmesi için basit REST API. SDK gerektirmez - sadece HTTP istekleri yeterlidir.

npx skills add https://github.com/microsoft/skills --skill azure-speech-to-text-rest-py

Azure Speech to Text REST API for Short Audio

Simple REST API for speech-to-text transcription of short audio files (up to 60 seconds). No SDK required - just HTTP requests.

Prerequisites

  1. Azure subscription - Create one free
  2. Speech resource - Create in Azure Portal
  3. Get credentials - After deployment, go to resource > Keys and Endpoint

Environment Variables

# Required
AZURE_SPEECH_KEY=<your-speech-resource-key>
AZURE_SPEECH_REGION=<region>  # e.g., eastus, westus2, westeurope

# Alternative: Use endpoint directly
AZURE_SPEECH_ENDPOINT=https://<region>.stt.speech.microsoft.com

Installation

pip install requests

Quick Start

import os
import requests

def transcribe_audio(audio_file_path: str, language: str = "en-US") -> dict:
    """Transcribe short audio file (max 60 seconds) using REST API."""
    region = os.environ["AZURE_SPEECH_REGION"]
    api_key = os.environ["AZURE_SPEECH_KEY"]
    
    url = f"https://{region}.stt.speech.microsoft.com/speech/recognition/conversation/cognitiveservices/v1"
    
    headers = {
        "Ocp-Apim-Subscription-Key": api_key,
        "Content-Type": "audio/wav; codecs=audio/pcm; samplerate=16000",
        "Accept": "application/json"
    }
    
    params = {
        "language": language,
        "format": "detailed"  # or "simple"
    }
    
    with open(audio_file_path, "rb") as audio_file:
        response = requests.post(url, headers=headers, params=params, data=audio_file)
    
    response.raise_for_status()
    return response.json()

# Usage
result = transcribe_audio("audio.wav", "en-US")
print(result["DisplayText"])

Audio Requirements

FormatCodecSample RateNotes
WAVPCM16 kHz, monoRecommended
OGGOPUS16 kHz, monoSmaller file size

Limitations:

  • Maximum 60 seconds of audio
  • For pronunciation assessment: maximum 30 seconds
  • No partial/interim results (final only)

Content-Type Headers

# WAV PCM 16kHz
"Content-Type": "audio/wav; codecs=audio/pcm; samplerate=16000"

# OGG OPUS
"Content-Type": "audio/ogg; codecs=opus"

Response Formats

Simple Format (default)

params = {"language": "en-US", "format": "simple"}
{
  "RecognitionStatus": "Success",
  "DisplayText": "Remind me to buy 5 pencils.",
  "Offset": "1236645672289",
  "Duration": "1236645672289"
}

Detailed Format

params = {"language": "en-US", "format": "detailed"}
{
  "RecognitionStatus": "Success",
  "Offset": "1236645672289",
  "Duration": "1236645672289",
  "NBest": [
    {
      "Confidence": 0.9052885,
      "Display": "What's the weather like?",
      "ITN": "what's the weather like",
      "Lexical": "what's the weather like",
      "MaskedITN": "what's the weather like"
    }
  ]
}

Chunked Transfer (Recommended)

For lower latency, stream audio in chunks:

import os
import requests

def transcribe_chunked(audio_file_path: str, language: str = "en-US") -> dict:
    """Stream audio in chunks for lower latency."""
    region = os.environ["AZURE_SPEECH_REGION"]
    api_key = os.environ["AZURE_SPEECH_KEY"]
    
    url = f"https://{region}.stt.speech.microsoft.com/speech/recognition/conversation/cognitiveservices/v1"
    
    headers = {
        "Ocp-Apim-Subscription-Key": api_key,
        "Content-Type": "audio/wav; codecs=audio/pcm; samplerate=16000",
        "Accept": "application/json",
        "Transfer-Encoding": "chunked",
        "Expect": "100-continue"
    }
    
    params = {"language": language, "format": "detailed"}
    
    def generate_chunks(file_path: str, chunk_size: int = 1024):
        with open(file_path, "rb") as f:
            while chunk := f.read(chunk_size):
                yield chunk
    
    response = requests.post(
        url, 
        headers=headers, 
        params=params, 
        data=generate_chunks(audio_file_path)
    )
    
    response.raise_for_status()
    return response.json()

Authentication Options

Option 1: Subscription Key (Simple)

headers = {
    "Ocp-Apim-Subscription-Key": os.environ["AZURE_SPEECH_KEY"]
}

Option 2: Bearer Token

import requests
import os

def get_access_token() -> str:
    """Get access token from the token endpoint."""
    region = os.environ["AZURE_SPEECH_REGION"]
    api_key = os.environ["AZURE_SPEECH_KEY"]
    
    token_url = f"https://{region}.api.cognitive.microsoft.com/sts/v1.0/issueToken"
    
    response = requests.post(
        token_url,
        headers={
            "Ocp-Apim-Subscription-Key": api_key,
            "Content-Type": "application/x-www-form-urlencoded",
            "Content-Length": "0"
        }
    )
    response.raise_for_status()
    return response.text

# Use token in requests (valid for 10 minutes)
token = get_access_token()
headers = {
    "Authorization": f"Bearer {token}",
    "Content-Type": "audio/wav; codecs=audio/pcm; samplerate=16000",
    "Accept": "application/json"
}

Query Parameters

ParameterRequiredValuesDescription
languageYesen-US, de-DE, etc.Language of speech
formatNosimple, detailedResult format (default: simple)
profanityNomasked, removed, rawProfanity handling (default: masked)

Recognition Status Values

StatusDescription
SuccessRecognition succeeded
NoMatchSpeech detected but no words matched
InitialSilenceTimeoutOnly silence detected
BabbleTimeoutOnly noise detected
ErrorInternal service error

Profanity Handling

# Mask profanity with asterisks (default)
params = {"language": "en-US", "profanity": "masked"}

# Remove profanity entirely
params = {"language": "en-US", "profanity": "removed"}

# Include profanity as-is
params = {"language": "en-US", "profanity": "raw"}

Error Handling

import requests

def transcribe_with_error_handling(audio_path: str, language: str = "en-US") -> dict | None:
    """Transcribe with proper error handling."""
    region = os.environ["AZURE_SPEECH_REGION"]
    api_key = os.environ["AZURE_SPEECH_KEY"]
    
    url = f"https://{region}.stt.speech.microsoft.com/speech/recognition/conversation/cognitiveservices/v1"
    
    try:
        with open(audio_path, "rb") as audio_file:
            response = requests.post(
                url,
                headers={
                    "Ocp-Apim-Subscription-Key": api_key,
                    "Content-Type": "audio/wav; codecs=audio/pcm; samplerate=16000",
                    "Accept": "application/json"
                },
                params={"language": language, "format": "detailed"},
                data=audio_file
            )
        
        if response.status_code == 200:
            result = response.json()
            if result.get("RecognitionStatus") == "Success":
                return result
            else:
                print(f"Recognition failed: {result.get('RecognitionStatus')}")
                return None
        elif response.status_code == 400:
            print(f"Bad request: Check language code or audio format")
        elif response.status_code == 401:
            print(f"Unauthorized: Check API key or token")
        elif response.status_code == 403:
            print(f"Forbidden: Missing authorization header")
        else:
            print(f"Error {response.status_code}: {response.text}")
        
        return None
        
    except requests.exceptions.RequestException as e:
        print(f"Request failed: {e}")
        return None

Async Version

import os
import aiohttp
import asyncio

async def transcribe_async(audio_file_path: str, language: str = "en-US") -> dict:
    """Async version using aiohttp."""
    region = os.environ["AZURE_SPEECH_REGION"]
    api_key = os.environ["AZURE_SPEECH_KEY"]
    
    url = f"https://{region}.stt.speech.microsoft.com/speech/recognition/conversation/cognitiveservices/v1"
    
    headers = {
        "Ocp-Apim-Subscription-Key": api_key,
        "Content-Type": "audio/wav; codecs=audio/pcm; samplerate=16000",
        "Accept": "application/json"
    }
    
    params = {"language": language, "format": "detailed"}
    
    async with aiohttp.ClientSession() as session:
        with open(audio_file_path, "rb") as f:
            audio_data = f.read()
        
        async with session.post(url, headers=headers, params=params, data=audio_data) as response:
            response.raise_for_status()
            return await response.json()

# Usage
result = asyncio.run(transcribe_async("audio.wav", "en-US"))
print(result["DisplayText"])

Supported Languages

Common language codes (see full list):

CodeLanguage
en-USEnglish (US)
en-GBEnglish (UK)
de-DEGerman
fr-FRFrench
es-ESSpanish (Spain)
es-MXSpanish (Mexico)
zh-CNChinese (Mandarin)
ja-JPJapanese
ko-KRKorean
pt-BRPortuguese (Brazil)

Best Practices

  1. Pick sync OR async and stay consistent. Do not mix azure.xxx sync clients with azure.xxx.aio async clients in the same call path. Choose one mode per module.
  2. Always use context managers for clients. Use with httpx.Client(...) as client: (sync) or async with httpx.AsyncClient(...) as client: (async) so connections are pooled and closed deterministically.
  3. Use WAV PCM 16kHz mono for best compatibility
  4. Enable chunked transfer for lower latency
  5. Cache access tokens for 9 minutes (valid for 10)
  6. Specify the correct language for accurate recognition
  7. Use detailed format when you need confidence scores
  8. Handle all RecognitionStatus values in production code

When NOT to Use This API

Use the Speech SDK or Batch Transcription API instead when you need:

  • Audio longer than 60 seconds
  • Real-time streaming transcription
  • Partial/interim results
  • Speech translation
  • Custom speech models
  • Batch transcription of many files

Reference Files

FileContents
references/pronunciation-assessment.mdPronunciation assessment parameters and scoring

microsoft tarafından daha fazla skill

oss-growth
microsoft
OSS büyüme korsanı kişiliği
official
microsoft-foundry
microsoft
Foundry ajanlarını uçtan uca dağıtın, değerlendirin ve yönetin: Docker build, ACR push, barındırılan/prompt ajan oluşturma, konteyner başlatma, toplu değerlendirme, sürekli değerlendirme, prompt optimizer iş akışları, agent.yaml, izlerden veri kümesi oluşturma. ŞUNUN İÇİN KULLANIN: ajanı Foundry'ye dağıtma, barındırılan ajan, ajan oluşturma, ajanı çağırma, ajanı değerlendirme, toplu değerlendirme çalıştırma, sürekli değerlendirme, sürekli izleme, sürekli değerlendirme durumu, prompt optimize etme, prompt iyileştirme, prompt optimizer
officialdevelopmentdevops
azure-ai
microsoft
Azure AI için kullanılır: Arama, Konuşma, OpenAI, Belge Zekası. Arama, vektör/karma arama, konuşmadan metne, metinden konuşmaya, transkripsiyon, OCR konularında yardımcı olur. NE ZAMAN: AI Arama, sorgu arama, vektör arama, karma arama, anlamsal arama, konuşmadan metne, metinden konuşmaya, transkribe etme, OCR, metni konuşmaya dönüştürme.
officialdevelopmentapi
azure-deploy
microsoft
Halihazırda .azure/deployment-plan.md ve altyapı dosyaları bulunan, ÖNCEDEN HAZIRLANMIŞ uygulamalar için Azure dağıtımlarını gerçekleştirir. Kullanıcı yeni bir uygulama OLUŞTURMAK istediğinde bu beceriyi KULLANMAYIN — bunun yerine azure-prepare kullanın. Bu beceri, yerleşik hata kurtarma ile azd up, azd deploy, terraform apply ve az deployment komutlarını çalıştırır. azure-prepare'dan .azure/deployment-plan.md ve azure-validate'dan onaylanmış durum gerektirir. NE ZAMAN: "azd up çalıştır", "azd deploy çalıştır", "dağıtımı gerçekleştir",...
officialdevopsaws
azure-storage
microsoft
Azure Storage Services dahil olmak üzere Blob Storage, File Shares, Queue Storage, Table Storage ve Data Lake. Depolama erişim katmanları (hot, cool, cold, archive), her katmanın ne zaman kullanılacağı ve katman karşılaştırması hakkında soruları yanıtlar. Nesne depolama, SMB dosya paylaşımları, eşzamansız mesajlaşma, NoSQL anahtar-değer ve büyük veri analitiği sağlar. Yaşam döngüsü yönetimini içerir. KULLANIM AMACI: blob depolama, dosya paylaşımları, kuyruk depolama, tablo depolama, data lake, dosya yükleme, blob indirme, depolama hesapları, erişim katmanları,...
officialdevelopmentdatabase
azure-diagnostics
microsoft
Azure üretim sorunlarını AppLens, Azure Monitor, kaynak durumu ve güvenli triyaj kullanarak hata ayıklayın. NE ZAMAN: üretim sorunlarını hata ayıklama, uygulama servisini sorun giderme, uygulama servisi yüksek CPU, uygulama servisi dağıtım hatası, konteyner uygulamalarını sorun giderme, işlevleri sorun giderme, AKS sorun giderme, kubectl bağlanamıyor, kube-system/CoreDNS hataları, pod beklemede, crashloop, düğüm hazır değil, yükseltme hataları, günlükleri analiz etme, KQL, içgörüler, görüntü çekme hataları, soğuk başlatma sorunları, durum yoklaması
officialdevopsdevelopment
azure-prepare
microsoft
Azure uygulamalarını dağıtıma hazırlayın (altyapı Bicep/Terraform, azure.yaml, Dockerfiles). Oluşturma/modernize etme veya oluşturma+dağıtma için kullanın; çapraz bulut geçişi için kullanmayın (azure-cloud-migrate kullanın). ŞUNLAR İÇİN KULLANMAYIN: copilot-sdk uygulamaları (azure-hosted-copilot-sdk kullanın). ŞU DURUMLARDA: "uygulama oluştur", "web uygulaması oluştur", "API oluştur", "sunucusuz HTTP API oluştur", "ön uç oluştur", "arka uç oluştur", "hizmet oluştur", "uygulamayı modernize et", "uygulamayı güncelle",
officialdevelopmentdevops
azure-validate
microsoft
Azure dağıtım öncesi hazırlık doğrulaması. Dağıtım öncesinde yapılandırma, altyapı (Bicep veya Terraform), RBAC rol atamaları, yönetilen kimlik izinleri ve ön koşullar üzerinde derin kontroller gerçekleştirir. NE ZAMAN: uygulamamı doğrula, dağıtım hazırlığını kontrol et, ön kontrolleri çalıştır, yapılandırmayı doğrula, dağıtıma hazır olup olmadığını kontrol et, azure.yaml dosyasını doğrula, Bicep'i doğrula, dağıtım öncesi test et, dağıtım hatalarını gider, Azure Functions'ı doğrula, function uygulamasını doğrula, sunucusuz do
officialdevopstesting