go-whisper-api/config.yaml.example

api:
  addr: "0.0.0.0:6183"
  models_dir: "./models"
  cache_dir: "./cache"
  # Open WebUI / OpenAI STT: model id when client sends whisper-1 (e.g. ggml-large-v3-turbo)
  default_model: ggml-large-v3-turbo
  threads: 16
  language: ru
  transcript:
    pause_gap_sec: 1.5
    speaker_label: "Спикер"
  default_speakers: false
  debug: false
  speedup: false
  translate: false
  prompt: ""
  max_context: 32
  beam_size: 5
  entropy_thold: 2.4
  vad:
    enabled: false
    model: vad/vad.bin
    threshold: 0.5
    min_speech_duration_ms: 250
    min_silence_duration_ms: 100
    speech_pad_ms: 30
    samples_overlap: 0.1
  default_punctuation: true
  default_async: true
  garbage:
    - "*выбая*"

# transcode: pure Go (wav, mp3, flac, ogg, m4a, mp4, aac) — no ffmpeg required
transcode: {}

diarization:
  enabled: false
  model_dir: ./models/diarization
  segmentation_model: pyannote-segmentation-3-0/model.onnx
  embedding_model: 3dspeaker_speech_eres2net_base_sv_zh-cn_3dspeaker_16k.onnx
  num_threads: 2
  num_clusters: 0
  clustering_threshold: 0.5

punctuation:
  enabled: true
  default_on: true
  # off | heuristic | xlm | sherpa | sherpa-online | http
  engine: xlm
  model_dir: ./models/punctuation/xlm-roberta
  model_file: model.onnx
  sp_model: sp.model
  config_file: config.yaml
  apply_sbd: true
  num_threads: 2