При транскрибации не выделить одного из двух говорящих
Использовал pyannote-audio (diarization) для определения 2-ух спикеров. Но нужно выделить только одного из них и транскрибировать. Это возможно? Использовал:
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained(
"pyannote/speaker-diarization-3.1",
use_auth_token="token")
import torch
pipeline.to(torch.device("cuda"))
diarization = pipeline("filepath")
for turn, _, speaker in diarization.itertracks(yield_label=True):
print(f"start={turn.start:.1f}s stop={turn.end:.1f}s speaker_{speaker}")