1 分•作者: vadiml•10 个月前
构建了一个工具,结合了 MLX Whisper 和 pyannote,可在 Apple Silicon 芯片上实现快速的本地音频转录和说话人分割。
主要优势:隐私优先(完全本地处理)、硬件加速、自动说话人识别、多种输出格式(TXT/SRT/JSON)。
主要的技术挑战在于,尽管音频处理方式不同,但仍需使 MLX Whisper 和 pyannote 协同工作——通过预处理流程解决。
非常适合用于访谈、会议和播客。 能够处理 Hugging Face 的受限模型,并具有适当的错误处理机制。