Ses dosyalarını ücretsiz olarak metne dönüştürün

Ulaşılabilir ve görünür olmanın çok önemli olduğu bir dönemden geçiyoruz. Hem bireysel olarak hem de markalarımız için bir çok video ve podcast hazırlıyoruz. Peki bunlar dış dünyadan ne kadar erişilebilir hiç düşündünüz mü? Yazılarınızı metne dönüştürerek ve hatta onları başka dillere çevirerek internetten büyük bir trafiği işlerinize yönlendirebileceğinizi biliyor muydunuz? Faydaları bu kadarla da sınırlı değil. Bir toplantıda sadece ses kaydı alarak konuşulanlardan todolar çıkarabilir, eksik kalan noktaları anlayabilir, diğer görüşmelerinizi ayarlayabilirsiniz. Bu yazımızda ses dosyalarını ücretsiz ve gizlilik kaygısı olmadannasıl metne dönüştürebileceğinizi inceleyeceğiz

OpenAI’nin geliştirdiği Whisper modeli sayesinde artık ses dosyalarınızı tamamen ücretsiz olarak kendi bilgisayarınız üzerinde metne dönüştürebilirsiniz. Üstelik güçlü bir ekran kartına (GPU) sahip olmanız da gerekmiyor — Whisper, CPU ile de gayet başarılı sonuçlar verebiliyor.

Yazımıda Whisper’ı bilgisayarınıza nasıl kuracağınızı, ses dosyalarınızı nasıl yazıya çevireceğinizi ve CPU modunda nasıl çalıştırabileceğinizi adım adım göstereceğiz.

Whisper Nedir?

Whisper, OpenAI tarafından geliştirilen bir otomatik konuşma tanıma (ASR – Automatic Speech Recognition) modelidir.
Yani bir ses dosyasını dinleyip içeriğini yazıya dönüştürür. Çok sayıda dilde (Türkçe dahil) çalışabilir ve açık kaynaklı olduğundan herkes kullanabilir.

Özellikle şunlar için idealdir:

YouTube veya podcast’lerdeki sesleri yazıya çevirmek
Röportaj ve toplantı kayıtlarını transkribe etmek
Videolardan altyazı oluşturmak

Kurulum

Öncelikle sisteminizde Python kurulu olmalı. Ardından terminal veya komut satırında şu adımları izliyoruz:

Python kurumu için https://www.python.org/downloads/windows/

Bu komut Whisper’ı indirip sisteminize kuracaktır.

Kurulum sırasında bir hata alırsanız aldığınız hatayı yine gemini ya da ChatGPT'ye yazarak çözün önerileri alabilirsiniz.

Ardından bir ses dosyasını (örneğin toplanti.mp3) dönüştürmek için:

Whisper bu komutla dosyayı dinleyecek, toplanti.txt adında bir çıktı oluşturacak ve tüm konuşmayı yazıya dökecektir.

GPU’su Olmayanlar İçin: CPU Modu

Eğer güçlü bir ekran kartınız yoksa hiç sorun değil.
Whisper varsayılan olarak GPU varsa onu kullanır ama yoksa otomatik olarak CPU moduna geçer.
Ancak CPU’yu bilinçli olarak seçmek isterseniz, şu komutu kullanabilirsiniz:

Model olarak verdiğimiz small komutunu bilgisayarınızın sahip olduğu ram miktarına göre artırarak daha iyi sonuçlar alabilirsiniz. Tablodan model isimlerini ve özelliklerini görebilirsiniz.

whisper yapay zeka modelleri

Bu komutla tüm işlem CPU üzerinden yapılır.Elbette biraz daha yavaş olacaktır, ancak sesin uzunluğuna göre fark genellikle dakikalarla sınırlıdır

Desteklenen Formatlar

Whisper MP3, WAV, M4A, MP4 ve FLAC dahil pek çok ses formatını destekler.
Yani video dosyanız varsa bile doğrudan içindeki sesi işleyebilir:

Soru ve sorunlarınız için bize yazabilirsiniz. Sitemizde ilerleyen zamanlarda "metin dosyalarını nasıl daha anlamlı hale getirebileceğiniz" hakkında yazılar da olmasını ayrıca "WhisperX ile birden fazla konuşmacısı olan ses kayıtlarını konuşmacılarını ayırarak nasıl metne dönüştürebileceğinizi" anlatmayı planlıyoruz.

Başka bir yazıda görüşmek üzere.

Ahmet Oğuz Koca

Üretken yapay zeka araçları ve yazılım uzmanı.

Ses dosyalarını ücretsiz olarak metne dönüştürün

Kurulum

GPU’su Olmayanlar İçin: CPU Modu

Desteklenen Formatlar

Ahmet Oğuz Koca

Paylaş