Ulaşılabilir ve görünür olmanın çok önemli olduğu bir dönemden geçiyoruz. Hem bireysel olarak hem de markalarımız için bir çok video ve podcast hazırlıyoruz. Peki bunlar dış dünyadan ne kadar erişilebilir hiç düşündünüz mü? Yazılarınızı metne dönüştürerek ve hatta onları başka dillere çevirerek internetten büyük bir trafiği işlerinize yönlendirebileceğinizi biliyor muydunuz? Faydaları bu kadarla da sınırlı değil. Bir toplantıda sadece ses kaydı alarak konuşulanlardan todolar çıkarabilir, eksik kalan noktaları anlayabilir, diğer görüşmelerinizi ayarlayabilirsiniz. Bu yazımızda ses dosyalarını ücretsiz ve gizlilik kaygısı olmadannasıl metne dönüştürebileceğinizi inceleyeceğiz
OpenAI’nin geliştirdiği Whisper modeli sayesinde artık ses dosyalarınızı tamamen ücretsiz olarak kendi bilgisayarınız üzerinde metne dönüştürebilirsiniz. Üstelik güçlü bir ekran kartına (GPU) sahip olmanız da gerekmiyor — Whisper, CPU ile de gayet başarılı sonuçlar verebiliyor.
Yazımıda Whisper’ı bilgisayarınıza nasıl kuracağınızı, ses dosyalarınızı nasıl yazıya çevireceğinizi ve CPU modunda nasıl çalıştırabileceğinizi adım adım göstereceğiz.

Whisper Nedir?
Whisper, OpenAI tarafından geliştirilen bir otomatik konuşma tanıma (ASR – Automatic Speech Recognition) modelidir.
Yani bir ses dosyasını dinleyip içeriğini yazıya dönüştürür. Çok sayıda dilde (Türkçe dahil) çalışabilir ve açık kaynaklı olduğundan herkes kullanabilir.
Özellikle şunlar için idealdir:
Öncelikle sisteminizde Python kurulu olmalı. Ardından terminal veya komut satırında şu adımları izliyoruz:
Python kurumu için https://www.python.org/downloads/windows/
pip install -U openai-whisper
Bu komut Whisper’ı indirip sisteminize kuracaktır.
Kurulum sırasında bir hata alırsanız aldığınız hatayı yine gemini ya da ChatGPT'ye yazarak çözün önerileri alabilirsiniz.
Ardından bir ses dosyasını (örneğin toplanti.mp3) dönüştürmek için:
whisper toplanti.mp3 --model small --language Turkish --device cudaWhisper bu komutla dosyayı dinleyecek, toplanti.txt adında bir çıktı oluşturacak ve tüm konuşmayı yazıya dökecektir.
Eğer güçlü bir ekran kartınız yoksa hiç sorun değil.
Whisper varsayılan olarak GPU varsa onu kullanır ama yoksa otomatik olarak CPU moduna geçer.
Ancak CPU’yu bilinçli olarak seçmek isterseniz, şu komutu kullanabilirsiniz:
whisper toplanti.mp3 --model small --device cpu --language Turkish
Model olarak verdiğimiz small komutunu bilgisayarınızın sahip olduğu ram miktarına göre artırarak daha iyi sonuçlar alabilirsiniz. Tablodan model isimlerini ve özelliklerini görebilirsiniz.

Bu komutla tüm işlem CPU üzerinden yapılır.Elbette biraz daha yavaş olacaktır, ancak sesin uzunluğuna göre fark genellikle dakikalarla sınırlıdır
Whisper MP3, WAV, M4A, MP4 ve FLAC dahil pek çok ses formatını destekler.
Yani video dosyanız varsa bile doğrudan içindeki sesi işleyebilir:
whisper video.mp4 --language Turkish
Soru ve sorunlarınız için bize yazabilirsiniz. Sitemizde ilerleyen zamanlarda "metin dosyalarını nasıl daha anlamlı hale getirebileceğiniz" hakkında yazılar da olmasını ayrıca "WhisperX ile birden fazla konuşmacısı olan ses kayıtlarını konuşmacılarını ayırarak nasıl metne dönüştürebileceğinizi" anlatmayı planlıyoruz.
Başka bir yazıda görüşmek üzere.

