Türkçe Metin |
Ardından daha önce de modellerimde kullanmış olduğum sesin işleyişinin yapıldığı Spectrogram aşaması geliyor.Ardından model kısmı geliyor.Burada 3 katmanlı CNN(Convolutional Neural Network) yapısı kullanılmış.Kernel boyutları 11-41 ile 2-2 ye olarak ayarlanmış.Bu modeli extra özel kılan konu farklı modellerinde aynı anda kullanılmış olması.5 katmanlı Bidirectional GRU’s ve LSTM’ler kullanılmış.Training kısmında ise kontrol mekanizmesi olarak CTC(Connectionist temporal classification) kullanılması tercih edilmiş.Yapının son kısmında ise Decoder kullanılmış.Decoder için, Greedy,beam search with language model özellikleri tercih edilmiş. Bu model CTC kaybıyla eğitilmiştir. Kelime Hata Oranı(WER) ana hata metriğidir.CTC tabanlı bir model oluşturulduğu için, bu modeller genellikle iki farklı kod çözücü kullanır.Bunlardan bir tanesi Greedy decoder ve Beam search kullanılmıştır. |
İngilizce Çevirisi |
Then comes the Spectrogram stage, in which the sound that I have used in my models before is processed.Then comes the model part.Here, a 3-layer CNN (Convolutional Neural Network) structure is used.Kernel sizes are set from 11-41 to 2-2.The issue that makes this model extra special is that it was used simultaneously on different models.5-layer Bidirectional GRU’s and LSTMs were used.In the Training section, it was preferred to use CTC(Connectionist temporal classification) as a control mechanism.In the last part of the structure, the Decoder was used.For Decoder, Greedy, beam search with language model features were preferred. This model is trained with CTC loss. Word error rate (WER) is the main error metric.Because a CTC-based model is created, these models often use two different decoders.One of them was Greedy decoder and Beam search. |