Türkçe Metin |
Bu, Facebook’un Wave2Letter ve Wave2LetterV2 kağıtlarına dayanan tamamen evrişimli bir modeldir . Model, 17 adet 1B Evrişimli Katmandan ve 2 Tam Bağlı Katmandan oluşur. Konuşma sinyalini, 10 ms’lik adımlarla 20 ms’lik kayan bir pencere kullanarak sinyalin ham ses dalga biçimini örnekleyerek ön işlenir. Daha sonra bu çerçevelerden modele girdi özellikleri olarak 64 boyutundaki log-mel filtre bankası enerjilerini çıkarılır. Modeli eğitmek için Bağlantısal Geçici Sınıflandırma (CTC) kaybını kullanılıyor. Modelin çıktısı, konuşma girişine karşılık gelen bir harf dizisidir. Kelime hazinesi, tüm alfabelerden , boşluktan ve kesme işareti sembolünden, CTC kaybının kullandığı boş sembol dahil olmak üzere toplam 29 sembolden oluşur. |
İngilizce Çevirisi |
This is a fully convoluted model based on Facebook’s wave2lette and Wave2LetterV2 papers . The Model consists of 17 1B convoluted layers and 2 fully connected layers. The speech signal is pre-processed by sampling the raw audio waveform of the signal using a 20 Ms floating window in 10 Ms steps. Then, from these frames, log-mel filter bank energies of size 64 are extracted as input properties to the model. Linkage transient classification (CTC) is used to train the model. The output of the model is a sequence of letters corresponding to the speech input. The vocabulary consists of all alphabets , spaces, and the apostrophe symbol, a total of 29 symbols, including the empty symbol used by the CTC. |