Kategoriler
Metin Çevirileri

Bunlara Ek Olarak Daha Öncede Bahsettiğim Greedy… İngilizce Çevirisi

Türkçe Metin

Bunlara ek olarak daha öncede bahsettiğim Greedy Learning Method’u ve kaynak olarak benimde eski projelerimde kullandığım LibriSpeech datasetleri kullanılmış.Hazır olarak kullanıma sunulan bu modelde, 8 GPU tercih edilip eğitim döngülerini 200 epoch olarak tercih etmişler.Bu hazırlanan modelin ne kadar sorunsuz ve hatasız çalışabileceğin çok güçlü bir belirtisidir.
Diğer bir örnek ise Jasper adlı bir Speech to Text modelidir.
asper (Just Another Speech Recognizer), 1B evrişimli katman bloklarından oluşan derin bir zaman gecikmeli sinir ağıdır (TDNN). Jasper, her modelin farklı sayıda katmana sahip olduğu bir model ailesidir. Jasper modelleri, b ve r’nin temsil ettiği Jasper bxr olarak adlandırılır.
Tüm modellerin 4 ortak katmanı vardır. Konuşmanın zaman boyutunu azaltmak için adım 2’ye sahip bir başlangıç evrişimli katman vardır. Diğer 3 katman ağın sonundadır. İlk katman, modelin alıcı alanını artırmak için 2’lik bir genişlemeye sahiptir. Son iki katman, nihai çıktıyı karakterler üzerinden bir dağıtıma yansıtmak için kullanılan tamamen bağlantılı katmanlardır. Her 1 boyutlu evrişimli katman, evrişimli bir işlem, parti normalizasyonu, kırpılmış relu aktivasyonu ve bırakmadan oluşur.
Her blok arasında bir projeksiyon katmanından oluşan bir artık bağlantı ve ardından toplu normalizasyon vardır. Kalıntı daha sonra kesilmiş relu aktivasyonu ve bırakmadan önce bloktaki son 1D-evrişimli katmanın çıktısına eklenir. Konuşma sinyalini, 10 ms’lik adımlarla 20 ms’lik kayan bir pencere kullanarak sinyalin ham ses dalga biçimini örnekleyerek ön işliyoruz. Daha sonra bu çerçevelerden modele girdi özellikleri olarak 64 boyutundaki log-mel filtre bankası enerjilerini çıkarılır.

İngilizce Çevirisi

In addition, the Greedy Learning method I mentioned earlier and the LibriSpeech datasets I used in my old projects were used as sources.In this ready-made model, 8 GPUs were preferred and they preferred training cycles as 200 epoch.This is a very powerful symptom of how smoothly and error-free the prepared model can work.
Another example is a Speech to Text model called Jasper.
asper (just Another Speech Recognizer) is a deep time-delayed neural network (TDNN) consisting of 1B-convoluted layer blocks. Jasper is a family of models in which each model has a different number of layers. Jasper models are called Jasper bxr, which b and R represent.
All models have 4 Common layers. There is an initial convoluted layer with Step 2 to reduce the time size of the conversation. The other 3 layers are at the end of the network. The first layer has an expansion of 2 to increase the receiver area of the model. The last two layers are fully linked layers that are used to project the final output over characters into a distribution. Each 1-dimensional convoluted layer consists of a convoluted process, batch normalization, clipped relu activation, and release.
Between each block there is a residual link consisting of a projection layer followed by bulk normalization. The residue is then truncated and added to the output of the last 1D-convoluted layer in the block before release. We pre-process the speech signal by sampling the raw audio waveform of the signal using a 20 Ms floating window in 10 Ms steps. Then, from these frames, log-mel filter bank energies of size 64 are extracted as input properties to the model.