Türkçe Metin |
Data Preparation Speech to Text or Recognition modelleme sistemi, bazı özel konuşma teknikleri ve hedeflenmiş konuşma örnekleri içerir.Bir çok model ve yapılanma şekli olduğundan şuan için kendimize uygun olan bir çalışmanın, işleyiş biçimini örnek aldığımız için, onun işleyiş yöntemini uygulamak en mantıklı yol.Bu yüzden, Speech to Text, bilgi toplamak için per-dataset-split TSV yöntemini kullanıyor.Öncelerde de araştırmasını yapmış olduğum tokenleme sisteminin aksine, bu yöntem ve bazı özellikler(log mel-scale filters banks) modelin eğitimi esnasında bir hata çıkarsa anında düzeltmek için çok uygun bir yöntem olduğundan burda da tartışmasız bir şekilde kullanılmak için tercih edilmiş. Bu yöntem, modelin çalışabilmesine olanak sağlama konusunda oldukça iyi çünkü 2 farklı yol sağlıyor kullanıcıya.Formatları Numpy şekilinde de tutabiliriz veya wav/flac ses dosyası şeklinde de tutabiliriz.Ardından uygun yöntem seçildikten sonra verinin zip halinden çıkartılıp işleme sokulabilmesi için gerekli prosedürler uygulanır. Speech to Text bazı birleşik arayüzler kullanmaktadır.Bunlar fairseq-train ve fairseq-generate olmak üzere iki çeşittir. Arguman olarak da –task speech_to_text ve –arch <arch in fairseq.models.speech_to_text.*> olarak iki çeşit kullanır. Gerekli datanın indirilmesi için yapılması gereken önemli adım aşşağıdaki gibidir. |
İngilizce Çevirisi |
Data Preparation The speech to Text or Recognition modeling system includes some specialized speech techniques and targeted speech examples.Since there are many models and forms of structuring, it is the most logical way to apply its method of functioning, since we take as an example the way a work that is suitable for us now works.Therefore, Speech to Text uses the Thu-dataset-split TSV method to gather information.Unlike the tokenization system, which I have researched before, this method and some features(log Mel-scale filters banks) are a very convenient method to fix it instantly if an error occurs during the model’s training, so it is arguably preferred to be used here. This method is very good at allowing the model to work, because it provides the user with 2 different ways.We can also keep formats in Numpy format or wav/flac audio file format.After selecting the appropriate method, the necessary procedures are applied so that the data can be removed from the zip state and processed. Speech to Text uses some unified interfaces.These are two varieties, fairseq-train and fairseq-generate. Arguman also has –task speech_to_text and-arch <arch in fairseq.models.speech_to_text.* > uses two kinds as. An important step to download the necessary data is as follows. |