Training;Degradation;Transducers;Costs;Conferences;Speech enhancement;Transformers;automatic speech recognition;speech translation;streaming;serialized output training

Token-Level Serialized Output Training for Joint Streaming ASR and ST Leveraging Textual Alignments

Sara Papi, Peidong Wang, Junkun Chen, Jian Xue, Jinyu Li, Yashesh Gaur