ICASSP SUBMISSION ANONYMOUS DEMO PAGE


Monolingual Speaker Adaptation

English

Sentence 1: In typical cases, the colloquial term forest also corresponds to the technical definitions.
Sentence 2: In machine learning, the type and power of the knowledge representation play an important role.
Sentence 3: In classical electrodynamics, light is understood as a high-frequency electromagnetic wave.

Mode Sentence 1 Sentence 2 Sentence 3
LJ->VCTK283
LJ->VCTK298
LJ->TRUMP

German

Sentence 1: Beim maschinellen Lernen spielen Art und Mächtigkeit der Wissensrepräsentation eine wichtige Rolle.
Sentence 2: Die Spieltheorie ist ein Teilgebiet der Mathematik, das sich damit befasst, Systeme mit mehreren Akteuren zu analysieren.
Sentence 3: In Bezug auf die Beschreibung von Kommunikation lassen sich mehrere unterschiedliche Zugangsweisen unterscheiden, die durch spezifische Grundannahmen charakterisiert sind.

Mode Sentence 1 Sentence 2 Sentence 3
InterMale->InterFemale
InterFemale->InterMale
InterMale->Merkel

Cross-Lingual Speaker Adaptation

*->French

Sentence 1: Les concepts politiques axés sur les conflits supposent l'existence de conflits comme des phénomènes inaltérables et nécessaires de la vie politico-sociale.
Sentence 2: Les forêts sont des écosystèmes complexes.

Mode Sentence 1 Sentence 2
ES->FR
KO->FR
EN->FR

*->Korean

Sentence 1: 알고리즘은 주어진 입력 및 출력 쌍에서 함수를 학습합니다.
Sentence 2: 기계 학습에서 지식 표현의 유형과 힘이 중요한 역할을합니다.

Mode Sentence 1 Sentence 2
EN->KO
ES->KO
DE->KO

*->German

Sentence 1: Farbnamen dienen zum gemeinsamen Verständnis der Umwelt.
Sentence 2: Durch die Problemstellung des Optimierungsproblems sind eine Zielfunktion sowie ein Problemraum, der potenzielle Lösungen enthält, gegeben.

Mode Sentence 1 Sentence 2
EN->DE
ES->DE
KO->DE

*->Spanish

Sentence 1: El arte es originalmente un fenómeno de culto que se desarrolló al mismo tiempo o en conexión con cultos o religiones prehistóricas.
Sentence 2: La Ilustración preparó el concepto de arte moderno.

Mode Sentence 1 Sentence 2
DE->ES
EN->ES
KO->ES

Accumulative Speaker Adaptation (+Pronunciation Enhancement)

The attention for the source model fails for the final language for most inputs, but here we show example whose alignments are (almost) correct, however you can still hear that the pronunciation is wrong for most words. The pronunciation in a target langauge is improved by transfer learning in an accumulative manner as shown in the second row of each example.

German->Spanish->French

Sentence 1: L'algorithme apprend une fonction à partir de paires d'entrées et de sorties données.
Sentence 2: Dans les cas typiques, le terme familier de forêt correspond également aux définitions techniques.

Mode Sentence 1 Sentence 2
Final Speaker(French)
First Speaker(German)
Source Model(Only German)

Spanish->Korean->German

Sentence 1: Eine gezielte und praktische Anwendung der Elektrizität erfolgte erst am Beginn der Neuzeit.
Sentence 2: Die Gesamtbetriebskosten eines Autos setzen sich aus Fixkosten und variablen Kosten zusammen.

Mode Sentence 1 Sentence 2
Final Speaker(German)
First Speaker(Spanish)
Source Model(Only Spanish)

Expert Alignment

Mode With Expert Alignment Without Expert Alignment
Noisy Data - Long Sentence Alignment
Avoiding Jumps and Abrupt Endings with Expert Alignment