Stimmen klonen mit Deep Learning in Python

Imitiere jede beliebige Stimme mit nur 5 Sekunden Sprachaufnahme

Ratings: 4.34 / 5.00




Description

Deep Learning ist dafür bekannt, bahnbrechende Ergebnisse in verschiedensten Disziplinen zu liefern - so auch in der Erzeugung von Sprache aus Text, dem sogenannten Text-To-Speech. In diesem Kurs werdet ihr lernen, wie man beliebige Stimmen klont und eine Anwendung schreibt, die mit einer kurzen Audioaufnahme einer Stimme und einem Text eine Audiodatei erzeugt, die genau diesen Text mit der angegebenen Stimme spricht.

Kernthemen dieser Disziplin sind:

  • Beschaffung und Formatierung der Trainingsdaten, um die neuronalen Netze zu trainieren.

  • Durchführung des Trainings eines Encoders zur Erzeugung eines Embeddings für die Stimmen der Sprecher

  • Durchführen des Trainings eines Synthesizers zur Erzeugung von Phonemen und Mel Spektrogrammen

  • Durchführung des Trainings eines Vocoders zur Generierung von Wave-Daten aus Mel Spektrogrammen

Ist das geschafft, zeige ich euch, wie ihr die Modelle in einer UI ladet oder sie einfach per Python API aufruft.

Wir werden in diesem Kurs auf der Arbeit von Corentin Jemine (Real Time Voice Cloning) aufsetzen, um nicht ganz von vorne beginnen zu müssen. Wenn ihr das Framework bereits kennt, wird euch dieser Kurs bei der Anwendung auf die deutsche (oder jede beliebige andere) Sprache helfen. Alle Werkzeuge, die wir verwenden, sind frei zugänglich und open-source, sodass ihr bei Bedarf jede Funktion bis in ihre tiefsten Tiefen nachvollziehen könnt.

Ein kleiner Hinweis am Schluss: Dieser Kurs ist dafür gedacht Stimmen zu klonen, von deren Besitzern ihr die Zustimmung habt.

What You Will Learn!

  • Trainieren von KI Modellen zum Klonen der eigenen Stimme
  • Verstehen, was ein Encoder, Synthesizer und ein Vocoder macht
  • Deep Learning in Python anzuwenden

Who Should Attend!

  • Python Entwickler
  • Data Scientists
  • Künstler