„Es herrschen viele Mythen und Wunschvorstellungen“ – Hanna Lukashevich
Shownotes
In dieser Podcast-Folge sprechen wir mit Hanna Lukashevich, Leiterin der Gruppe Semantic Media Technologies am Fraunhofer-Institut und Expertin für KI-gestützte Audio- und Musikanalyse, über eine zentrale Frage der modernen KI-Forschung: Ist es möglich, vom Output eines Modells auf den ursprünglichen Input zu schließen? Dabei wird deutlich, dass wir diese Technologien häufig noch nach veralteten Parametern bewerten und umfassende Änderungen an unserer Herangehensweise notwendig sind, um ihre wahre Leistungsfähigkeit angemessen zu erfassen. Hanna Lukashevich erklärt zudem, welche Daten tatsächlich erforderlich sind, um robuste Modelle zu trainieren, und beschreibt ein besonders faszinierendes Phänomen: Wie KI-Modelle auch von Daten lernen können, die ihnen nie explizit eingefüttert wurden und die folglich nicht direkt im Output sichtbar werden.
Weiterführende Ressourcen:
- https://www.eugeniastamboliev.com
- https://www.idmt.fraunhofer.de/de/forschungsthemen/analyse-annotation-audio-video/automatische-musikanalyse.html
Kontaktinformationen:
- Email: hallo@ki-derpodcast.de
- Website: https://www.ki-derpodcast.de
- Soziale Medien: https://www.linkedin.com/company/kuenstlerische-intelligenz
Credits:
- Intro und Outro: Roland Geiger
- Podcast-Coverfoto: Benedikt Hahn
- Episoden-Coverfoto: privat
Transkript anzeigen
00:00:03: Künstlerische Intelligenz.
00:00:06: Über die Auswirkungen von KI auf Kunstschaffende und die Gesellschaft mit Anna-Sophia Lumpe und GesprächspartnerInnen, heute mit der Physikerin Hannah Lukasiewicz.
00:00:21: Herzlich willkommen!
00:00:24: Wir haben es gerade schon gehört du bist Physikerinnen aber noch viel mehr als das.
00:00:28: Du bist die Leiterin der Gruppe Semantic Media Technologies am Fraunhofer iDMT und Expertin für KI-gestützte Audio- und Musikanalyse.
00:00:37: Herzlich willkommen, ich freue mich, dass du heute bei uns bist!
00:00:40: Danke schön für die schöne Begrüßung, es freut mich dabei zu sein.
00:00:44: Ja, ich bin ganz neugierig weil wir haben hier schon sehr häufig über die Emotionen gesprochen, mit den Kunstschaffenden gesprochen was die Technologie angeht.
00:00:56: Aber ich möchte heute von dir ganz viel lernen.
00:00:59: wie funktioniert das denn eigentlich und was genau machst du?
00:01:03: Vielleicht steigen wir damit ein!
00:01:05: Was ist dein Bereich beim Fraunhofer-Institut?
00:01:08: womit beschäftigst du dich die meiste Zeit?
00:01:12: So bei uns in der Gruppe beschäftigen Im Grunde mit KI, mit vielen Facetten.
00:01:18: Ich habe jetzt seit Januar diesen neuen Group of Semantic Media Technologies.
00:01:21: Davor hieß meine Gruppe Semantic Music Technologies.
00:01:25: Da waren wir noch viel mehr mit Fokus auf Musik und auf Audio insgesamt.
00:01:30: Und bei uns geht es immer darum wie kann man mit KI die Technologie... Nützliche Informationen zum Beispiel in Musik gewinnen.
00:01:38: Wie kann ich in einem riesigen Musikarchiv den Titel finden, den ich wirklich finden möchte?
00:01:46: verschiedene Anwendungen unterstützen, die zum Beispiel die genaue Opposition von gespielten Noten in Musik brauchen.
00:01:53: Aber durchaus ... also Musik ist ein bisschen mein Schwerpunkt!
00:01:57: Da habe ich dich schon ein bisschen vorgewarnt,
00:01:59: aber das ist auch sehr interessant.
00:02:01: Bei der Musik gibt es durchaus ähnliche Fragestellung auch wie bei den Künstlisch- oder synthetischen Sprachen, denn Technologien sind im Grunde Ähnlich und deswegen schauen wir uns spätestens in den letzten drei Jahren auch intensiv wie es mit der KI-Musik weitergeht, weil die Musikbranche ist glaube ich mindestens so aufgeregt wie dein Gebiet.
00:02:31: Ja ich glaube auch also wir sind alle ein bisschen aufgereght, weil ... Die Technologie unseres Wissens nach ja auf Basis von Daten funktioniert.
00:02:40: Und wo kommen die her?
00:02:41: Die kommen halt nicht aus dem Computer ursprünglich, sondern von Kunstschärfenden!
00:02:46: Aber was mich interessiert ist, würdest du das, was dein Bereich ist, sprechen wir da von generativer KI oder sprichst du von analytischer?
00:02:55: Beides.
00:02:56: Das heißt, wir kommen von der analytische Seite aber wir schauen durchaus natürlich auch wie welche Auswirkungen das für die generativa KI hat Und die Zielsetzung ist nicht so kommerziell, KI-Generatoren anzubieten.
00:03:10: Aber andere Nebenfragestellungen sind zu schauen.
00:03:14: zum Beispiel wie kann ich die KI Generatoren grundsätzlich zugestalten dass man mehr Kontrolle hat weil es für die Musiker sehr interessant ist sagen wir so einer KI die mit Knopf irgendwie ein Musikstück ausspurt.
00:03:29: Es ist ja für Spielereien interessant, aber für die echte Anwendung weniger interessant.
00:03:34: und je mehr Kontrolle man reinbringt desto interessanter wird das.
00:03:38: Und dann schauen wir uns ziemlich detailiert die Detektion und die Attributionen.
00:03:44: Das sind die Fragestellungen, die für die Industrie besonders wichtig sind.
00:03:46: Wir können nicht überhaupt detektieren weil alle möchten wissen mindestens also da ist die Zustimmung Beinach hundert Prozent, dass die Menschen wissen möchten.
00:03:55: Ist es nun kein Generiert oder nicht und Musik ist sehr emotional?
00:03:58: Und da ... das ist sehr wichtig!
00:04:00: Das ist bei der Sprache, glaube ich auch.
00:04:03: Ja natürlich, also es geht vor allen Dingen darum rauszufinden welcher Anteil von einem Musikstück nicht menschengemacht ist sozusagen dafür.
00:04:13: davor steht ihr ganz
00:04:16: Und Attribution, das sind diese Wunschvorstellungen.
00:04:20: Ich habe irgendwie magisch ein Output bekommen.
00:04:22: wie kann ich denn zurückrechnen?
00:04:24: Ist da meine Stimme oder mein Musikstück drin gewesen bei dem Training oder nicht?
00:04:30: Oder sehr praktischer Fragestellung nun ist es so dass wir sehen auch dass die Musikindustrie die ersten Deals seit dem letzten Jahr abschließt und die Musikataloge ganz legal jetzt lizenziert.
00:04:46: Nun wird da ein Output produziert, wie kann ich das attribuieren?
00:04:50: Wie kann ich dann zurückrechnen welche Anteile von Trainingsdaten beigetragen haben?
00:04:57: Das ist ja eine Frage.
00:04:59: Kann man das zurückzeichnen?
00:05:01: Ein klares Jein.
00:05:04: Ich habe doch gar keine Anwältin eingeladen, es kommt drauf an!
00:05:10: Also mathematisch technisch ist es utopisch aber man kann durchaus ansitzen entwickeln die mehr fair als prorator oder marktanteils sind.
00:05:22: sagen wir so wenn die Eckpunkte, die jetzt möglich sind und wieder bekommt jeder Null Komma Null Null ein Cent.
00:05:29: Einfach wenn da drei Millionen Titel eingeflößen sind als Training dann rechnen wir einfach durch die Anzahl pro Rater.
00:05:38: oder es gibt Marktanteile Varianten das ist auch einfach zu berechnen Für die Wirtschaft.
00:05:46: Und beides finden wir nicht so ganz fair und dort Ansätze zu finden und anzubieten, die besser sind.
00:05:52: Wir wissen dass sie mathematisch und idealistisch nicht korrekt sind aber es gibt durchaus Möglichkeiten das Beste zu gestalten als Pro Rata oder pro Marktanteil.
00:06:03: Ja das klingt für mich so als wenn die Kleinen halt eben wieder außen vorgelassen werden.
00:06:08: aktuell, also ich meine wer zum Beispiel nicht von der großen Gesellschaft vertreten wird.
00:06:12: Von einem großen Label ist er ja wahrscheinlich trotzdem mit seinen Daten da drin.
00:06:16: und wenn es nicht nachvollziehbar ist wie kann diese Person in irgendeiner Weise vergütet werden?
00:06:20: Und da setzt ihr quasi ein um einen Weg zu finden.
00:06:24: Genau war durchaus auch mit Erklärung was denn möglich ist und was nicht möglich ist.
00:06:31: das ist ein bisschen als Fraunhofer unserer Expertise unter anderem in öffentlichen Vorträgen oder wie heute hoffentlich, zu erklären was möglich ist und was nicht möglich ist.
00:06:48: Denn es herrschen auch viele Mythen- und Wunschvorstellungen nennen wir.
00:06:53: Was
00:06:53: sind das für welche?
00:06:55: Zum Beispiel.
00:06:56: Man hat eine Vorstellung, dass die Musikgeneration bei Sprache ... Ich sag jetzt Musik weil ich das einfach gewöhnt
00:07:03: bin.
00:07:03: Der Bereich ist Musik, wir wissen, dass wir können das übertragen.
00:07:06: Das kann man total übertragen!
00:07:07: Es ist so einer Wunschvorstellung als ... Man hat da Musikstücke zum Training gesammelt und dann hat man ganz viele kleine Schnipselchen, so Konfetti daraus gemacht Und jetzt klebe ich ein neues Bild daraus und man kann bei jedem Pixel im Bild mehr oder weniger immer noch zurückverfolgen, aus welchem originalen Musikstück das stammt und dann kann man mathematisch ganz klar ich weiß wie viele megapixeligen Bilder.
00:07:35: Und so funktioniert es leider nicht.
00:07:37: aber das ist eine Vorstellung die viele auch die Juristen glaube ich freuen würde wenn das so wäre dass man zurückrechnen könnte.
00:07:47: Leider ist es nicht so.
00:07:48: Das heißt wir wenden alte Parameter auf eine komplett neue Technologie an und eigentlich müssten wir in einem ganz anderen Raum denken, weil was du erzählst ist ja so ein sehr zweidimensionaler Raum.
00:08:02: Also wir haben Musikstück, wir haben das geschnitten sowie wir es schon immer gemacht haben Und dann werden diese Schnitte die alle einfach ähnlich sind aber letztendlich alle einfach nur daraus bestehen dass man halt einzelne Katz macht wieder zusammengesetzt?
00:08:18: und wenn das nicht der Fall ist Wie erklären wir, was tatsächlich passiert?
00:08:26: Weil für mich klingt das so als wenn wir eigentlich noch eine Dimension dazurechnen müssten.
00:08:30: Ja auf jeden Fall!
00:08:31: Wir können vielleicht mal ganz vom Anfang an fangen... Was würden wir über synthetisches Audio reden?
00:08:38: Das ist das denn
00:08:39: überhaupt?!
00:08:42: Bei Sprache reden wir dann über synthetische Sprache oder Voice Cloning.
00:08:47: Manchmal genannt bei KI reden wir über KI Musik, denn so wird schon ein entabliertes Musiker keiner weiß was es ist.
00:08:54: Dann gibt's noch Sound-Effekte und und und aber die Gemeinsamkeit ist dass dieser Klang wird nicht mehr live aufgenommen.
00:09:04: das heißt es stammt nicht von einer Mikrofon wie wir jetzt miteinander reden sondern Das wird vom Grund an einfach von einem Modell erzeugt.
00:09:14: Die Wave-Forms, die daraus kommen werden vom Computer generiert und diese Computer wurde natürlich davor mit vielen Beispielen trainiert.
00:09:25: aber in diesem Audio werden Sample für Sample durch viel Ingenieur geschickt, zusammengesetzt und einfach mal nacheinander generiert.
00:09:38: Das heißt das was herausgekommen ist wurde nie so gesagt.
00:09:43: die Person existiert nicht auch wenn es klingt wie eine Person.
00:09:50: Die Instrumente die da zu hören sind hat keine physisch gebaut.
00:09:53: das heißt dass hat mit dem physikalischen Welt erst jetzt nichts zu tun, auch wenn es nachahmt.
00:10:01: Und das muss man glaube ich ganz gut sich irgendwie zuerst verinnerlichen dass es so ist.
00:10:07: Ist es im Extremesfall, wenn wir uns das bildlich vorstellen, sodass sogar Dinge generiert werden könnten die vielleicht physisch von einem Menschen nicht möglich sind?
00:10:20: Also zum Beispiel eine bestimmte Stimmlage unwahrscheinlich ist, weil es einen bestimmten körperlichen Körperliche Voraussetzungen dafür geben müsste.
00:10:30: Das
00:10:31: ist möglich und klingt trotzdem dann menschlich, weil das aus vielen Daten entstanden ist die im Ursprung menschlig geklungen haben.
00:10:42: Können wir uns das so vorstellen?
00:10:44: Das können wir uns so vorstellen obwohl die Standardmodelle die suchen eher gemeinsame Muster und sind darauf ausgelegt, einfach nachzuahmen.
00:10:55: Und zu sagen okay die gemeinsame Muster, sie sind so das A klingt bei vielen Menschen so als A und das O klingt also O. Und ungefähr so können wir das dann erlernen?
00:11:06: Ja.
00:11:07: Und entsprechend bei der Wiedergabe können wir es so produzieren.
00:11:12: Aber je mehr man sich da reinmischt in diese Modelle und diese Kontrollparometer, von denen ich bei der Musik zum Beispiel geredet habe einfügt, desto mehr Freiheit hat man auch die Sachen zu generieren, die vielleicht nicht so gibt.
00:11:29: Das ist natürlich total spannend weil das sprengt die physikalische Grenzen von der Welt ein bisschen auf.
00:11:37: also für die Wissenschaft ist es auf jeden Fall sehr interessant.
00:11:41: Allerdings steht dem voran natürlich dann eine immense Trainingsaufwand, um dieses ungewöhnliche Ergebnis zu erstellen.
00:11:52: Kannst du Angaben dazu machen?
00:11:53: was ist denn überhaupt notwendig, um diese Modelle zu betreiben?
00:11:58: Was braucht
00:11:59: es?
00:12:01: Ja man kann das ungefähr so vorstellen ein bisschen Mathe hatten wir alle und wenn man so kleines Gleichungssystem hat Und man weiß, wenn in einer Gleichung drei Unbekannter stehen.
00:12:14: Dann brauche ich normalerweise mindestens drei Gleichungen dass sich da irgendwie mal bestimmen kann was für Unbekannte das sind.
00:12:22: Wenn wir jetzt aber uns die Modelle mit Billionen Milliarden von Parameter anschauen dann kann man sich glaube ich schon vorstellen um diese ganze Gewichte sinnvoll einzustimmen braucht man entsprechend auch in dieser Größenordnung Einfach mal daten und dann haben verschiedene Preisklassen, verschiedener Qualitätsklassen.
00:12:46: Also bei Musik wird öfter in zwei Kategorien gemacht.
00:12:50: man hat weniger qualität der hochqualitativer Daten.
00:12:54: zum Beispiel dem Open Source Modell von Meta ist so glaube ich wenn ich mich jetzt richtig erinnern kann aber grob sowas wie hundertfünfzigtausend musikstücke allgemein Und dann noch vielleicht mal Zehntausend oder die Größenordnung weniger von sehr hoher Qualität und sehr gut anotiert, noch on top.
00:13:19: Das ist aber insgesamt nicht so viel?
00:13:23: Aber das Modell ist auch nicht das Allerbeste, das ist ein Opensource-Modell.
00:13:28: Von den großen kommerziellen Anbietern – und das ist ja leider so, wissen wir noch rechtlich wenig womit man die beste Qualität liefern kann, weil die Daten sind nicht öffentlich auch unter anderem, weil es rechtlich nicht geklärt ist.
00:13:44: Okay und zusätzlich zu den Daten natürlich dann muss das auch tokenisiert werden.
00:13:50: bei solchen Modellen?
00:13:51: Gibt es Menschen, die das eben durchhören müssen und die Daten markieren?
00:13:57: Also nicht so stark wie bei der Sprache da reichen allgemein ziemlich gut mit allgemeinen Beschreibung, Klangbeschreibung vorangehen.
00:14:08: Musik an sich ist schon ein bisschen anderes.
00:14:12: Die rhythmische Struktur spielt eine große Rolle und die Klangfarbe spielt eine sehr große Rolle Und das kann man durchaus von Musik an Sich auch lernen zu selbst überwachtes Lernen oder halbüberwachtes Lernen.
00:14:29: Okay, aber wir wollten jetzt glaube ich nicht so viele technische Kippe einsetzen?
00:14:32: Ja das ist alles relevant.
00:14:34: also ich finde schon interessant zu wissen was fließt denn in das Modell.
00:14:37: es ist ja nicht einfach so dass du das modell anmachst und es funktioniert sondern auch aber
00:14:41: auch bei Sprache.
00:14:42: es gab jetzt als ich irgendwann vor vielen vielen Jahren zum ersten mal mit diesem Thema mich beschäftigt habe damals auch mit Sprache da musste man noch fast vornehm genau oder sogar vor nehm genau anotieren, wo genau das A und wo genau dass O gewesen ist.
00:15:00: Und das hat sich jetzt über die Jahre extrem verbessert quasi für die Wissenschaft verbessert.
00:15:05: man muss es jetzt nicht so ganz genau annotieren und die Trainingsdaten, die jetzt genommen werden diesen Phrasenweise oder Abschnittsweise total ausreichend.
00:15:15: Das heißt eine Aufnahme und ein Text dazu reicht schon um Spracherkennung zum Beispiel zu trainieren oder auch bei Dessentiser.
00:15:25: Man muss nicht mehr von ihm genau zeitliche Grenzen per Hand
00:15:28: bestimmen.".
00:15:29: Okay, das wurde quasi mal gemacht.
00:15:32: die Grundlagen sind?
00:15:33: Ja vor
00:15:33: zwanzig Jahren war das notwendig jetzt ist es nicht mehr notwendig.
00:15:37: Und jetzt kommen wir nochmal zurück zu dem Punkt in welche Teile diese Musik geschnitten wird weil wir sprechen ja weiterhin von Musik.
00:15:44: Es ist also nicht einfach nur viele kleine Schnipsel.
00:15:48: was genau passiert mit der Musik?
00:15:52: Die Hauptaufgabe von Jenny I ist in dem Sinne nachzuahmen, aber in groben Mustern.
00:15:59: Das heißt man interessiert sich für Klangfarbe und für typische Melodien, für typischer Harmonie die aber in vielen Musikstücken auch vorkommen müssen.
00:16:12: Ja
00:16:13: das ist ein Prinzip das Wunderwerk des maschinelles Lernen oder Pattern Recognition, so Mustererkennung.
00:16:19: Das man einfach mal mit der Zeit des Trainings merkt ah!
00:16:24: Das wiederholt sich.
00:16:26: Das heißt es ist relevant.
00:16:28: Man merkt Ah!
00:16:29: Das A gibt's halt mehrmals, das O gibt's mehrmals und das kann man entsprechend modellieren.
00:16:37: Vielleicht machen wir das einfach mit dem Beispiel von der Sprache.
00:16:43: Zuerst muss man überhaupt verstehen, was im Text vorhanden ist.
00:16:48: Text kennt man schon ziemlich gut mit Textarbeit, die Lingwistik schon ziemlich good.
00:16:53: Das heißt es gibt Wissen, was Satzbau angeht, was die Betonung angeht und was die Satzeichen bedeuten.
00:17:00: wenn da eine Fragezeichen steht?
00:17:02: Was macht das?
00:17:04: aus?
00:17:05: oder vielleicht auch welche Emotionen soll es transportieren.
00:17:09: Und dadurch versucht man dann zu entscheiden, wo soll ich die Stimme heben?
00:17:16: Wo soll ich eine Pause bauen?
00:17:17: wenn da eine Komma und Kinder das Lesen beibringt sagt man ja jetzt ist Komma, jetzt ist Punkt usw.
00:17:26: Das ist quasi Schritt eins und dann gibt's muss man Stimmenabdruck eine Art Fingerprint für die Stimme erlernen.
00:17:34: Das heißt, man hat Sprachmaterial von einem Sprecher und dadurch erlernt man kann sich das ziemlich abstrakt wenn man es schafft zu vorstellen.
00:17:44: Es gibt ein mehr dimensionaler Parameterraum Einfach was alle mögliche Stimmen beschreibt Und in diesem Raum versucht man die Stimmer wie ein Punkt als Parameterpunkt In diesem Raum zu modellieren.
00:17:57: Aber tragen auf neuronalen Netzen heisst es ganz genau welche Gewichte in diesem neuen Nallenetz entsprechen, diesen Parameterraum.
00:18:06: Also mit mehr dimensionalen Räumen ist unsere Vorstellungskraft meistens ganz beschränkt.
00:18:12: so eine Dimension ist einfach vorzustellen zwei gut drei auch aber dann geht es schon.
00:18:19: ja dann haben wir schwierig
00:18:21: und wenn wir ein Raum haben mit Milliarden von Achsen?
00:18:28: Dann ist das schwieriger.
00:18:30: Und dann, bei dem dritten Schritt von dieser Audio-Synthese bringt man das beides zusammen.
00:18:36: Man macht die Kenntnisse, die man vom Text bekommen hat und von diesem Stimmabdruck, bringt man sie zusammen in so eine Art Klangvorstellung wie zum Beispiel Spektrogramm wird oft genutzt.
00:18:53: Das ist so eine Zeitraumdarstellung.
00:18:56: Wo festgehalten wird, zu welchem Zeitpunkt waren welche Frequenzen aktiv?
00:19:02: Und von dieser Zeitraumdarstellung, Zeitfrequenz Darstellung generiert man dann die Wellenform.
00:19:10: Naja ich weiß nicht womit man das gut vergleichen kann vielleicht in einer gute virtuelle so eine Bandmaschine.
00:19:22: die Skripte und die Instrumentbeschreibung rein schiebt.
00:19:27: Und daraus entsteht der Klang, genau!
00:19:31: Und nun zu Musikschnipselchen.
00:19:34: Das heißt in diesem ganzen Prozess lernt man in jedem Durchgang durch alle Daten von allen, allen Titeln.
00:19:44: Und das macht dieser Nachvollziehung so schwer... Ich kann vielleicht noch mit einer Metaform mich versuchen, stellen wir vor.
00:19:55: Wir malen ein Bild und dafür haben wir ganz viele Tuben mit Farben aufgemacht.
00:20:02: Und da gibt es Farben von verschiedenen Herstellern und die sind ein bisschen unterschiedlich in der Farbe auch wenn sie sinngemäß alle rot sind.
00:20:13: Es ist nicht so ganz ideal, alle rot und blau und grün usw.. Und daraus mischen wir uns ganz neue Farben und malen auch jedes Mal, wenn wir generieren ein neues Bild.
00:20:29: Die Wunschvorstellung ist dass man irgendwie auf die Moleküle das vielleicht zerlegt und sagt okay, wenn ich jetzt eine sehr teure spektrale Analyse von diesem Bild Macher kann ich dann wieder zurückverfolgen, diese eine Moleküle von Rot?
00:20:50: aus welcher Tuba welche Herstelle wo ich da hunderttausend Millionen von Thuben reingeworfen habe.
00:20:58: Woher stammt das?
00:20:59: Und dass es leider nicht möglich und unter anderem auch nicht möglich weil zu keinem Zeitpunkt wird das in einem Nornallenetz irgendwo festgehalten.
00:21:10: Es gibt ja keinen Register wo sowas überhaupt gespeichert ist.
00:21:16: Das heißt, wenn das Netzwerk lernt... ...das einzige Ziel des Nerzwerks ist die Qualität Die Verfolgung.
00:21:25: also abgesehen davon dass es quasi mathematisch dann schwer möglich ist noch ein Beispiel vielleicht Wenn ich jetzt wissen würde, dass meine Zahl ist die Summe zwei Zahlen und ich weiß, dass die Antwort sieben ist gibt es viele Möglichkeiten, wie ich das sieben zusammensetzen kann.
00:21:45: Ich
00:21:45: kann sagen eins plus sechs aber auch zwei plus fünf und das macht es auch so kompliziert.
00:21:58: Das klingt natürlich alles noch ziemlich abstrakt, aber die Trainingsdaten werden erprochenweise durchgegangen.
00:22:07: in einer Epoche schaut man sich alle Trainingsdate an dann bei jedem Update von Gewichten, vom neuronalen Netzwerk nimmt man nur ein Teil davon und es funktioniert am besten wenn dieses Teil davon einen Batch zufällig ausgewählt wird.
00:22:23: Das funktioniert einfach am Besten.
00:22:24: das heißt zufältig nimmt man sich extra zufähig ausgemischt die Daten von verschiedensten Musiktitel oder Sprachaufnahmen und macht damit ein kleines Update in den Gewichten Und dann wählt man zufällig einen anderen Batch, anderer Daten.
00:22:43: Zufällig über mehrere Musikstücke zerstreut und updatet die Gewichte noch einmal und macht das mit Absicht in jede Epoche noch ein bisschen zufältig ausgewählt.
00:22:55: anders weil es am besten funktioniert.
00:22:59: Diese kleine Veränderung von Gewichten sind deswegen sehr schwer auf die einzelne Musikstücke oder dessen kleiner Schnipselchen überhaupt übertragbar.
00:23:10: Okay, also wir verstehen erst einmal ganz schwer was sind eigentlich diese Schnipselchen?
00:23:16: Wie werden die überhaupt erstellt?
00:23:18: weil sie anscheinend nicht einfach nur ein Cut aus dem Stück sind sondern viele verschiedene Parameter mit beinhalten.
00:23:26: und du sagst wenn einfach random also zufällig ein Musikstück mit ein paar Parametern mit ein Paar Prompts generiert wird dann kann ich nicht nachvollziehen was aus dem Riesenwust von Daten da genau eingeflossen ist.
00:23:42: Aber was ist, wenn ich eine Situation habe wie jetzt zum Beispiel Suno und Gema?
00:23:50: Dass ein Song rausgeneriert wird der so fast schon komplett existiert wo alle sagen äh weiß ich ist Helene Fischer das Modell hat das generiert.
00:24:06: Es ist grundsätzlich, also die Memorisierung ist auf jeden Fall ein großes Thema unter anderem weil es auch rechtlich einfacher wird.
00:24:18: Wenn man das nachweisen könnte dann ist es rechtlich auch besser geklärt was die Sache ist.
00:24:27: bei Text sind sie Daten auf jeden fall noch mehr betroffen.
00:24:33: Man weiß, dass der ganze oder vierzehn Prozent von Harry Potter reproduzierbar war in einem Experiment von der Forschung.
00:24:44: Bei einer Musik muss man die Modelle schon ziemlich stark provozieren.
00:24:49: Also mit Texten und Beschreibungen provoziert, damit sie etwas Ähnliches rausbringen.
00:24:56: Nun ist es auf jeden Fall eine Spitze des Eisbergs.
00:25:01: Also man muss schon ziemlich viel Mühe geben und vielleicht in Ausnahmefällen passiert sowas.
00:25:09: Aber eigentlich die Trainings-Zielsetzung von diesen KAE Modellen ist nicht die Memorisierung, es ist genau das Gegenteil, dass man abstrahiert und versucht allgemeine Muster zu erlernen.
00:25:25: Das heißt im Einzelfall fällen kann man damit was machen, wie zum Beispiel in dem Fall von Gehmer.
00:25:31: Aber erstmals es wird nicht für alles zu treffen.
00:25:35: Das heißt wenn jemand abstrakt jetzt sagt okay ich versuche das als Methode der Wahl zu nehmen dann weiß ich aber selbst wenn es so ist und die Die Trainingstücke sind drin.
00:25:46: Ich kann das vielleicht nur bei einer Promille von einem Trainingsdaten überhaupt erreichen, weil es müssen ganz viele ... Es muss ein sehr bekanntes Stück sein was in den Trainings-Daten sehr oft vorhanden ist.
00:26:00: Ein Muster sein, weil's sehr oft vorkommt und... Also es müssen viele Sterne richtig stehen.
00:26:07: Das ist es überhaupt!
00:26:08: Und selbst für die wo es theoretisch klappen sollte, klappt es auch nicht immer.
00:26:13: Und dann, okay für ein Promil der Daten habe ich vielleicht jetzt eine Methode gefunden.
00:26:21: Für die Einzelfallklage ist es prominent und das ist gut aber das kann doch nicht alles lösen?
00:26:29: Nein, ich glaube es ging vielleicht auch noch mehr darum zu beweisen dass die Modelle davon profitieren diese Werke eingeführt hat zu bekommen.
00:26:42: Also ich glaube, als das angefangen hat ging es vor allen Dingen darum, dass die Modellbetreiber immer wieder gesagt haben ja aber machen gar nichts mit diesen Sachen.
00:26:55: Was auch so ein Widerspruch ist.
00:26:57: Es wird oft gesagt, dass es eigentlich gute Trainingsdaten benötigt.
00:27:03: Gleichzeitig dürfen sie aber gar nicht kosten weil das Modell ja auch gar nichts davon hat.
00:27:11: Das sehen wir ja daran, wenn so ein Open Source Modell wie du erzählst mit so wesentlich weniger Daten trainiert wurde.
00:27:17: Dass die Qualität durchaus dadurch leidet des Outputs und dass es dann natürlich wichtig ist das für so einen Privatunternehmen ordentliche Daten von denjenigen zu bekommen, die sie eigentlich ursprünglich mal hinstellen.
00:27:34: Was mich interessiert ist was passiert denn?
00:27:36: Wenn die Maschinerie jetzt so weiter läuft Und es dazu führt, dass Kunstschaffende von ihren Berufen nicht mehr leben können.
00:27:46: Also auch weniger Musik zum Beispiel machen – das ist jetzt eine ganz dystopische Fantasie!
00:27:51: Aber sagen wir mal, es wird weniger menschengemachte Musik auf der Welt geben.
00:27:57: Das Modell interessiert
00:28:00: es überhaupt nicht, das Modell ist nur ein Computerprogramm.
00:28:04: Ich habe
00:28:07: viel zu human formuliert.
00:28:09: Würden die Daten des Modells darunter leiden?
00:28:12: Wäre es für das Model, für den Computer, wäre es für die Maschine problematisch mit künstlichen Daten befüttert zu werden?
00:28:21: Grundsätzlich gibt es Experimente, die zeigen dass wenn man mit synthetischen Daten diese Maschinen füttern, dann wird noch mehr von dem Gleichen produziert.
00:28:31: Weil die Kostfunktionen der neuen Netzen sind natürlich darauf eingesetzt, dass man das was reinkommt, am besten nachahnt.
00:28:42: und wenn viele Gemeinsamkeiten drin sind, ist es einfacher, einfach nachzuarmen und dann kommt immer noch mehr vom gleichen und die Qualität.
00:28:51: in diesem Sinne also für die Maschine verbessert sich die Qualitie immer noch weiter?
00:28:55: Aber für die menschliche Zuhörer vielleicht nicht.
00:29:00: Und ja, also ich denke wir werden auf jeden Fall eine Veränderung erleben.
00:29:08: Denn entscheiden immer noch die Menschen.
00:29:11: Also KI ist quasi nur ein Tool was so oder so benutzt werden kann und das sind die Menschen, die die Entscheidungen treffen und die mit den Menschen, Das sind verschiedene Stakeholder.
00:29:28: Und einiges davon ist zum Beispiel auf die Kostenminimierung optimiert und da werden wir, glaube ich schon erleben das in manchen Bereichen.
00:29:41: Ich war jetzt mit meinem Kind Puzzle kaufen, versuche mal einen Puzzel im Laden zu kaufen was kein KI generiertes Bild drauf hat.
00:29:48: Wirklich?
00:29:49: Ja!
00:29:51: Okay das finde ich extrem...ich sag's einfach scheiße.
00:29:56: So weit geht das?
00:29:57: Und dann starten wir ein Kind da und sagen, ja, das kaufen wir jetzt nicht.
00:30:01: Das ist doch kein Genier hier!
00:30:02: Das mag ich nicht.
00:30:06: Aber wie werden das glaube ich zwangsläufig erleben in manchen Bereichen auch bei Musik?
00:30:11: Das Funktionsmusik so sozusagen Einweg-Musik, Musik was irgendwo im Hintergrund spielt wo keiner sowieso niemals wusste was für Künstler es ist.
00:30:22: Das hat
00:30:22: früher auch einen Mensch komponiert sogenannte Fahrstuhlmusik.
00:30:26: Also wir werden auf jeden Fall einiges erleben, was dann wegfällt und das verändert natürlich ziemlich extrem die Branche weil
00:30:37: es gab
00:30:38: oder es gibt immer noch durchaus viele Musiker die mit sagen so nicht so wie soll ich das sagen?
00:30:46: Mit so einer Hintergrund- oder Funktionsmusik Lebensunterhalt verdient haben ja klar Dafür aber immer noch mit eigenen Bands, dann einmal pro Monat was weiß ich auf die Bühne gehen konnten.
00:30:58: Davon konnten sie niemals leben.
00:31:00: Aber das war wichtig dass sie trotzdem in einem sehr verwandten Beruf unterhalt verdienen konnten und ich denke das wird sich schon verändern.
00:31:11: Ich finde es ganz interessant weil ich glaube es wird ja ganz oft gefragt so merkt man das denn noch Und meines Erachtens nach ist da viel zu wenig neuronale Forschung dazu.
00:31:23: Weil es gibt ja viele Dinge, die wir nicht merken erstmal selber.
00:31:29: Also ich zum Beispiel ... Wir wissen das.
00:31:32: Werbung, also Plakatwerbung draußen von der wir WISSEN dass die Photoshop bearbeitet ist, also das zum Beispiel die Personen eigentlich nicht so perfekt sind.
00:31:42: Dass es solche Haut eigentlich nicht gibt.
00:31:44: Selbst wenn wir diese ganze Aufklärung machen, merken wir, dass es trotzdem psychische Effekte auf uns hat.
00:31:52: Ja?
00:31:53: Auf unser Selbstwertgefühl oder auf unser Körpergefühl.
00:31:57: und bei der Musik oder eben auch synthetischer Sprache hatte ich ja vor ein paar ... Paar Jahren tatsächlich schon.
00:32:07: Mit Claudia Roswando wird es gesprochen, Neurowissenschaftlerin die in ihrer Forschung festgestellt hat dass das Gehirn auf synthetische Sprache anders reagiert als auf natürliche Sprache und zwar nicht nur dass es merkt ist es synthetisch sondern dass das Belohnungszentrum in ihren Experimenten nicht angesprochen ist.
00:32:28: Und das ist etwas was wir ja erst mal nicht wissen.
00:32:32: Also ich kann nicht sagen, ah ja jetzt spüre ich mein Belohnungszentrum.
00:32:37: Sondern ich glaube das sind so schleichende Veränderungen.
00:32:41: Wir sind in der Situation und wir sind nicht genau sicher was ist eigentlich anders?
00:32:45: Wir können das nicht in Worte fassen.
00:32:47: Aber es fühlt sich komisch an So zum Beispiel bei KI-generierten Bildern dass viele das Gefühl haben Was ist mit diesen Menschen?
00:32:54: Ich kreet gar nicht mehr von den sechs Fingern.
00:32:56: also wirklich die Menschen sehen normal aus aber irgendwas spürt man, was anders ist.
00:33:03: Und ich glaube das ist interessant und ich finde da sollte mehr geforscht werden um zu gucken, was ist denn der psychische Effekt tatsächlich?
00:33:11: Was wagt unser Gehirn zu der ganzen Sache?
00:33:14: Weil etwas nicht merken ist auch bei Lebensmitteln so.
00:33:17: Ich merke auch nicht wenn in meinen Lebensmittel Dinge drin sind die da vielleicht nicht drin sein sollten Bei verarbeiteten Lebensmittel.
00:33:23: und trotzdem regulieren wir das irgendwie Weil wir wissen über lange Sicht ist das nicht gut, wenn du krebserzeugende Dinge isst.
00:33:32: Und da frage ich mich wie in Zukunft die Forschung mit umgehen wird?
00:33:37: Ich glaube es ist sehr wichtig zu gucken was der Langzeiteffekt ist, wenn wir diesen Dingen ausgesetzt
00:33:43: haben.
00:33:43: Die Erforschung von Landseiteffekten ist grundsätzlich schwierig und mühsam.
00:33:49: Ja!
00:33:49: In Social Media hat ja jetzt wirklich sehr lange gedauert, dass wir realisiert haben, dass das nicht so gut ist.
00:33:54: Wir alle haben das Gefühl gehabt, dass es so ist.
00:33:58: Und trotzdem ist es jetzt weiterhin, obwohl so viele Stimmen da sind, sind wir immer noch sehr, sehr vorsichtig darin zu sagen ja vielleicht sollten wir das ändern und Das ist das was mich manchmal frustriert also bei der Forschung, dass Es wird weiterläuft und es wird publiziert auf den markt gepackt und alle werden dem ausgesetzt.
00:34:15: gerade Bei dieser technologie ist er sehr sehr stark gerade und wir lassen das erst mal laufen lassen vielleicht auch ganz viel schon kaputt gehen, was viel viel länger braucht um wieder aufgebaut zu werden.
00:34:29: Deswegen finde ich das sehr interessant was du sagst dass wir bei all den Bemühungen um da das recht festzulegen und rauszufinden wie es eigentlich funktioniert auch da scheint die Wissenschaft nicht genug gefragt zu werden weil das was du sags ist ja für viele immer noch die Grundlage.
00:34:44: viele sagen naja dann generieren wir das und dann können wir herausfinden was davor drin war.
00:34:51: Das ist eine Grundlage, die ja laut dir nicht stattfinden kann.
00:34:55: Das funktioniert nicht!
00:34:56: Nein und deswegen ist es immer noch... also besonders wichtig dass der Schutz, der muss vorne ansetzen, nicht hinten.
00:35:06: Und solange er es erlaubt ist einfach zu sagen wir wissen nicht so damit wir trainiert haben Sogar nicht genau wissen wir es nicht, aber mit euren Sachen bestimmt nicht.
00:35:20: Solange das als Antwort akzeptiert wird oder juristisch und keine Konsequenzen mit sich hat dann werden die Unternehmen das auch
00:35:28: machen.".
00:35:30: Und genauso aber auch dass eben eine Akzeptanz quasi fast erpresst wird?
00:35:36: Also wir haben ja nun jetzt die Situation, wir haben darüber gesprochen dass Sprecher ihnen nicht bereit sind ihre Stimmen einfüttern zu lassen und es gibt aber Menschen die argumentieren.
00:35:45: Ja aber wenn das drin ist dann ist ja der Output reguliert und dann kannst du ja im Nachhinein dann gefragt werden Wenn Output generiert wird ob Du damit einverstanden bist wenn deins mit da drinnen ist Und nach Deiner Erklärung weil du hast ja auch gesetzt von Musikabsprache übertragbar.
00:36:03: Das heißt, wenn aus ganz, ganz vielen... Und sagen wir mal!
00:36:06: Es wären nur fünfzig.
00:36:07: Sagen wir es würde aus fünfzig Personen irgendeine Stimme generiert werden und alle diese fünfzig müssten gefragt werden und eine Person sagt nein ich bin nicht einverstanden dann gäbe es erstens nicht die Möglichkeit dass sie rausgerechnet wird weil keiner weiß was in den fünftig ob welche und zweitens wüssten noch nicht mehr das der hier.
00:36:26: fünfzig müssen einfach nur sagen ja fünfzig sind da drin Und entweder wir benutzen das, alle müssen ja sagen oder wir benutze es halt nicht.
00:36:36: Ja... Das mit Unlearning ist... Es gibt Forschungsansätze, das alles so experimentell und so eine Heikel-Sache um saubertes zu machen.
00:36:47: Wenn man mit fünfzig ein Modell trainiert hat und jetzt sind das nur noch neunundvierzig muss man das Modell einfach löschen und neu ansetzen.
00:36:54: Gut!
00:36:55: Das geht wenn du fünfzig zählen
00:36:56: hattest?
00:36:56: Man hat einer super gekocht und da ist gut die Anderpläne.
00:37:00: Genau.
00:37:01: Und da kommt eine und sagt, Korean, da mag ich nicht!
00:37:05: Teech gehabt?
00:37:06: Teecht gehabt.
00:37:07: also man kann natürlich den Korean dann ein bisschen versuchen rauszufischen aber so ganz raus ist es nicht.
00:37:11: Die
00:37:11: Essenz ist drin.
00:37:13: Ja das... Ich fand das sehr interessant als ich dich hab sprechen hören.
00:37:16: hast du dass ihr auch erklärt mit der Löffelfabrik die Löffeln herstellt und verschiedene Metalle kommen in den Metallbrei.
00:37:25: ja und dann werden deine Löffle raus gemacht.
00:37:28: Aber wie viel von den verschiedenen Metallen?
00:37:30: Ich meine, da sind Prozente drin.
00:37:31: Und so in
00:37:31: einem konkreten Löffel!
00:37:33: Weil das ist die Wunschvorstellung.
00:37:35: Man hat Altmetall vielleicht zu einem Wertstoffhof gefahren und daraus was Neues produziert und dann mischte ich aber der Löffeln von meiner Oma... Wie viel bekommt es jetzt?
00:37:47: Und in welchem Produkt dieses Ganze genau?
00:37:50: Zu welchen Anteilen?
00:37:51: Also das ist für mich halt unbegreiflich weil Wenn das die Technologie ist und klar ist, es ist nicht nachvollziehbar am Ende.
00:37:59: Dann ist für mich ganz klar,
00:38:01: dass
00:38:02: der Wunsch hinter so einem Vertrag nie ist, Output zu generieren.
00:38:07: Sondern was ganz anderes!
00:38:08: Weil wenn der Output durch ein Nein blockiert werden könnte... dann ist er ja wertlos.
00:38:13: Also wenn du sagst ich habe hier ganz viele Stimmen eingefüttert Und daraus können wir Stimmen generieren Aber jedes Mal, wenn wir das machen müssen wir alle Beteiligten fragen Und sobald eine Person das nicht möchte, können wir das nicht verwenden.
00:38:28: Das setzt ja von vornherein den Präzidenzfall.
00:38:31: Wir können es nicht verwende.
00:38:34: Oder?
00:38:35: Wir haben alle die da...die zugestimmt habt schon vorher gefragt für Imo und Ewigchen für alle Zwecke zu stimmen.
00:38:42: Genau!
00:38:43: Aber wenn das in dem Vertrag halt geregelt ist dass wenn Output generiert wird nochmal gefragt werden muss und dafür müssen alle Ja sagen damit das geht Dann geht es doch nicht um den Output.
00:38:55: Das ist dann kommerziell sehr, sehr schwer... Also das Training für so einem Modell.
00:39:01: ich kenne zum Beispiel die Zahlen von Suno.
00:39:06: Von dem Musik-Generator was ziemlich gut kommerzielle verfügbar ist und in einem Slide Deck von denen stand Die Geldsummer von, glaube ich, dreiundvierzig Millionen fürs Training was sie verwendet haben.
00:39:21: Gelder, ganz viele Gelder.
00:39:23: und wenn man dann als Konsequenz, wenn die Verträge so wären das alle zustimmen müssten immer.
00:39:30: Und plötzlich sagt einig ich mag nicht mehr dabei zu sein.
00:39:37: Man muss für den Modell neu trainieren.
00:39:39: Das ist dann kommerziell sehr schwer.
00:39:41: Man möchte die Millionen nicht nochmal ausgeben nur weil einer nicht mehr da bei sein möchte
00:39:47: Genau, aber umso schöner ist es natürlich wenn die Trainingsdaten kostenlos sind und man eigentlich was ganz anderes damit machen möchte.
00:39:56: Und gar keine Stimmen generieren will sondern weiß ich nicht... Was kann man denn noch machen?
00:40:00: Man kann das auch als Trainingsparameter verwenden!
00:40:03: Das ist so uns interessant.
00:40:05: Wenn wir ein Modell haben dass ist auf fünfzig Stimmen trainiert Die den Output generieren könnten Ist es möglich mit einer anderen Hand voll
00:40:14: stimmen
00:40:15: ohne sie einzufüttern, sie nur als Benchmark zu verwenden die Laute des trainierten Modells zu beeinflussen.
00:40:23: Also die Handvollstimmen gehen nicht mehr ins Modell sind also am Output nicht beteiligt sorgen aber trotzdem dafür dass der Output dieser Fünfzig Stimmen verändert wird.
00:40:36: was ich mir sofort vorstellen kann, dass man die für Evolutionszwecke oder Parameter... normalerweise unterscheidet man bei dem schnellen Lernen zwischen so Trainingsdaten und dann Validierungsdaten.
00:40:51: Und Testdaten, und man könnte diese Daten zum Beispiel für die Validierung, für die Parameteroptimierung grob gesagt verwenden oder auch für die Testdate um bestimmte Nutzungsszenarien, realistische Einschätzen zu lassen wie gut das ist.
00:41:11: Das kann ich mir sofort vorstellen und dann sind sie nicht direkt im Modell drin.
00:41:17: aber man hat zum Beispiel wenn man solche Modelle trainiert muss da tausende Entscheidungen treffen.
00:41:22: Es gibt verschiedene Netzwerke, Architekturen also vieles wird ja ein bisschen aus dem Bauchgefühl entschieden wie viele von Schichten und wie genau vernetzt.
00:41:33: und da probiert man sich ein bisschen aus.
00:41:37: Experimentell, man versuchte ein Modell ABCD und dann entsprechend kann man mit solchen Daten validieren welche dieser Modelle am besten funktioniert.
00:41:47: So was gibt
00:41:48: es auf dem Fall
00:41:48: sofort möglich?
00:41:49: Okay das war sehr sehr ausschlussreich.
00:41:53: also letztendlich sind wir nicht schlauer als vorher.
00:41:57: Wir haben keine Kontrolle darüber was passiert sobald die Daten drin
00:42:01: sind.
00:42:03: Wir können sie nicht mehr rausnehmen, außer komplett neu aufsetzen wie du sagst und wir können vom Output nicht auf den Input schließen.
00:42:12: Es gibt experimentäle Ansätze.
00:42:15: wenn alle Sachen offen liegen, wenn Trainingsdaten offen legen, wenn das Modell offen liegt, wenn komplett Zugriff zugelassen ist... Wenn dann gibt es hier experimentäre Ansätze wie man mit so genannten So ein bisschen membership inference heißt es als Fachbegriff, dass man versucht diese Modelle an die Trainingsdaten anzuwenden und und einzuschätzen.
00:42:43: Weil so die Modelle sie passen an die Trainingstarten ein bisschen besser.
00:42:51: als quasi an die ... Wenn man jetzt Katzen von Hunden unterscheidet, hat man mit diesen Katzen und diesen Hunden trainiert.
00:42:58: Dass wenn man versucht schon bekannte Bilder dem Modell vorzuzeigen und fragt, das ist nur ein Katzer oder Hund, verhält sich das Modell leicht anders, als es für die unbekannten Bilder funktioniert?
00:43:12: Und das versucht man statistisch auszunutzen.
00:43:15: Aber es müssen viele, viele Sachen offengelegt werden!
00:43:19: Ja diese modelle überhaupt anwenden zu können und das ist für die kommerziell angeboten jetzt ein stimmer von eleven labs hat oder ja es ist nur als beispiel oder irgendwie ein kommerzielles system ist wo die is?
00:43:31: man kann den text da eingeben und man kann vielleicht einen zwei blobs irgendwas einstellen eine stimme wählen und vielleicht emotionen oder wer auch immer aber sonst nichts man hat keine einblicke.
00:43:45: ... was da unter der Motorhaube passiert, dann sind es... ... es ist neun-neunzig-kommann-neunein-neuen-neuin dieser Ansätze total nutzlos.
00:43:56: Das ist Wahnsinn!
00:43:57: Gibt es etwas, was du denkst?
00:43:59: Was in naher Zukunft kommen wird?
00:44:02: Was diese Technologie oder unseren Umgang damit noch mal verändern wird?
00:44:06: Oder ist das jetzt erstmal so und jetzt müssen wir gucken wie wir damit klarkommen?
00:44:10: Nein, eben mein Gefühl ist dass es jetzt die Phase wo einiges gezeigt wurde, was möglich ist.
00:44:17: Und jetzt müssen die Menschen überhaupt zuerst recht kommen mit dem, was schon da ist.
00:44:23: Ja.
00:44:24: Bei der Musik zum Beispiel ist die Nutzung von der kainerierte Musik auch noch nicht so ganz geklärt und auch die kommerzielle Anbieter wer und wie wird das dann in der Zukunft nutzen?
00:44:37: Da ist viel Spielerei drin Da sind irgendwelche Millionen-Bereiche von eingesammeltem Geld an.
00:44:48: Aber das ist alles noch in der Findungsphase, also mein Gefühl ist es wird auf jeden Fall sich ziemlich differenzieren je nach Land, je nach Anwendungsgebiet, je Nachanwendungsfall und es wird spezifischer werden.
00:45:04: Es werden sich kleine Bereiche bilden, wo diese Sachen dann entsprechend auch geklärt sind.
00:45:09: Auch die juristischen Sachen geklärt sind.
00:45:11: Aber auch weil Menschen sich darum bemühen, diese Lösungen zu finden und sich dagegen wehren, dass sie übergestürbt werden?
00:45:17: Auf jeden Fall!
00:45:19: Und wir erleben jetzt in der Musikindustrie so eine Phase der Legalisierung zur Legalize.
00:45:26: Das ist zwar verboten gewesen aber manche haben es gemacht und jetzt versucht man die Wege zu finden wie man das legal machen kann.
00:45:37: Es ist ein bisschen mit Streaming verglichen teilweise, wie es so mit Spotify in der Geschichte gelaufen ist, dass man ganz lange dann dafür gekämpft hat auch an der kommerzielle Seite, wie man streaming legalisieren kann, sodass man halt nicht mehr bei Torrance alles runter lädt sondern schon für die Musik bezahlt.
00:46:00: und Natürlich ist da auch nicht alles fair, aber man hat mit der Zeit eine Lösung gefunden von der schon einige profitieren.
00:46:11: Ich würde mir sehr wünschen dass jegliche Lösungen die kommt mehr für die Kunststoffen enttut als das Streaming das getan hat.
00:46:20: Wir
00:46:20: reden immer noch davon dass meistens bei Konzernen die Macht ist und sie davon profitieren dass andere
00:46:27: diese Kunstwerke erschaffen.
00:46:28: Es ist im Musikbereich Obwohl es eigentlich schon in der Musikbereich noch ein bisschen einfacher ist als mit Sprechern und Sprachen, weil es mindestens überwiegend dokumentiert ist wer welche Rechte hat, welche Produktionen.
00:46:46: Wer hat Copyright?
00:46:47: Wer hat Performance-Rechte?
00:46:50: viel besser dokumentiert als in anderen Bereichen.
00:46:53: Und trotzdem hat die Musikindustrie Schwierigkeiten das entsprechend umzusetzen und das ist grob, also das riesig zweistellige so was wie dreißig Prozent kann man nicht so gut zuordnen weil eben eben einfach die technische Lösung da ist, obwohl das technisch schon Jahrzehnte möglich wäre.
00:47:12: Aber jeder speichert ... Das sind banale Probleme teilweise, dass die Methadaten bei jedem anders gespeichert sind.
00:47:18: und wenn man dann zurückverfolgen muss von wem kommt denn der Titel im Radioprogramm Exception irgendwie gelaufen ist, kann man das nicht zuordnen?
00:47:29: Und dann gibt es Pauschallösungen, ach, dreißig Prozent konnten wir nicht zuordenen, dann geben wir den großen.
00:47:36: Ja, und safe.
00:47:41: Und das ist in anderen Bereichen zum Beispiel im Finanzbereich.
00:47:45: wenn man irgendwas nicht zuordnen kann dann sucht man sich zum Tode oder das Geld muss zurück?
00:47:51: Das ist aber keine Aktion hier.
00:47:55: Das ist auch keine Auktion.
00:47:56: deswegen hat ein Kollege von mir einmal einen Vortrag gemacht und er hat einen Vorschlag gemacht zum Beispiel dass man die dreißig Prozent die man nicht so ordnen kann in einer Stiftung zum Beispiel macht,
00:48:08: tut
00:48:09: die entsprechend für die Künstler da wäre und Projekte finanzieren oder man muss das nicht unbedingt den größten geben.
00:48:19: Also es gibt durchaus Möglichkeiten.
00:48:23: nun So was ich immer versuche zu erklären, man hofft also wir sind.
00:48:27: Wir haben uns leider eine Gesellschaft jetzt gebaut, was sehr viel auf Technologie aufbaut.
00:48:33: Was heißt Leider?
00:48:33: Es hat Vorteile aber es hat auch Nachteile und wenn wir grundsätzlich auf die Technologie setzen dann hoffen wir dass wir durch die Technologie alle unsere Probleme lösen.
00:48:43: Und das ist jetzt leider nicht der Fall und viele der Probleme, die wir mit KI generierten Audioinhalten haben.
00:48:53: Das sind keine Probleme der Technologie oder der KI.
00:48:56: Da sind die Probleme von Menschen, die Entscheidungen treffen und entsprechende Prioritäten setzen.
00:49:02: Gesellschaftsprobleme wo was uns nun wichtiger ist usw.. Es ist eine
00:49:07: Machtverschiebung.
00:49:08: ja auf jeden Fall das
00:49:09: ist
00:49:09: sehr schwierig.
00:49:11: Ich bin dir total dankbar dass wir heute so viel lernen durften über dieses Thema also dass ich so viel lerne durfte unsere Zuhörerinnen so viel Lernen durften.
00:49:19: Ganz herzlichen Dank für deine Zeit und deine Expertise.
00:49:22: Und ich freue mich sehr, dass du da bist.
00:49:24: Gerne!
00:49:26: Vielen Dank.
00:49:27: Ciao.
00:49:28: Danke fürs Zuhören.
00:49:30: Wenn es euch gefallen hat, dann abonniert doch den Podcast und lasst eine Bewertung da bei Fragen und Anmerkungen schreibt an halloetki-derpodcast.de Bis bald.
Neuer Kommentar