Menchour
Benutzer Avatar
Deepseek KI
carlsen1992 #technologie
28.01.2025 - 16:58

Künstliche Intelligenz und insbesondere der Trainingsprozess von Deep-Learning-Modellen:

Jeder, der grundlegendes Wissen über den Trainingsprozess von Künstlicher Intelligenz und insbesondere von Deep-Learning-Modellen hat, weiß, dass: Der Anspruch, ein so hochentwickeltes Modell mit nur 5 Millionen Dollar zu trainieren, eine Person in den nächsten Tagen direkt zu einem fünften Grad Zauberer führen wird.

Wenn du die Transformer-Architektur verwendest, gibt es unvermeidliche Wahrheiten, denen du nicht entkommen kannst: Dieser Teil wird etwas technisch sein:)

Datenvorverarbeitung

Tokenisierung (Tokenization): Textdaten werden in numerische Tokens umgewandelt, die das Modell verstehen kann. Bei großen Datensätzen ist dieser Prozess bereits zeitaufwendig und ressourcenintensiv.

Datenbereinigung und -strukturierung: Das Bereinigen von Rauschdaten, das Korrigieren von Fehlern und das Standardisieren des Formats verbessern die Datenqualität, erfordert jedoch erheblichen Aufwand und Zeit. Der menschliche und maschinelle Aufwand in diesem Fall ist enorm.

Datenanreicherung (Augmentation): Um den Datensatz zu diversifizieren, können Techniken wie Übersetzungen oder das Ersetzen von Synonymen angewendet werden. Dies bedeutet jedoch zusätzlichen Aufwand.

Forward Pass und Verlustberechnung

Übertragung von Eingabedaten in das Modell: Die tokenisierten Daten werden schichtweise an das Transformer-Modell weitergegeben. In jeder Schicht werden Aufmerksamkeitsmechanismen und andere Operationen angewendet.

Matrixmultiplikationen: Der Aufmerksamkeitsmechanismus und die linearen Schichten beinhalten intensive Matrixmultiplikationen. Bei Modellen mit Milliarden von Parametern sind diese Multiplikationen enorm.

Aktivierungsfunktionen und Normalisierung: In jeder Schicht werden Aktivierungsfunktionen (ReLU, GELU usw.) und Normalisierungstechniken (Layer Normalization usw.) angewendet. Diese erhöhen ebenfalls die Rechenlast. Ausgabeschätzung und Verlustberechnung: Die Ausgabe des Modells (zum Beispiel die Vorhersage des nächsten Wortes) wird mit den tatsächlichen Werten verglichen und der Fehler mit einer Verlustfunktion (wie Cross-Entropy Loss) berechnet.

Kosten: Der Forward Pass ist einer der rechenintensivsten Phasen des Trainings. Bei großen Modellen wirst du zwangsläufig TPU und GPU verwenden müssen, es gibt keinen Ausweg.

Parameteroptimierung

Optimierungsalgorithmus (Optimizer): Die berechneten Gradienten werden mit einem Optimierungsalgorithmus (wie Adam, SGD usw.) verwendet, um die Parameter des Modells zu aktualisieren. Das Ziel ist es, die Parameter so anzupassen, dass der Verlust minimiert wird.

Anpassung der Lernrate (Learning Rate Scheduling): Die Lernrate kann während des Trainings dynamisch angepasst werden. Dies ist wichtig, um die Leistung zu steigern, bringt jedoch zusätzliche Komplexität.

Es gibt viele Hyperparameter wie Lernrate, Batch-Größe, Anzahl der Schichten und Anzahl der Aufmerksamkeitsköpfe. Um die beste Kombination zu finden, müssen durch Trial and Error verschiedene Konfigurationen trainiert werden, was die Kosten erhöht.

Es ist ein unglaublicher Trial-and-Error-Prozess.

Modellgröße (Anzahl der Parameter): Mit zunehmender Modellgröße wächst die Größe und Anzahl der Matrixmultiplikationen bei jeder Vorwärts- und Rückwärtsausbreitung. Dies vervielfacht die Rechenzeit und den Speicherbedarf.

Größe des Datensatzes: Größere Datensätze erfordern mehr Trainingsiterationen und damit mehr Rechenaufwand. Hochwertige und große Datensätze sind sowohl kostspielig als auch rechenintensiv.

Trainingszeit (Anzahl der Iterationen): Erfolgreiche Modelle werden in der Regel Millionen oder sogar Milliarden von Iterationen trainiert. Jede Iteration umfasst die oben beschriebenen Vorwärts-, Rückwärts- und Aktualisierungsphasen.

Jetzt überspringt diesen technischen Kram und versteht einfach folgendes: Wenn die Kosten sinken, sinkt automatisch auch die Zeit. Ein solcher Modellentwickler, der die Kosten auf das 100-fache, 200-fache reduziert, wird auch die Zeit entsprechend reduzieren. Diese technologische Durchbruch ist eine Revolution. Solche Entwicklungen verschwendet man nicht mit DeepSeek. Man überlistet den Markt und die Welt so geschickt, dass OpenAI innerhalb eines Tages zu Nokia wird.

Ach, warum sind Nvidia-Aktien gefallen? Natürlich brauchte es eine Geschichte, um Gewinne zu realisieren. Eine Geschichte wurde gefunden. Aber das ist nicht wirklich wichtig. Die eigentliche Gefahr für Nvidia liegt nicht in solchen Gerüchten, sondern in der Zerstörung der Nvidia-Dominanz durch neue GPU-, TPU-Technologien und vor allem durch Kartellklagen.

Übrigens, geben wir China die Anerkennung, die es verdient:

China investiert in den Bereich der Künstlichen Intelligenz auf beiden Ebenen – sowohl amateurhaft als auch professionell – mit Investitionen, die kein anderes Land jemals gemacht hat.

Insbesondere im Bereich der großen Sprachmodelle (LLMs) und Diffusionsmodelle wird etwa 70% der Ressourcen – Modelle, Datensätze und Lora – aus China angeboten. Sie dominieren Huggingface und Civitai. Die meisten der veröffentlichten Papers stammen aus China. Während 20-jährige Kinder bei uns mit Spielen und Glücksspielen vergeudet werden, produzieren kleine chinesische Genies Tag und Nacht erstaunliche Innovationen.

In Österreich oder Deutschland haben von 1000 Studierenden der Informatik 999 noch nie ein LLM auf der OpenAI-Plattform fine-tuned. Noch nie haben sie ein vorhandenes Kursmaterial in halbsynthetische Daten umgewandelt und ein LLM trainiert. Noch nie haben sie mit A1111 oder Kohya ein einfaches Stable Diffusion 1.5 Lora trainiert.

Diese Arbeiten sind wie Kunst. Sie entwickeln sich durch Erfahrung und Intuition. Trial and Error ist unvermeidlich. Know-how ist sowohl individuell als auch institutionell.

Diese hochentwickelte menschliche Ressource baut in der Open-Source-Welt eine unglaublich qualitativ hochwertige Infrastruktur auf. Dieses menschliche Potenzial kann nicht einfach mit milliardenschweren Technologieunternehmen aufgebaut werden. Deshalb wird China die USA besiegen, und zwar nicht auf irgendeine Weise, sondern auf eine wirklich beeindruckende Weise.


ist sehr wichtig. Nicht weil es ein sehr gutes Modell ist oder weil es andersartige Inhalte produziert als andere. Es ist wichtig, weil es Open-Source ist (der Quellcode ist zugänglich), im Vergleich zu seinen Konkurrenten ressourcenschonend ist (es benötigt weniger Hardware, Speicher und GPU-Ressourcen) und weil es nicht zu einem Unternehmen gehört.

Jeder kann es mit seinen eigenen Ressourcen betreiben, sein eigenes Modell trainieren und verwenden. Es kann mit Chips betrieben werden, die in jedem Land, außer von Nvidia, produziert werden.

Diese Möglichkeiten haben ernsthafte Reaktionen an der Nasdaq-Börse ausgelöst. Diese Möglichkeiten haben den Markt und Kapitalbesitzern „Was ist hier los?“ ins Gedächtnis gerufen.

Man könnte sagen, der Kalte Krieg hat auf eine noch kältere Weise wieder begonnen.

N: Ich versichere Ihnen, das Ziel dieser Milliarden Dollar, die diese Unternehmen in den Bereich der Künstlichen Intelligenz investieren, ist nicht, Ihnen einen Chatbot für 10-20$ zu verkaufen.




„Wir sammeln bestimmte Geräte- und Netzwerkverbindungsinformationen, wenn du auf den Service zugreifst. Diese Informationen beinhalten dein Geräte-Modell, Betriebssystem, Tastenanschlagmuster oder Rhythmen, IP-Adresse und Systemsprache.“

Hier ist der Punkt, auf den du achten solltest: „Tastenanschlagmuster oder Rhythmen“.

Das bedeutet, dass sie aufzeichnen, welche Tasten du drückst.

Jeder kann es überprüfen; DeepSeek Datenschutzvereinbarung.

Es wird wirklich eine sehr seltsame Sache herauskommen, aber naja, mal sehen, was passiert.

Außerdem:

Laut dem technischen Leiter von Hugging Face: Link

„Lassen Sie sich nicht von den falschen Nachrichten über DeepSeek R1 täuschen. Das Modell ist populär geworden, aber es gibt viele falsche Informationen.

Das Training hat nicht etwa 6 Millionen Dollar gekostet. Nur die GPU-Stunden, die für das Training des Basis-Modells (ohne RL) verwendet wurden, hatten einen Wert von etwa 5,5 Millionen Dollar. Aber dies umfasst nicht die zusätzlichen Experimente, kleinen Tests, Datenproduktion und den gesamten Trainingsprozess.

Dies ist nicht nur ein Nebenprojekt (vielleicht war es anfangs so). DeepSeek gehört zu dem chinesischen Hedgefonds High-Flyer. 2020 verwalteten sie Vermögenswerte von über 7 Milliarden Dollar. In ihrem Team gibt es Menschen mit olympischen Medaillen in Mathematik, Physik und Informatik.

Sie haben nicht nur ein paar GPUs, sondern etwa 50.000.

Das echte DeepSeek R1 ist ein MOE-Modell mit 671 Milliarden Parametern. Um es auszuführen, werden mindestens 16 GPUs mit 80 GB H100 benötigt.

DeepSeek R1 671B ist wirklich ein leistungsstarkes Modell, und das Team trägt bereits seit 2 Jahren zu Open Source und wissenschaftlichen Arbeiten bei.

Es gibt 6 kleinere, distillierte Versionen. Diese sind feinabgestimmte Versionen von Qwen und Llama mit 800.000 Beispielen (kein RL). Diese sind nicht „R1“. Die kleinste Version hat 1,5 Milliarden Parameter. Sie können lokal ausgeführt werden, aber sie kommen nicht annähernd an R1 heran.

Die Version auf chat(.)deepseek(.)com kann gemäß den Nutzungsbedingungen Daten verwenden, um neue Modelle zu trainieren.“



Menschen, die unbedingt andere kontrollieren wollen, wurden früher selbst von anderen kontrolliert, und dieser Umstand hat ihnen sehr zu schaffen gemacht.
Ein Zeichen von Schwäche.

Das hat... lies den rest

schlimmste Sucht
wfragen #gesundheit

Wenn ich was Gutes finde, hau ich so lange drauf, bis es komplett verbraucht ist. Das kann ein Lied sein oder ein neues Gericht, das ich gerade probiert hab. Eigentlich müsste man es in Maßen genie... lies den rest

Was einem zu Prag einfällt
vachierlagrave #global
außer karlovo, hat deine liste mir sehr gefallen.
Großartige Feststellungen über das Leben
vachierlagrave #literatur
Normalerweise kommen mir kreative Ideen, während ich auf der Toilette bin. Ich glaube, dass Männer bestätigen können, dass ich in diesem Punkt nicht allein bin. Aber so etwas höre ich zum ersten Mal u... lies den rest
Hypergamie
vachierlagrave #beziehungen

siehe: #Sekretarin-die-ihren-Chef-geheiratet-hat 

Der am meisten unbeliebte Menschentyp
ksenja-aldehbanov #erleben

Die Menschen, die einen herabsetzen, wenn man beim Deutschsprechen Fehler macht.
Okay, ich spreche es nicht perfekt, aber ich versuche es zumindest, oder?
Es hilft nur dabei, die Motivation z... lies den rest

Vom Fehler abzukommen
balleeey #erleben

macht nicht immer glücklich, du musst wissen, wohin du zurückkehren willst.

Gerade im Klo gemerkt, dass die Person, mit der ich da war, eigentlich meine wahre Liebe ist, und dank euch hab ich ihr jetzt nen Heiratsantrag gemacht. Sie hat ja gesagt, jetzt gehen wir heiraten. We... lies den rest

allein zu sein, wenn man sich traurig fühlt.

Rauchen und Alkohol verlassen.
ich weiß dass es für manche schwer ist aber versuch mal

Großartige Feststellungen über das Leben
saschagraubner #literatur
Das ist das erste Mal, dass ich sowas höre, ich werd's auf jeden Fall bringen oida.
Großartige Feststellungen über das Leben
ksenja-aldehbanov #literatur
Ich muss den Typen treffen, wir sollten mal in seinem Kopf rumschauen, der könnte der zweite Einstein sein.
Nie so gedacht, ahahahaha

Ich möchte auf diese Feststellung mit den Worten von 
#Rainer-Maria-Rilke antworten:

„Sei geduldig mit allem, was noch ungelöst in deinem Herzen ist, und versuche, di... lies den rest

„Wer beim Kacken an jemanden denkt, gehört dieser Person.“

Diese wertvolle Feststellung wurde von meinem Freund Albert gemacht. Als ich ihn bat, diese Feststellung zu erklären, sagte er, dass... lies den rest

Dein Schmerz gehört nur dir. Und alle Dummköpfe der Welt denken, dass der größte Schmerz der ihre ist. Weder Schmerz noch Freude zu übertreiben, ist ein großes Zeichen von Arroganz. Wenn das Leben ... lies den rest

Großartige Feststellungen über das Leben
berlinerschnitzel #literatur
„Das Leben kann nur rückblickend verstanden werden, aber es muss vorwärts gelebt werden.“