Wie verwendet man LLMs mit firmeninternen Daten?

Aktueller Insight

Wie verwendet man LLMs mit firmeninternen Daten?

Wie verwendet man firmeninterne Daten mit Large Language Models (wie ChatGPT)

‍Da große Sprachmodelle (LLMs) immer fortschrittlicher werden, bieten sie zunehmend wertvolle Fähigkeiten für die Analyse und Verarbeitung von Sprache in der Geschäftswelt. Die Integration von LLMs in die Dateninfrastruktur eines Unternehmens kann eine differenziertere Analyse von Kundenfeedback, Finanzdokumenten oder anderen wichtigen Informationen ermöglichen. Die möglichen Anwendungen, wie z. B. informierte Chatbots oder Protokollzusammenfassungen, sind endlos.

Dies kann jedoch komplex und anspruchsvoll sein und erfordert eine sorgfältige Planung und Ausführung. Während die Vorteile der Integration von LLMs in Unternehmensdaten auf der Hand liegen, ist nicht immer klar, wie man ein entsprechendes System aufbaut. Wo soll man also anfangen? Das typische Szenario beinhaltet den Prozess des Fine-Tunings. Neuere Ansätze, die auf die steigende Popularität von LLMs zugeschnitten sind, beinhalten die Verknüpfung der Abfragen mit einem gewissen Kontext. Gehen wir sie Schritt für Schritt an.

Der "alte" Weg: Fine-Tuning

‍Fine-Tuning bezieht sich auf die Anpassung eines vorab trainierten Sprachmodells an eine bestimmte Aufgabe oder Domäne. Dabei wird das Modell auf einem Datensatz neu trainiert, der mit der spezifischen Aufgabe oder Domäne zusammenhängt, um seine Leistung zu verbessern. In einem typischen Szenario könnte man also ein Standardmodell nehmen, das auf einem großen allgemeinen Datensatz trainiert wurde, und es dann mit sorgfältig vorbereiteten eigenen Daten füttern.

Fine-Tuning ist jedoch nicht immer einfach. Es erfordert eine sorgfältige Datenverarbeitung, und die Daten müssen in geeigneter Menge vorhanden sein (was normalerweise eine große Datenmenge bedeutet). Manchmal "vergisst" das Modell dabei bereits Gelerntes zugunsten des neu erworbenen Wissens. In der Literatur des maschinellen Lernens wird dies als „katastrophales Vergessen“ bezeichnet. Der Nachteil dieses Ansatzes besteht auch darin, dass er eine umfassende Deep-Learning-Infrastruktur erfordert, die in der Lage ist, LLMs zu trainieren. Da das Training Zeit benötigt, kann dieser Ansatz auch zu langsam sein, um ihn für Anwendungsfälle mit schnell wechselnden Daten zu nutzen - jede Hinzufügung von Daten erfordert eine erneute Schulung.

Der "neue" Weg: kontextbezogenes Lernen

Mit dem Aufkommen der LLMs wurde ein neues Paradigma populär: Kontextbezogenes Lernen. Für Viele war die Fähigkeit, sich auf frühere Informationen (Kontext) zu stützen, eine der beeindruckendsten Eigenschaften von ChatGPT. Kontextbezogenes Lernen ist die Fähigkeit zu lernen, wie man neue Aufgaben löst, ohne das Modell zu ändern. Mit anderen Worten, unser Netzwerk ist in der Lage, Aufgaben zu lösen, die zum Zeitpunkt des Trainings noch nicht bekannt waren, ohne seine Gewichte zu ändern (wie beim Fine-Tuning). Außerdem können die Modelle lernen, ohne dass sie speziell dafür trainiert werden. Darüber hinaus genügen in der Regel nur wenige Beispiele, was im großen Gegensatz zu der typischen Wahrnehmung von Modellen für maschinelles Lernen als datenhungrig steht. Die Wurzeln dieses Phänomens beruhen möglicherweise auf der Bayes'schen Inferenz und sind derzeit Gegenstand intensiver Forschungsbemühungen.

Kontextbezogenes Lernen durch Prompt-Engineering

Die einfachste Art des kontextbezogenen Lernens ist das Prompt-Engineering, bei dem der Prompt einfach ein Textstück ist, das an das Modell gesendet wird. Dies bezieht sich auf die Gestaltung und Verfeinerung von Prompts oder Anweisungen, die an ein Sprachmodell wie ChatGPT gegeben werden, um die gewünschten Antworten zu erhalten. Es geht darum, spezifische und klare Anweisungen mit Beispielen zu formulieren, die das Verhalten des Modells lenken und es ermutigen, genaue und relevante Ausgaben zu erzeugen. Das Prompt-Engineering ist von entscheidender Bedeutung, da Sprachmodelle wie ChatGPT Antworten auf der Grundlage der bereitgestellten Informationen, einschließlich des anfänglichen Prompts und aller nachfolgenden Kontexte, generieren.

Die Entwicklung von Prompts ist oft ein iterativer Prozess, der Experimente und Verfeinerungen erfordert. Dazu kann die Verwendung bestimmter Schlüsselwörter oder die Bereitstellung relevanter Beispiele gehören. Durch die Anpassung und Optimierung der Prompts können die Benutzer die Leistung des Modells verbessern, die Qualität der Antworten erhöhen und potenzielle Verzerrungen oder Fehler, die auftreten können, verringern. Wichtig ist, dass sich das Prompt-Engineering auf das Design und die Konfiguration des Sprachmodells bezieht und keine Änderungen an der zugrunde liegenden Architektur oder den Trainingsdaten des Modells beinhaltet.

Ist es also so einfach? Nun, nicht wirklich. Aufgrund der begrenzten Größe des Abfragefensters (oder, formeller ausgedrückt, des Token-Limits) können wir nur eine begrenzte Anzahl von Informationen mit dem Kontext verknüpfen. Da die Unternehmensdaten die Tendenz haben, nur zu wachsen, könnte dieser Ansatz schnell unzureichend werden - von den Kosten ganz zu schweigen.

Intelligenteres kontextbezogenes Lernen mit Indizierung und Vektorspeichern

Glücklicherweise gibt es intelligentere Möglichkeiten, den Kontext mit den Abfragen zu verknüpfen. Wenn Sie eine große Menge eigener Daten haben, ist es keine Option, alles an die Eingabeaufforderung anzuhängen. Es gibt jedoch einige Techniken, mit denen Sie den richtigen Kontext bereitstellen können. Eine davon ist die Erstellung einer Reihe von Indizes auf Ihren Daten. Diese Indizes helfen dabei, relevante "Teile" Ihrer Daten zu identifizieren und nur die benötigten an die Abfrage anzuhängen.

Bevor die Eingabeaufforderung an das Modell gesendet wird, suchen wir also zunächst nach den relevanten Teilen unserer Daten und fügen sie dann der Eingabeaufforderung hinzu. Mit LlamaIndex können wir zum Beispiel verschiedene Dokumente (z.B. PDF-Dateien oder SQL-Daten) als indizierte Knoten speichern, die so strukturiert sind, dass sie später abgefragt werden können. Natürlich muss man dabei die Geschwindigkeit und die Kosten der Indexierung berücksichtigen. Ein anderer Ansatz wären Vektordatenbanken, wie z.B. Pinecone. Vektordatenbanken speichern Embeddings, die eine Form der numerischen Darstellung von Daten sind. Solche Einbettungen können später auf ungefähre Ähnlichkeit mit unserer Anfrage abgefragt werden, und dieses Merkmal kann verwendet werden, um den richtigen Kontext für die Eingabeaufforderung zu erstellen.

Andere zu berücksichtigende Faktoren

Bei der Bereitstellung eines Sprachmodells gibt es erhebliche Unterschiede zwischen der Bereitstellung On-Premises und der Verwendung externer Modelle (wie ChatGPT über eine API). Bei der On-Prem-Bereitstellung wird die Software auf den eigenen Servern oder in den Rechenzentren eines Unternehmens gehostet, was eine vollständige Kontrolle über die Infrastruktur ermöglicht. Dieser Ansatz ermöglicht es, die Datensicherheit und den Datenschutz entsprechend den spezifischen Anforderungen zu verwalten. Er kann für sensible oder vertrauliche Daten, die innerhalb des Unternehmensnetzes bleiben müssen, vorzuziehen sein. Die Bereitstellung vor Ort erfordert jedoch in der Regel erhebliche Vorabinvestitionen in Hardware (z. B. GPUs), die Einrichtung der Infrastruktur und die laufende Wartung. Außerdem fehlt ihnen die inhärente Skalierbarkeit und Flexibilität externer Lösungen. Daher sollte die endgültige Entscheidung immer auf einer sorgfältigen Planung und Berechnung beruhen. Cloud-Lösungen können als Zwischenlösung eingesetzt werden.

Schlussfolgerungen

Wir von Perelyn haben uns darauf spezialisiert, Unternehmen bei der nahtlosen Integration ihrer Daten mit Sprachmodellen zu unterstützen. Unsere Expertise liegt in der Überbrückung der Lücke zwischen Ihren wertvollen Datenquellen und den leistungsstarken Fähigkeiten von Sprachmodellen wie ChatGPT. Indem wir Ihre spezifischen Anforderungen und Ziele verstehen, können wir Sie bei der Vorbereitung und Strukturierung Ihrer Daten für eine optimale Nutzung unterstützen. Unser Team von Dateningenieuren und -experten hilft Ihnen bei der Bereinigung, Vorverarbeitung und Umwandlung Ihrer Daten in geeignete Formate für die Integration mit Sprachmodellen, damit KI für Sie arbeiten kann.

‍

Über den Author

Dominik Filipiak

Lead Computer Vision und IT Services