Sprachmodelle

Der Swiss AI Hub integriert sich über Sprachmodell-Anbieter mittels LiteLLM, einem einheitlichen Gateway, das Routing, Kostenverfolgung und Sicherheit verwaltet. Agents greifen über diese Proxy-Schicht auf Modelle zu, ohne anbieterspezifischen Code zu benötigen.

Unterstützte Modelle

LiteLLM unterstützt über 100 LLM-Anbieter. Die Plattform kann sich mit jedem Anbieter integrieren, den LiteLLM unterstützt.

Die Plattform verwendet ein Inferenzmodell im Dual-Modus:

Nicht-GPU-Deployments: Swiss LLM Cloud (in der Schweiz gehosteter Anbieter) für Textgenerierung, Embedding, Re-Ranking, Transkription und OCR
GPU-Deployments: Lokales vLLM auf einer NVIDIA RTX 6000 Pro (96 GB VRAM) für vollständig luftspaltgetrennten Betrieb
Jeder zusätzliche OpenAI-kompatible API-Endpunkt kann über die LiteLLM-Konfiguration hinzugefügt werden

Modelle werden in LiteLLM mit Metadaten über Funktionen (Chat, Embedding, Vision, Funktionsaufrufe), Token-Limits und Kosten konfiguriert. Agents geben in ihrer Konfiguration an, welches Modell verwendet werden soll. Das Hinzufügen neuer Anbieter erfordert die Aktualisierung der LiteLLM-Konfigurationsdatei.

Architektur

Die Plattform verwendet drei Schichten:

LLM-Proxy-Schicht: Bietet ein einheitliches Gateway zu Sprachmodell-Anbietern. Siehe Proxy-Server für Routing, Kostenverfolgung und Wiederholungsversuche.

Agenten-Schicht: Agents implementieren Workflows mithilfe von LLMs über den Proxy. Siehe Guards für Eingabe- und Ausgabevalidierung.

Benutzer-Schicht: Benutzer interagieren mit Agents über Chat-Oberflächen.

Wie die Schichten zusammenarbeiten

Wenn ein Benutzer eine Frage stellt:

Die Frage erreicht den Agent
Agenten-Eingabe-Guards (optional) validieren, ob die Frage angemessen ist
Presidio (falls aktiviert) scannt die Frage auf der Proxy-Schicht nach PII
Der Proxy leitet die Anfrage an den konfigurierten LLM-Anbieter weiter
Das LLM generiert eine Antwort
Agenten-Ausgabe-Guards (optional) überprüfen die Antwortqualität und redigieren PII aus abgerufenen Dokumenten
Die Antwort erreicht den Benutzer

Dieser geschichtete Ansatz bietet Defense-in-Depth sowohl für die Funktionalität (Guards gewährleisten Qualität) als auch für die Sicherheit (Presidio schützt Benutzereingaben, Ausgabe-Guards schützen abgerufene Daten).

Komponenten

Proxy-Server: LiteLLM-Konfiguration, Routing und Kostenverfolgung
Datenanonymisierung: Presidio-Integration für PII-Schutz in Benutzereingaben
Guards: Agenten-Ebene Eingabe- und Ausgabevalidierung für Qualität und Sicherheit

Einführung: Die Vision des Swiss AI Hub

Warum Swiss AI Hub

Schnellstart: Ihre ersten 30 Minuten

Plattform-Architektur

Bereitstellungsanleitung

Überwachung und Alarmierung

Einrichtung des Identitätsanbieters

Microsoft Entra ID

Agents

Daten-Pipelines

8 Knowledges

Chat-Schnittstelle

Zugriffsverwaltung

Auditierung und Beobachtbarkeit

Sprachmodelle

Gedächtnis

Mandantenfähigkeit

17 Slack Teams Integrations

18 Api

Sicherheit

Compliance und Vorschriften

Schnellstart

Agenten erstellen

Pipelines erstellen

Prozesse erstellen

Erweiterte SDK-Themen

Funktionen

Mitwirken

KI für Beiträge nutzen

Zertifizierung

API-Referenz

Fehlerbehebung

Glossar

Pipeline

Sources

Sprachmodelle

Unterstützte Modelle

Architektur

Wie die Schichten zusammenarbeiten

Komponenten

Überwachung und Alarmierung

Einrichtung des Identitätsanbieters

Microsoft Entra ID

Sources

Sprachmodelle ​

Unterstützte Modelle ​

Architektur ​

Wie die Schichten zusammenarbeiten ​

Komponenten ​

Sprachmodelle

Unterstützte Modelle

Architektur

Wie die Schichten zusammenarbeiten

Komponenten