Daten-Pipelines
Pipelines sind automatisierte Workflows, die Dokumente in durchsuchbare Wissensdatenbanken für KI-Agenten umwandeln. Sie überwachen Dateispeicherorte, verarbeiten Dokumente bei Änderungen und pflegen Vektordatenbanken, die von Agenten für Informationen abgefragt werden.
Dokumentverarbeitungs-Workflow
Rohe Dokumente können nicht direkt von Agenten abgefragt werden. PDFs und Word-Dateien müssen in Text umgewandelt, in überschaubare Teile zerlegt und in Vektor-Embeddings transformiert werden, die eine semantische Suche ermöglichen. Pipelines übernehmen diese Transformation automatisch.
Das Diagramm zeigt den vollständigen Fluss von der Dokumentenerfassung bis zu den Agentenabfragen. Jede Phase transformiert die Daten, um sie durchsuchbar und abrufbar zu machen.
Automatische Synchronisierung
Pipelines überwachen Datenquellen auf Änderungen. Wenn ein Dokument hinzugefügt, geändert oder gelöscht wird, verarbeitet die Pipeline die Änderung und aktualisiert die Wissensdatenbank. Dies hält die Antworten der Agenten ohne manuelles Eingreifen aktuell.
Orchestrierung mit Dagster
Dagster orchestriert die Pipeline-Ausführung und kümmert sich um Planung, Wiederholungen und Protokollierung. Jeder Verarbeitungsschritt wird verfolgt, wodurch ein Audit-Trail von der Dokumentenerfassung bis zur Speicherung entsteht. Sie können Pipeline-Läufe überprüfen, um Probleme zu beheben, die Dokumentenverarbeitung zu verifizieren und die Datenqualität zu überwachen.
