ETL

Einführung in ETL in ConSol CM

ETL wird zum Verarbeiten von großen Mengen an Laufzeitdaten. Es ermöglicht den Import von Vorgängen, Kontakten, Ressourcen und Benutzern aus externen Datenquellen nach ConSol CM. Außerdem können Vorgänge, Kontakte, Ressourcen und Benutzer aus ConSol CM in externe Datenquellen exportiert werden. Dies ist normalerweise nötig, um ConSol CM in die IT-Infrastruktur des Kunden zu integrieren und Daten mit externen IT-Systemen auszutauschen.

Konzepte, Begriffe und Definitionen

Konzept

Andere Begriffe

Definition

ETL Extract Transform Load Prozess, bei dem Daten aus einer Datenquelle extrahiert, transformiert und in eine andere Datenquelle importiert werden
Transformation   Kette mit Verarbeitungsschritten, die einen Datenfluss definieren; besteht normalerweise aus einem oder mehreren Eingabeschritten, mehreren Transformationsschritten und mehreren Ausgabeschritten; Dateinamenserweiterung ktr
Job   Workflow zum Ausführen von einer oder mehreren Transformationen; umfasst normalerweise die Dateiverfügbarkeit, Datenbankverbindungen und Fehlerbenachrichtigungen; Dateinamenserweiterung kjb

Plugin

 

Verarbeitungsschritt mit Einstellungen, die in Transformationen oder Jobs verwendet werden

Task

 

Ausführungskonfiguration für eine Transformation oder einen Job in ConSol CM

Zweck und Verwendung

ETL ermöglicht die Verarbeitung von großen Mengen an Laufzeitdaten:

Der Import und Export von Konfigurationsdaten erfolgt auf den Seiten Staging-Export, Benutzerdefinierter Export und Import der Web Admin Suite.

Die erforderlichen Verarbeitungsschritte werden in Transformationen und Jobs definiert und in einer Task referenziert.  Die Task wird gemäß einer definierten Planung ausgeführt.

Anwendungsbereiche der Applikationen

Die Arbeit mit ETL in ConSol CM beinhaltet mehrere Applikationen. Die folgende Abbildung verdeutlicht ihre Anwendungsbereiche:

Verfügbare Plugins

Die ConSol CM-ETL-Plugins können in Transformationen zusammen mit den direkt von PDI bereitgestellten Plugins verwendet werden. Sie sind entsprechend ihres Zweckes in die Ordner Input, Output und Lookup eingeordnet.

Standardmäßig sind die häufig verwendeten PDI-Plugins in ETL Runner verfügbar. Informationen zum Hinzufügen von zusätzlichen Plugins finden Sie in Hinzufügen zusätzlicher PDI-Plugins.

Eingabeschritte (Input)

Eingabeschritte exportieren Daten aus der ConSol CM-Datenbank

Ausgabeschritte (Output)

Ausgabeschritte importieren Daten in die ConSol CM-Datenbank.

Suchschritte (Lookup)

Suchschritte prüfen Daten in der ConSol CM-Datenbank.

Übersicht der Aufgaben

Sie müssen folgende Aufgaben ausführen, um ETL in ConSol CM zu verwenden:

  1. Installieren Sie PDI auf dem lokalen Entwicklungsrechner, siehe Installieren von Pentaho Data Integration.

  2. Installieren Sie ETL Runner auf dem Serverrechner, siehe Installieren von ETL Runner.

  3. Erstellen Sie Transformationen und Jobs in PDI. Allgemeine Hinweise und Informationen über die Standard-Plugins finden Sie in der offiziellen PDI-Dokumentation. Die ConSol CM-Plugins sind in Verfügbare Plugins beschrieben.

  4. Laden Sie die Transformationen und Jobs in den Workspace auf dem Rechner von ETL Runner, siehe Hochladen von Transformationen und Jobs.

  5. Erstellen Sie Tasks, um die Transformationen und Jobs auszuführen, siehe Erstellen von Tasks.

  6. Laden Sie die Dateien, die zum Ausführen der Transformationen oder Jobs hoch, siehe Verwalten von Dateien.

  7. Verfolgen Sie die Task-Ausführung, siehe Nachverfolgen der Task-Ausführung.

Wenn die Transformationen oder Jobs Verbindungen zu externen Datenbanken beinhalten, müssen Sie sicherstellen, dass die Verbindungen definiert sind und ETL Runner Zugang zu den Treibern hat, siehe Verbinden mit externen Datenbanken.

Grundlegende Aufgaben

Konfigurieren der Verbindung zu ETL Runner

Um die Web Admin Suite für die Arbeit mit ETL zu verwenden, müssen Sie die Verbindung zu der ETL Runner-Instanz konfigurieren, die die Tasks ausführen soll.

  1. Öffnen Sie den Tab Verbindung.

  2. Geben Sie die URL von ETL Runner ein. Die URL hängt vom Installationsmodus ab. Beispiele:

    • Overlay-Installation: http://localhost:8888/etl-runner

    • Standalone-Installation: http://localhost:8080

  3. Geben Sie das Secret von ETL Runner ein, so wie es in der Einstellung application.secret der Datei etlRunnerApplication.properties definiert ist.

  4. Sie können auf den Button Verbindung prüfen klicken, um zu überprüfen, ob die URL korrekt ist.

  5. Klicken Sie auf den Button Verbindung aktualisieren, um die Verbindung zu speichern.

Der Tab Verbindung zeigt den Pfad zum Verzeichnis mit dem ETL-Workspace, das bei der Installation von ETL Runner definiert wird, siehe Installieren von ETL Runner.

Hochladen von Transformationen und Jobs

Mit der Web Admin Suite können Sie die in PDI erstellen Transformationen und Jobs in den ETL-Workspace hochladen. Wenn Ihre Transformationen oder Jobs andere Dateien benötigen, wie zum Beispiel Eingabedateien, die die zu importierenden Daten enthalten, können Sie diese ebenfalls in den Workspace laden.

  1. Öffnen Sie den Tab Dateien.

  2. Navigieren Sie zum gewünschten Speicherort. Sie können ein bestehendes Verzeichnis per Doppelklick öffnen. Zusätzlich können Sie auf den Button Neues Verzeichnis klicken, um einen neuen Ordner zu erstellen.

    Die Verzeichnisstruktur kann nach Wunsch definiert werden. Sie können zum Beispiel einen Ordner für jede Transformation erstellen, der wiederum Unterordner für Eingabe-, Ausgabe und Log-Dateien enthält.

  3. Klicken Sie auf den Button Datei hochladen. Wenn Sie eine ZIP-Datei hochladen, wird sie automatisch im Zielverzeichnis entpackt.

Als Alternative können Sie die Dateien mit anderen Mitteln an den gewünschten Ort kopieren, z. B. mit dem Dateiexplorer oder FTP.

In Ihren Transformationen können Dateien referenziert werden, die außerhalb des Workspaces gespeichert sind. Diese Dateien können nicht im Tab Dateien verwaltet werden.

Erstellen von Tasks

Eine Task ist eine JSON-Datei, in der die notwendigen Einstellungen zum Ausführen einer Transformation oder eines Jobs gespeichert sind. Es sind folgende Einstellungen verfügbar:

Verwalten von Dateien

Der Tab Dateien zeigt den Inhalt des Workspaces auf dem Rechner mit ETL Runner. Sie können die in den Transformationen oder Jobs benötigten Dateien im Workspace speichern, z. B. die Eingabedateien, die importiert werden. Es sind folgende Aktionen verfügbar:

Nachverfolgen der Task-Ausführung

Die Tabelle Tasks zeigt eine List aller Tasks mit ihrem aktuellen Status und der nächsten Ausführung. Sie können im Tab Ausführungsdetails der Task-Details zusätzliche Informationen erhalten:

Alle Daten werden im Roh-JSON- oder Textformat dargestellt.

Erweiterte Aufgaben

Verbinden mit externen Datenbanken

Sie können in Transformationen und Jobs Verbindungen zu externen Datenbanken herstellen. Gehen Sie folgendermaßen vor, um solche Verbindungen zu ermöglichen:

Einträge für die Treiber der von ConSol CM unterstützten Datenbanken sind in der Standardkonfiguration vorhanden.

ETL Runner muss zur Laufzeit Zugriff auf die Datenbank-URL haben.

Hinzufügen zusätzlicher PDI-Plugins

Wenn Ihre Transformationen und Jobs PDI-Plugins enthalten, die nicht zu den häufig verwendeten Standard-Plugins gehören, müssen Sie diese Plugins manuell hinzufügen, um diese Transformationen und Jobs auszuführen. Gehen Sie folgendermaßen vor, um zusätzliche Plugins zu aktivieren:

Bei einigen Plugins ist es möglicherweise erforderlich, zusätzliche Abhängigkeiten in das Verzeichnis /etl-runner/plugins/${plugin}/lib zu kopieren.