Installieren von ETL-Komponenten

Installieren von Pentaho Data Integration

Pentaho Data Integration (PDI), eine Client-Applikation von einem Drittanbieter, ist zum Erstellen von Transformationen und Jobs erforderlich.

Sie müssen die Client-Applikation Pentaho Data Integration - Community Edition, Version 9.3, und das ETL-Paket von ConSol CM ETL installieren. Die Version des ETL-Pakets muss mit der Version des ConSol CM-Servers übereinstimmen.

  1. Laden Sie das PDI-Installationpaket von https://www.hitachivantara.com/en-us/products/pentaho-platform/data-integration-analytics/pentaho-community-edition.html herunter.

  2. Packen Sie es am gewünschten Speicherort Ihres lokalen Rechners aus.

  3. Fragen Sie den ConSol CM-Support nach dem ConSol CM-ETL-Paket (etl-package-distribution-<CM_VERSION>-kettle.zip). Es enthält die Plugins, Beispiele und einige zusätzlich benötigte Bibliotheken.

  4. Entpacken Sie es ins Verzeichnis data-integration von PDI (in diesem Handbuch <PDI_HOME> genannt). Überschreiben Sie vorhandene Dateien.

    Wenn Sie ConSol CM auf eine neuere Version aktualisieren, müssen Sie das ETL-Paket ebenfalls aktualisieren. Überschreiben Sie die vorhandenen Dateien und prüfen Sie die Verzeichnisse libext und plugins, um sicherzustellen, dass es keine duplizierten Bibliotheken gibt. Sie müssen mindestens die ETL-spezifischen JAR-Dateien der niedrigeren ConSol CM-Version löschen.

  5. Konfigurieren Sie Spoon, die Benutzeroberfläche zum Erstellen von Transformationen und Jobs. Dies erfolgt für Windows in der Datei spoon.bat file und für Unix in der Datei spoon.sh. Schreiben Sie die URL des ETL-Services des ConSol CM-Servers und den Namen und das Passwort des Administratorbenutzers in die Variable CM_INIT, die zu den Laufzeitoptionen (OPT) hinzugefügt wird:

    Beispiel für Windows (ConSol CM-spezifische Änderungen sind rot hervorgehoben):

    REM ******************************************************************

    REM ** Set java runtime options **

    REM ** Change 2048m to higher values in case you run out of memory **

    REM ** or set the PENTAHO_DI_JAVA_OPTIONS environment variable **

    REM ******************************************************************

     

    set CM_INIT=-Durl=http://localhost:8888/etl-service -DcmUser=admin -DcmPassword=consol -DbatchSize=100 -DinfoSize=100 -DcountRemote=10 -DexportSize=1000

     

    if "%PENTAHO_DI_JAVA_OPTIONS%"=="" set PENTAHO_DI_JAVA_OPTIONS="-Xms1024m" "-Xmx2048m"

     

    set OPT=%OPT% %PENTAHO_DI_JAVA_OPTIONS% "-Djava.library.path=%LIBSPATH%;%HADOOP_HOME%/bin" %JAVA_ENDORSED_DIRS% %JAVA_LOCALE_COMPAT% "-DKETTLE_HOME=%KETTLE_HOME%" "-DKETTLE_REPOSITORY=%KETTLE_REPOSITORY%" "-DKETTLE_USER=%KETTLE_USER%" "-DKETTLE_PASSWORD=%KETTLE_PASSWORD%" "-DKETTLE_PLUGIN_PACKAGES=%KETTLE_PLUGIN_PACKAGES%" "-DKETTLE_LOG_SIZE_LIMIT=%KETTLE_LOG_SIZE_LIMIT%" "-DKETTLE_JNDI_ROOT=%KETTLE_JNDI_ROOT%" %CM_INIT%

    Beispiel für Unix (ConSol CM-spezifische Änderungen sind rot hervorgehoben):

    # ******************************************************************

    # ** Set java runtime options **

    # ** Change 2048m to higher values in case you run out of memory **

    # ** or set the PENTAHO_DI_JAVA_OPTIONS environment variable **

    # ******************************************************************

     

    CM_INIT="-Durl=http://localhost:8888/etl-service -DcmUser=admin -DcmPassword=consol -DbatchSize=100 -DinfoSize=100 -DcountRemote=10 -DexportSize=1000"

     

    OPT="$OPT $PENTAHO_DI_JAVA_OPTIONS -Djava.library.path=$LIBPATH $JAVA_ENDORSED_DIRS $JAVA_LOCALE_COMPAT -DKETTLE_HOME=$KETTLE_HOME -DKETTLE_REPOSITORY=$KETTLE_REPOSITORY -DKETTLE_USER=$KETTLE_USER -DKETTLE_PASSWORD=$KETTLE_PASSWORD -DKETTLE_PLUGIN_PACKAGES=$KETTLE_PLUGIN_PACKAGES -DKETTLE_LOG_SIZE_LIMIT=$KETTLE_LOG_SIZE_LIMIT -DKETTLE_JNDI_ROOT=$KETTLE_JNDI_ROOT" $CM_INIT"

  6. Starten Sie Spoon, indem Sie die Datei spoon.bat / spoon.sh ausführen.

    Sie können direkt mit der Erstellungen Ihrer eigenen Transformationen und Jobs beginnen, oder einen Blick auf die ConSol CM-Beispieltransformationen unter <PDI_HOME>/samples/consol werfen. Wenn Sie die Beispiele ausführen wollen, brauchen Sie ein ConSol CM-Ssystem, auf dem das Szenario „Test and demo“ installiert ist. Das hat den Grund, dass die Beispieltransformationen auf der tatsächlichen Konfiguration basieren und voraussetzen, dass bestimmte Datenobjekte und Datenfelder vorhanden sind.

Installieren von ETL Runner

ETL Runner ist eine ConSol CM-Komponente, die zum Ausführen von Transformationen und Jobs benötigt wird.

Es gibt zwei Optionen für die Installation von ETL Runner:

Standalone-Modus

  1. Speichern Sie etl-runner-<CM_VERSION>.jar und etlRunnerApplication.properties in dem Verzeichnis, das als Stammverzeichnis für ETL dienen soll.

  2. Geben Sie den Pfad zum ETL-Workspace, die URL des ETL-Services des ConSol CM-Servers, das Secret der Applikation und den Namen und das Passwort des Administratorbenutzers in der Datei etlRunnerApplication.properties ein.

    Beispiel:

    # indent all json to help debugging

    application.indent.json.output=true

     

    # Workspace directory functionality is optional and described later

    application.workspace.directory=D:\ETL\workspace

     

    # Secret used to sign JSON Web Token (JWT) to authenticate within etl-runner (minimum 32 characters)

    application.secret=secret.secret.secret.secret.secret

     

    # property names from CM kettle plugins (connection to CM instance)

    url=http://localhost:8888/etl-service

    cmUser=admin

    cmPassword=consol

    Wenn HTTPS verwendet wird, sind einige zusätzliche Einstellungen erforderlich:

    server.port=9443

    server.ssl.key-store=/pathToYourP12/yourP12Name.p12

    server.ssl.key-store-password=yourP12Password

    server.ssl.keyStoreType=PKCS12

    server.ssl.keyAlias=p12Alias

    Wenn ein Proxy verwendet wird, sind folgende zusätzliche Einstellungen erforderlich:

    server.port=8080

    server.address=127.0.0.1

    server.use-forward-headers=true

  3. Starten Sie ETL Runner, indem Sie folgenden Befehl ausführen:

    java -jar modules/application/package/app/target/etl-runner-${version}.jar

Overlay-Modus

  1. Speichern Sie etlRunnerApplication.properties in <JBOSS_HOME>/bin.

  2. Geben Sie den Pfad zum ETL-Workspace, die URL des ETL-Services des ConSol CM-Servers, das Secret der Applikation und den Namen und das Passwort des Administratorbenutzers in der Datei etlRunnerApplication.properties ein.

    Beispiel:

    # indent all json to help debugging

    application.indent.json.output=true

     

    # Workspace directory functionality is optional and described later

    application.workspace.directory=D:\ETL\workspace

     

    # Secret used to sign JSON Web Token (JWT) to authenticate within etl-runner (minimum 32 characters)

    application.secret=secret.secret.secret.secret.secret

     

    # property names from CM kettle plugins (connection to CM instance)

    url=http://localhost:8888/etl-service

    cmUser=admin

    cmPassword=consol

    Wenn HTTPS verwendet wird, sind einige zusätzliche Einstellungen erforderlich:

    server.port=9443

    server.ssl.key-store=/pathToYourP12/yourP12Name.p12

    server.ssl.key-store-password=yourP12Password

    server.ssl.keyStoreType=PKCS12

    server.ssl.keyAlias=p12Alias

    Wenn ein Proxy verwendet wird, sind folgende zusätzliche Einstellungen erforderlich:

    server.port=8080

    server.address=127.0.0.1

    server.use-forward-headers=true

  3. Speichern Sie etl-runner-<CM_VERSION>.war in <JBOSS_HOME>/standalone/deployments.