Prozessor "Datensätze verbinden"¶
Dieser Prozessor ermöglicht es, zwei Datensätze zu verbinden. Beide Datensätze müssen jedoch ein gemeinsames Feld haben, damit sie verbunden werden können.
Beispiel: ein Datensatz A kann mit Daten angereichert werden, die sich in einem Datensatz B befinden. Wenn die Datensätze A und B ein gemeinsames Feld haben, können diese Datensätze zusammengefügt werden, um ein Feld von Datensatz B in Datensatz A zu übertragen.
Wichtig
Der Prozessor "Datensätze verbinden" kann standardmäßig nur mit Remote-Datensätzen mit weniger als 100.000 Einträgen verwendet werden. Wenn ein Prozessor "Datensätze verbinden" zusätzlich für einen geplanten Datensatz eingesetzt wird, so wird die Verbindung erst dann angewendet, wenn sich die Ressource geändert hat. Nehmen wir das Beispiel, dass ein Prozessor "Datensätze verbinden" für einen geplanten Datensatz A Werte aus einem Datensatz B abruft. Befinden sich jetzt neue Werte im Datensatz B und haben sich die Ressourcen von Datensatz A nicht geändert, ruft die geplante Verarbeitung keine neuen Werte aus Datensatz B ab.
Den Prozessor einrichten¶
Befolgen Sie die Anweisungen der unteren Tabelle, um die Parameter des Prozessors "Datensätze verbinden" einzurichten.
Beschriftung |
Beschreibung |
Obligatorisch |
---|---|---|
Datensatz |
Datensatz, der für die Verbindung verwendet wird; dieser kann aus den Datensätzen des Portals oder dem Netzwerk von Opendatasoft ausgewählt werden. |
ja |
Lokaler Schlüssel |
Lokales Feld, mit dem die entsprechenden Einträge im Remote-Datensatz identifiziert werden sollen. Es kann mehr als ein Schlüssel angegeben werden. |
ja |
Remote-Schlüssel |
Remote-Feld mit dem lokalen Schlüssel. Hierbei kann es sich um eine Liste handeln. |
ja |
Ausgabefelder |
Die Liste der abzurufenden Felder des Remote-Datensatzes. |
ja |
Alle Felder abrufen |
Um alle Felder des Remote-Datensatzes abzurufen. |
nein |
Groß- und Kleinschreibung beachten |
Um den Feldnamen ohne Akzente und in Kleinbuchstabenformat abzurufen |
nein |
Eine Zeile |
In bestimmten Fällen kann der Remote-Datensatz mehr als eine Zeile enthalten, die mit dem lokalen Schlüssel übereinstimmen. In diesem Fall können Sie die Duplikate minimieren (d. h. eine einzige Zeile erzeugen, die mehrwertige Felder enthält) oder auch nicht. |
nein |
Trennzeichen |
Auszufüllen, wenn "Eine Zeile" eingestellt ist. Bestimmt das Zeichen, das verwendet werden soll, um Werte im generierten Feld zu trennen. |
nein |
Alle Einträge nach einem Update erneut publizieren |
Aktiviert einen Zeitplan für den Datensatz, falls dieser nicht bereits aktiviert ist (siehe Daten auf dem neuesten Stand halten). Sobald der Zeitplan konfiguriert ist, sorgt diese Option automatisch für eine erneute Veröffentlichung, wenn der Remote-Datensatz aktualisiert wurde. Hinweis Diese Option ist vor allem praktisch, wenn für den Remote-Datensatz ein Zeitplan vorliegt. |
nein |
Beispiele¶
Einfache Verbindung¶
Datensatz A: Liste der Taxistationen in Paris (Der Name dieses Datensatzes lautet: paris_taxis_stations).
station_id | station_name | station_adresse |
---|---|---|
1 | Eiffelturm |
69 quai Branly, 75007 Paris |
2 | Rennes - Montparnasse | 1 place du dix huit Juin 1940, 75006 Paris |
Datensatz B: Die Anzahl der Taxis, die pro Station in Paris warten.
station_id | Anzahl |
---|---|
1 | 10 |
2 | 15 |
Datensatz A, nachdem er unter Einsatz des Prozessors "Datensätze verbinden" mit einem Feld aus Datensatz B angereichert wurde:
station_id | Anzahl |
station_name | station_adresse |
---|---|---|---|
1 | 10 | Eiffelturm |
69 quai Branly, 75007 Paris |
2 | 15 | Rennes - Montparnasse | 1 place du dix huit Juin 1940, 75006 Paris |
Wenn der Parameter "Eine Zeile" eingestellt ist¶
Hinweis
Die Beispieldatensätze, die im folgenden Beispiel verwendet werden, sind dieselben wie im vorherigen Beispiel.
Datensatz A enthält zwei Zeilen für die erste Station:
station_id | station_name | station_adresse |
---|---|---|
1 | Eiffelturm |
69 quai Branly, 75007 Paris |
1 | Quai Branly | 69 quai Branly, 75007 Paris |
2 | Rennes - Montparnasse | 1 place du dix huit Juin 1940, 75006 Paris |
Wenn "Eine Zeile" eingestellt ist (mit dem Trennzeichen "|"), erhält man folgendes Ergebnis:
station_id | Anzahl |
station_name | station_adresse |
---|---|---|---|
1 | 10 | Eiffelturm|Quai Branly |
69 quai Branly, 75007 Paris|69 quai Branly, 75007 Paris |
2 | 15 | Rennes - Montparnasse | 1 place du dix huit Juin 1940, 75006 Paris |
Wenn "Eine Zeile" nicht eingestellt ist, erhält man folgendes Ergebnis:
station_id | Anzahl |
station_name | station_adresse |
---|---|---|---|
1 | 10 | Eiffelturm |
69 quai Branly, 75007 Paris |
1 | 10 | Quai Branly | 69 quai Branly, 75007 Paris |
2 | 15 | Rennes - Montparnasse | 1 place du dix huit Juin 1940, 75006 Paris |
Verbindung mit verschiedenen Feldtypen¶
Ganze und Dezimalzahlen sowie Textfelder mit numerischen Werten können zusammengefügt werden.
Datensatz A: mit Dezimalfeldern und Textfeldern mit numerischen Werten.
insee_code (Text) |
bloom_competition_result (Dezimalzahl) |
---|---|
01262 | 2.0 |
90010 | 4.0 |
57355 | 2.0 |
Datensatz B: mit Ganzzahlfeldern
bloom_ranks (Ganzzahl) |
---|
2 |
Datensatz A nach der Verwendung des Prozessors "Datensätze verbinden": Die Übereinstimmung zwischen den Werten "2" und "2.0" ist trotz des unterschiedlichen Typs erfolgreich.
insee_code (Text) |
bloom_competition_result (Dezimalzahl) |
---|---|
01262 | 2 |
57355 | 2 |
Es ist möglich, einen zweiten Prozessor zur Datensatzverbindung, z. B. für diesen Datensatz C, zu verwenden:
city (Text) |
insee_code (Ganzzahl) |
postal_code (Text) |
---|---|---|
Montluel | 1262 | 01120 |
Belfort | 90010 | 90000 |
Kalhausen | 57355 | 57412 |
Datensatz A, nachdem er mit Datensatz B und Datensatz C verbunden wurde:
insee_code (Text) |
bloom_competition_result (Dezimalzahl) |
city (Text) |
postal_code (Text) |
---|---|---|---|
01262 | 2 | Montluel | 01120 |
57355 | 2 | Kalhausen | 57412 |
Trotz des unterschiedlichen Formats beim insee_code war der Abgleich erfolgreich. Der Abgleich funktionierte sogar für den Wert "1262" im ersten Datensatz (beachten Sie das Fehlen der führenden 0, da es ein Ganzzahlwert ist), der dem Wert "01262" im zweiten Datensatz zugeordnet wurde. Während die meisten Spaltentypen mit dem Prozessor "Datensätze verbinden" abgerufen werden können, geben Dateitypspalten nicht die tatsächliche Ressource über den Prozessor an, sondern stattdessen die Kennung der hinterlegten Ressource.