Join dataset processor

Deze processor laat u toe om 2 datasets samen te voegen. Deze 2 datasets moeten wel gemeenschappelijke velden hebben die moeten worden samengevoegd.

Voorbeeld: er kunnen meer data, die in een dataset B staan, in een dataset A worden geplaatst. Wanneer datasets A en B één gemeenschappelijk veld hebben is het mogelijk om deze datasets samen te voegen om zo een veld op te halen uit dataset B en het toe te voegen aan dataset A.

Belangrijk

Standaard kan de Join Dataset-processor enkel worden gebruikt met datasets op afstand die minder dan 100.000 records hebben. Daarnaast, wanneer een Join Dataset-processor wordt toegepast op een geplande dataset, wordt de join enkel opnieuw toegepast wanneer de bron is gewijzigd. Dit betekent dat, gelet op een geplande dataset A die een Join Dataset-processor heeft die waarden haalt uit dataset B, wanneer er nieuwe waarden zijn in dataset B maar de bronnen van dataset A zijn niet gewijzigd, de geplande verwerking de nieuwe waarden uit B niet zal ophalen.

De processor instellen

Om de parameters van de Join dataset processor in te stellen, dient u de aanwijzingen in onderstaande tabel te volgen.

Label

Omschrijving

Verplicht

Dataset

Dataset die gebruikt wordt voor de toevoeging. Deze kan worden geselecteerd uit de datasets van het portaal of uit het netwerk van Opendatasoft.

ja

Local Key

Lokaal veld dat gebruikt wordt om de overeenstemmende records in de dataset op afstand te identificeren. Er kan meer dan één sleutel worden gespecificeerd.

ja

Remote Key

Veld op afstand dat overeenstemt met de plaatselijke sleutel. Dit kan een lijst zijn.

ja

Output Fields

Lijst met velden die opgehaald moeten worden uit de dataset op afstand

ja

Retrieve All Fields

Ingesteld om alle velden op te halen uit de dataset op afstand

nee

Case Sensitive

Ingesteld om de veldnaam op te halen zonder accenten en in klein letterformaat

nee

Eén lijn

In bepaalde specifieke gevallen kan de dataset op afstand meer dan één rij bevatten die overeenstemt met de plaatselijke sleutel. In dit geval kunt u ofwel duplicaten samenvoegen (m.a.w. één enkele rij aanmaken die velden met meerdere waarden bevat) of niet.

nee

Scheidingsteken

Te vullen wanneer One Line is ingesteld. Specificeert het karakter om de afzonderlijke waarden in het aangemaakte veld te gebruiken.

nee

Voorbeelden

Gewoon samenvoegen

Dataset A: lijst met taxistations in Parijs (naam van de dataset: paris_taxis_stations).

station_id station_name station_address
1

Eiffeltoren

69 quai Branly, 75007 Paris
2 Rennes - Montparnasse 1 place du dix huit Juin 1940, 75006 Paris

Dataset B: aantal wachtende taxi's per station in Parijs.

station_id

aantal

1 10
2 15

Dataset A nadat deze is verrijkt met een veld uit dataset B, met behulp van de Join dataset processor:

station_id

aantal

station_name station_address
1 10

Eiffeltoren

69 quai Branly, 75007 Paris
2 15 Rennes - Montparnasse 1 place du dix huit Juin 1940, 75006 Paris

Samenvoegen met de parameter ingesteld op "One Line"

Opmerking

De voorbeelddatasets die gebruikt worden in het volgende voorbeeld zijn dezelfde als in het vorige voorbeeld.

Dataset A bevat twee rijen voor het eerste station:

station_id station_name station_address
1

Eiffeltoren

69 quai Branly, 75007 Paris
1 Quai Branly 69 quai Branly, 75007 Paris
2 Rennes - Montparnasse 1 place du dix huit Juin 1940, 75006 Paris

Wanneer One Line is ingesteld (met | ingesteld als scheidingsteken), zal de Join resulteren in:

station_id

aantal

station_name station_address
1 10 Tour Eiffel|Quai Branly 69 quai Branly, 75007 Paris|69 quai Branly, 75007 Paris
2 15 Rennes - Montparnasse 1 place du dix huit Juin 1940, 75006 Paris

Wanneer One Line echter niet is ingesteld, zal de Join resulteren in:

station_id

aantal

station_name station_address
1 10

Eiffeltoren

69 quai Branly, 75007 Paris
1 10 Quai Branly 69 quai Branly, 75007 Paris
2 15 Rennes - Montparnasse 1 place du dix huit Juin 1940, 75006 Paris

Samenvoegen met verschillende soorten velden

Gehele getallen, decimalen en tekstvelden die numerieke waarden bevatten, kunnen worden samengevoegd.

Dataset A: met decimale velden en tekstvelden die numerieke waarden bevatten.

insee_code (tekst)

bloom_competition_result (decimaal)

01262 2.0
90010 4.0
57355 2.0

Dataset B: met velden met gehele getallen.

bloom_ranks (geheel getal)

2

Dataset A na Join dataset te hebben gebruikt: matching tussen waarden 2 en 2.0 is succesvol uitgevoerd ondanks de verschillende types.

insee_code (tekst)

bloom_competition_result (decimaal)

01262 2
57355 2

Het is mogelijk om een tweede Join dataset processor uit te voeren, zoals deze dataset C:

city (tekst)

insee_code (geheel getal)

postal_code (tekst)

Montluel 1262 01120
Belfort 90010 90000
Kalhausen 57355 57412

Dataset A nadat deze werd samengevoegd met datasets B en C:

insee_code (tekst)

bloom_competition_result (decimaal)

city (tekst)

postal_code (tekst)

01262 2 Montluel 01120
57355 2 Kalhausen 57412

Hoewel de INSEE-code niet van hetzelfde type was, gebeurde de matching toch. De matching werkte zelfs voor de waarde "1262" in de eerste dataset (merk de afwezigheid op van de 0 die vooraan staat, gelet op het feit dat het een geheel getal is), die matchte met de waarde "01262" in de tweede dataset. Hoewel de meeste kolomtypes teruggevonden kunnen worden met behulp van de Join dataset processor, leveren kolommen van het bestandstype niet de daadwerkelijke bron op via de processor maar wel de naam van de onderliggende bron.