Recolector de FTP con CSV de metadatos

Este recolector permite a los usuarios crear conjuntos de datos a partir de una carpeta FTP.

Se conecta a través de FTPS (modo explícito en el puerto 21) si está disponible, o FTP si así se solicita en la dirección de URL.

La carpeta FTP debe contener:

  • un archivo CSV de metadatos (separado por puntos y coma)

  • varios recursos

  • (opcional) varios archivos de esquema CSV

Diseño de carpeta FTP

El archivo CSV de metadatos (denominado index.csv de forma predeterminada) es un archivo separado por puntos y coma que contiene:

  • una fila de encabezado

  • varias filas adicionales, una por conjunto de datos por recolectar

Ejemplo:

1
2
3
name;title;description;theme;keyword;source_dataset;schema_file
chocolate-bars;Chocolate bars database;"A database of chocolate bars";Health;Chocolate;chocolate.csv;schema_chocolate.csv
random-id;Venture Capital Investments;Venture capital industry statistics.;Economy, Business;"Venture capital;Investments;IPO;Acquisitions";investments.json;

nombre

Título

Descripción

Tema

Palabras claves

source_dataset schema_file
chocolate-bars

Base de datos de barritas de chocolate

Una base de datos de barritas de chocolate

Health Chocolate chocolate.csv schema_chocolate.csv
random-id

Inversiones de capital riesgo

Estadísticas del sector del capital riesgo.

Economía, negocios

Capital riesgo;Inversiones;OPI;Adquisiciones

investments.json  
  • La columna name contiene un identificador para cada fila. Estos identificadores pueden ser cualquier cadena de caracteres siempre que esta contenga únicamente letras y números, sea exclusiva en el archivo y no cambie con el tiempo.

  • La columna de recursos CSV (source_dataset de forma predeterminada) contiene el recurso de cada fila.

  • La columna de esquema CSV opcional (aquí, schema_file) contiene el archivo de esquema para cada fila.

  • Las demás columnas son metadatos (consulte en la tabla siguiente la lista completa de los nombres de columna aceptados). Nota: Utilice comillas dobles al principio y al final de listas como las de keywords, donde tiene que usar puntos y coma para separar las palabras (p. ej. "keyword1;keyword2").

Columnas de metadatos aceptadas

Plantilla

Nombre de columna

Estándar

title, description, theme, keyword, license, language, timezone, modified, geographic_area_mode, geographic_area, publisher, references, attributions, oauth_scope

Personalizado

custom.<metadata_name>

DCAT (si se ha activado)

dcat.created, dcat.issued, dcat.creator, dcat.contributor, dcat.contact_name, dcat.contact_email, dcat.accrualperiodicity, dcat.spatial, dcat.temporal, dcat.granularity, dcat.dataquality

DCAT-AP para CH (si se ha activado)

dcat_ap_ch.domain, dcat_ap_ch.rights

Inspire (si se ha activado)

inspire.theme, inspire.type, inspire.file_identifier, inspire.hierarchy_level, inspire.hierarchy_level_name, inspire.spatial_resolution, inspire.topologic_consistency, inspire.contact_individual_name, inspire.contact_position, inspire.contact_address, inspire.contact_email, inspire.identification_purpose, inspire.extend_description, inspire.extend_bounding_box_westbound_longitude, inspire.extend_bounding_box_eastbound_longitude, inspire.extend_bounding_box_southbound_latitude, inspire.extend_bounding_box_northbound_latitude

Semantic (si se ha activado)

semantic.rml_mapping, semantic.classes, semantic.properties

Recursos

Los recursos pueden ser:

  • archivos del servidor FTP, en la misma carpeta que el archivo index.csv o en un subdirectorio si se específica la ruta relativa al archivo en la columna (p. ej., "resources/chocolate.csv")

  • cualquier URL que apunte a un formato permitido

Si la columna está vacía, el conjunto de datos solo contendrá metadatos.

Pueden recolectarse recursos en cualquier formato que la plataforma permita. Sin embargo, puesto que el recolector depende en gran medida de la detección de parámetros automáticos para la configuración del conector, los archivos deben ser lo suficientemente simples para extraerse correctamente.

Archivo CSV de esquema

Para cada recurso, la carpeta FTP puede contener un archivo de esquema CSV que defina las etiquetas y las descripciones para cada campo de la base de datos.

El nombre del archivo de esquema debe escribirse en la columna de esquema CSV. Este archivo tiene las especificaciones siguientes:

  • Una columna name contiene todos los nombres de campo en minúsculas (p. ej. en un recurso CSV serían los nombres de columna en minúsculas).

  • Una columna label (opcional) contiene la etiqueta del campo correspondiente.

  • Una columna description (opcional) contiene la descripción del campo.

1
2
3
name;label;description
company;Company;The company that makes the bar
ref;Reference;The product id of the chocolate bar

nombre

etiqueta

Descripción

company

Empresa

La empresa que fabrica la barrita

ref

Referencia

El ID de producto de la barrita de chocolate

Los archivos de esquema no tienen que contener una fila para cada campo y no es necesario proporcionar un archivo de esquema para cada conjunto de datos en "index.csv". En este último caso, mantenga vacía la celda correspondiente.

Parámetros

Nombre

Descripción

Ejemplo

Host (host)

Dirección URL del servidor FTP.

eu.ftp.opendatasoft.com, ftps://eu.ftp.opendatasoft.com, ftp://eu.ftp.opendatasoft.com

Usuario (user)

Su nombre de usuario.

 

Contraseña (password)

Su contraseña

 

Subdirectorio (subdir)

El directorio que contiene los datos que desea recolectar.

pub/documents

Nombre de archivo CSV de metadatos (metadata_file)

El archivo que contiene los metadatos y nombres de archivo (consulte las especificaciones precisas indicadas anteriormente).

index.csv

Columna CSV de recursos de metadatos (resource_location_column)

Esta columna contiene un nombre de archivo o una dirección URL con el recurso de conjunto de datos.

source_dataset

Columna CSV de esquema de metadatos (resource_schema_column)

Esta columna contiene un nombre de archivo con el esquema de recurso (etiquetas de columna y descripciones).