Foreign Data Wrapper

ou un réseau social pour vos données

sous PostgreSQL

Appuyez sur [s] pour ouvrir les notes présentateur dans une nouvelle fenêtre.

Qui suis-je ?

Florian FERRIERE

@FerriereFlorian

Développeur chez Norsys

PostgreSQL

Historique

1974 : Création d'Ingres

1985 : Refonte de zéro d'Ingres pour créer postgres

1995 : Ajout des fonctionnalités SQL => Postgres 95

1996 : Renommage en PostgreSQL

2016 : Version 9.6

Bref historique :

PostgreSQL est une base de données dont les origines commencent en 1974 avec la création d'Ingres par Michael Stonebraker.
En 1985, il entamme une refonte à partir de zéro d'Ingres, intitulé postgres, qui est le diminutif de "post-Ingres".
Un tournant important arrive en 1995 avec l'ajout des fonctionnalités liés au SQL. Le projet fut alors renommé "Postgres 95"
1 an plus tard, il devient alors "PostgreSQL".
Beaucoup de travaux plus tard ont pu donner la version 9.6 dernière version stable à ce jour.

Fonctionnalités générales

SGBDRO
Accessible : JDBC, pgsql, ...
SQL :
- Triggers
- Common Table Expressions
- Procedural Language (PL/pgSQL, PL/JAVA, PL/PHP, ...)
- Vues et Vues matérialisées
- ...
JSON
PostGIS
...
Foreign Data Wrapper

Fonctionnalités générales :

Server de Gestion de Base de Données Relationnel Objet
Accessible avec plein de language de programation : - JDBC pour JAVA - lib pgsql pour PHP
SQL : - PL : PL/pgSQL, PL/Tcl, PL/Perl et PL/Python de base - Extension pour PL : PL/JAVA, PL/PHP, PL/Py, PL/R, PL/Ruby
PostgreSQL permet de stocker et de manipuler du JSON.
PostGIS : gestion des objets Spatiaux et Géographique. Utilisé par OpenStreetMap.
...
Foreign Data Wrapper

Foreign Data Wrapper

Qu'est-ce que c'est ?

Norme SQL/MED (Management of External Data)

Créée en 2003

Création de wrapper :

Nativement en C
En python avec "Multicorn"
En ruby avec "Holycorn"

Le Foreign Data Wrapper est une implémentation de la norme SQL/MED (Management of External Data), créée en 2003. Comme son nom l'indique, cette norme permet la gestion des données externes, depuis un autre SGBD ou des sources diverses.
Il est possible de créer son propre wrapper en C en utilisant les fonctions prévues à cet effet.
Des extensions comme "Multicorn" en python ou "Holycorn" en ruby apporte un lot de wrapper et permet de créer des wrappers plus facilement. Grace à ça, il existe, à ce jour, un nombre important de wrapper.

Quelques Wrappers

PostgreSQL

SGBD SQL courants : MySQL, Oracle, SQL Server, SQLite, ...

Connecteurs SQL génériques : ODBC, JDBC

NoSQL : MongoDB, Cassandra, Redis, ...

CSV, XML, LDAP

Git, Logs, WWW, IMAP

Processus, Twitter, Docker, RabbitMQ, ...

Voici une liste non exhaustive :

Forcément nous avons la possibilité de connecté un serveur PostgreSQL avec un autre.
Mais également avec d'autres SGBD.
Soit avec les connecteurs natifs
Soit avec des connecteurs génériques
Il est aussi possible de dialoguer avec des serveurs NoSQL.
Il y a aussi des connecteurs vers des fichiers CSV, XML ou un serveur LDAP
Ou encore des systèmes plus atypiques comme Git, les logs systèmes, des services web ou des mails via le protocol IMAP
Et pourquoi pas la liste des processus du système, votre timeline twitter
Et même une connexion avec le serveur docker pour lister les containeurs ou les images
Très récemment un wrapper pour RabbitMQ, c'est du coup très prometteur pour mettre en place de l'event-sourcing.
Et tant d'autre

Évolution (1/2)

07/2009 : v8.4 => Démarrage de l'implémentation du SQL/MED

09/2011 : v9.1 => Arrivée des "Foreign Tables"

09/2013 : v9.3
Ajout de l'écriture sur les Foreign Tables

10/2014 : v9.4
Ajout des triggers sur les Foreign Tables

Évolution (2/2)

01/2016 : v9.5
IMPORT FOREIGN SCHEMA
INSERT ... ON CONFLICT DO NOTHING/UPDATE

09/2016 : v9.6
JOIN et SORT directement sur le serveur distant
De même pour les UPDATE et les DELETE
Exécution d'opérateurs et de fonction sur le serveur distant
Possibilité d'annuler une requête distante

De puis Janvier de cette année il est possible d'importé un schema distant plutôt que de créer les différentes tables distantes. La version 9.5 apporte aussi la commande INSERT ... ON CONFLICT DO NOTHING ou UPDATE. Cette commande permet d'éviter les erreurs en cas d'insertion d'une ligne créant un doublon sur un champ unique. Il est possible de ne rien faire ou d'éxécuter une commande UPDATE. La commande est aussi disponible sur les tables distantes mais uniquement avec le NOTHING.
La dernière version est sortie en septembre 2016, elle apporte (NewIn96) :
- une amélioration pour faire le JOIN et le SORT directement sur le serveur distant
- l'amélioration de la gestion des UPDATE et les DELETE à distance (lien)
- possibilité d'éxécuter, côté serveur distant, des opérateurs et fonctions (lien)
- la possibilité d'annuler une requête distante

Cas d'utilisation

Client/Server

Comment ça marche ?

Déclaration de l'extension


    CREATE EXTENSION postgres_fdw;

Déclaration du serveur distant


    CREATE SERVER nom_remote
    FOREIGN DATA WRAPPER postgres_fdw
    OPTIONS (
        host 'remote.url.lan',
        dbname 'ma_db'
    );

Mapping utilisateur


    CREATE USER MAPPING FOR mon_local_user
        SERVER mon_remote
        OPTIONS (
            user 'mon_remote_user',
            password 'mon_remote_passwd'
        );

Création d'une table distante


    CREATE FOREIGN TABLE table_locale_mais_distante (
        id INTEGER,
        col1 VARCHAR(32),
        col2 BOOLEAN
    )
    SERVER mon_remote
    OPTIONS (
        table_name 'le_nom_de_ma_table',
        updatable 'false'
    );

Utilisation


    SELECT id, col1
    FROM table_locale_mais_distante
    WHERE col2 IS TRUE
    ORDER BY col1;

Encore plus facile


    IMPORT FOREIGN SCHEMA schema_distant
    FROM SERVER mon_remote
    INTO mon_schema_local;

Exemple

Projet Github

Tables sur server


    server=# \d
                    Liste des relations
     Schéma |       Nom       |   Type   | Propriétaire
    --------+-----------------+----------+--------------
     public | country         | table    | user
     public | country_id_seq  | séquence | user
     public | customer        | table    | user
     public | customer_id_seq | séquence | user
    (4 lignes)

Table sur le server


    server=# \d country
                  Table « public.country »
     Colonne |         Type          | Modificateurs
    ---------+-----------------------+---------------
     id      | integer               | non NULL
     alpha2  | character(2)          | non NULL
     alpha3  | character(3)          | non NULL
     label   | character varying(64) | non NULL
    Index :
        "country_pkey" PRIMARY KEY, btree (id)

Table sur le server


    server=# SELECT count(id) FROM country;
     count
    -------
       241
    (1 ligne)

    server=# SELECT id, alpha2, alpha3, label
            FROM public.country
            WHERE alpha2 = 'FR';
     id | alpha2 | alpha3 | label
    ----+--------+--------+--------
     75 | FR     | FRA    | France
    (1 ligne)

Tables sur le client


    client=# \d
                    Liste des relations
    Schéma |    Nom     |       Type       | Propriétaire
    --------+------------+------------------+--------------
    public | f_country  | table distante   | user
    public | f_customer | table distante   | user
    public | m_customer | vue matérialisée | user
    public | t_customer | vue matérialisée | user
    public | u_country  | table distante   | user
    (5 lignes)

Table sur le client


    client=# \d f_country
                  Table distante « public.f_country »
     Colonne |         Type          | Modificateurs | Options FDW
    ---------+-----------------------+---------------+-------------
     id      | integer               |               |
     alpha2  | character(2)          |               |
     alpha3  | character(3)          |               |
     label   | character varying(64) |               |
    Server: server
    FDW Options: (
        schema_name 'public',
        table_name 'country',
        updatable 'false')

Table sur le client


    client=# SELECT count(id) FROM f_country;
     count
    -------
       241
    (1 ligne)

    client=# SELECT id, alpha2, alpha3, label
            FROM public.f_country
            WHERE alpha2 = 'FR';
     id | alpha2 | alpha3 | label
    ----+--------+--------+--------
     75 | FR     | FRA    | France
    (1 ligne)

Vue matérialisée

Mélange entre une vue et une table


    CREATE MATERIALIZED VIEW m_customer AS
    SELECT id, lastname, firstname,
            date_part('year', age(birthdate)) as age
    FROM f_customer
    WITH NO DATA;
    CREATE INDEX m_customer_keys
        ON m_customer (id);


    REFRESH MATERIALIZED VIEW m_customer;

Nous avons, ici, la requête de création de vue matérialisées. Une vue matérialisées est entre une table et une vue. La construction ce fait, comme une vue, à partir d'une requête. Par contre les données sont stockées. Ce qui fait que l'on peut ajouter des index. Le fait d'avoir une construction par requête permet de spécialiser les informations pour notre besoin.
L'option 'WITH NO DATA' est facultative, elle permet de créer une vue sans charger les données.
Le rafraichissement des données d'une vue matérialisée se fait, simplement, avec la commande 'REFRESH MATERIALIZED VIEW'.


    server=# SELECT id, lastname, firstname, birthdate
            FROM customer LIMIT 2;
     id | lastname | firstname |  birthdate
    ----+----------+-----------+------------
      1 | Potter   | Harry     | 1980-08-31
      2 | Weasley  | Ron       | 1980-03-01
    (2 lignes)

    client=# SELECT id, lastname, firstname, age
            FROM m_customer LIMIT 2;
     id | lastname | firstname | age
    ----+----------+-----------+-----
      1 | Potter   | Harry     |  36
      2 | Weasley  | Ron       |  36
    (2 lignes)

Cas pratique

Besoin

Application Web

IBM AS400/DB2

Driver PHP

JDBC

jdbc2_fdw

Je vais maintenant vous parler du cas pratique que j'ai pu mettre en place. Voici une étude du besoin.
Le besoin était d'avoir une application web, permettant à nos clients d'accéder à leurs informations.
Les données sont stockées sur un IBM/AS400 qui intègre un base DB2. Premier problème le driver PHP-DB2 n'est pas facilement accessible, en tout cas sous Linux. OS de notre hébergement. J'ai réussi, tant bien que mal à le compiler, mais une fois fais j'avais une erreur de license. Bienvenue dans le monde merveilleux d'IBM.
J'avais pu remarquer qu'avec un outils de DB SQL générique développé en Java (DBeaver), j'avais un connecteur JDBC pour DB2. Après configuration j'ai pu facilement accéder aux données sur le serveur.
C'est là que j'ai découvert les FDW et le jdbc2_fdw. Après quelques essais plutôt concluant je me suis lancé.

Explication

Nous avons donc les données qui sont stockées sur l'AS400.
Nous avons aussi le serveur "proxy", va lui se connecter, via jdbc2_fdw, à l'AS400. Ce serveur ne sert que de passe-plat entre l'AS400 et le serveur pour le Web. Il permet de faire quelques conversions de données : les dates n'étaient pas stockées dans un format de date sur l'AS400 ou les booléens étaient stockées comme des entiers, ...
Enfin nous avons la base de données pour l'appli Web. Cette base de données va stocker des données qui lui sont propres. Elle va aussi se connecter au serveur PostgreSQL nommé "proxy".

Rafraichissement du proxy


    CREATE FOREIGN TABLE f_ma_table (...) SERVER server OPTIONS (...);

    CREATE MATERIALIZED VIEW m_ma_table AS
    SELECT ... FROM f_ma_table;

    CREATE FUNCTION refresh_view(name) RETURNS INTEGER AS $$
    BEGIN
    EXECUTE format('REFRESH MATERIALIZED VIEW %s', name);
    RETURN 1;
    END;
    $$ LANGUAGE 'plpgsql';

    CREATE VIEW refresh_ma_table AS SELECT refresh_view('m_ma_table');

Nous avons besoin que nos données restent à jour. Nous avons vu que mettre à jour une vue matérialisée est très simple. Il suffit d'appeler la commande REFRESH MATERIALIZED VIEW.
Comme nous avions quelques conversions entre l'AS400 et le "proxy", et pour éviter de garder la connexion avec l'AS400 trop longtemps, les données sont enregistrées dans des vues matérialisés. Cela nous permet aussi d'avoir des index personnalisés et d'améliorer les performances.
J'ai mis en place l'appel du "refresh" au travers d'une fonction, appelée dans une vue. Cette vue pouvait être concidérée comme une table distante sur l'instance web. Avec cette technique, il est possible de gérer le rafraichissement des données, depuis l'instance web.

Problème 1

Comment rafraichir mes données sans bloquer mon application ?

Solution 1

Deux vues matérialisées

La première sur la table distante

La seconde sur la première vue mat

Solution 1

Solution 1


    CREATE MATERIALIZED VIEW t_customer AS
    SELECT * FROM m_customer
    WITH NO DATA;
    CREATE INDEX t_customer_keys
        ON t_customer (id);

Problème 2

Comment rafraichir régulièrement des données très volumineuses ?

Solution 2

Découpage en 2 vues :

Une première qui contient toutes les données

Une seconde qui contient qu'un fragment des données

Une 3ème vue qui JOIN le tout

Solution 2

Git FDW

Déclaration du serveur


    CREATE EXTENSION multicorn;

    CREATE SERVER git_server
        FOREIGN DATA WRAPPER multicorn
        OPTIONS (
            wrapper 'multicorn.gitfdw.GitFdw'
        );

Nous allons voir rapidement comment utiliser le FDW pour git. Il y a deux extensions pour GIT une en C et un composant compris dans multicorn.
J'aurai préféré utiliser l'extension en C mais la compilation n'a pas fonctionnée.
Je me suis donc rabattu sur l'extension multicorn. Sont installation est décrite dans le README que j'ai utilisé pour tester.
Une fois l'installation faite, la configuration est très simple. Comme on l'a déjà vu tout à l'heure : on crée l'extension. Puis le serveur.

Déclaration de la table


    CREATE FOREIGN TABLE git_atoum (
        author_name VARCHAR(128),
        author_email VARCHAR(128),
        message TEXT,
        hash VARCHAR(128),
        date TIMESTAMP
    )
    SERVER git_server
    OPTIONS (
        path '/opt/atoum'
    );

SELECT


    SELECT to_char(date, 'YYYY-TQ') AS quarter,
            COUNT(*) as nb_commit
    FROM git_atoum
    GROUP BY to_char(date, 'YYYY-TQ')
    ORDER BY quarter ASC;

Résultat

 quarter | nb_commit
---------+-----------
 2010-T2 |        25
 2010-T3 |        64
 2010-T4 |       108
 2011-T1 |       144
 2011-T2 |       199
 2011-T3 |       230
 2011-T4 |       174
 2012-T1 |        89
 2012-T2 |       137
 2012-T3 |       150
 2012-T4 |       184
 2013-T1 |       215
 2013-T2 |       234
 2013-T3 |       119
 2013-T4 |       217

 quarter | nb_commit
---------+-----------
 2014-T1 |       108
 2014-T2 |        29
 2014-T3 |        26
 2014-T4 |       110
 2015-T1 |        58
 2015-T2 |        46
 2015-T3 |        65
 2015-T4 |        75
 2016-T1 |        85
 2016-T2 |        27
 2016-T3 |        43
 2016-T4 |         7
 (27 rows)

Time: 63.959 ms

Graph (requête)


    SELECT to_json(t)
    FROM (
        SELECT  array_agg(data.quarter) AS labels,
                array_agg(data.nb_commit) AS data
        FROM (
            SELECT to_char(date, 'YYYY-TQ') AS quarter,
                    COUNT(*) as nb_commit
            FROM git_atoum
            GROUP BY to_char(date, 'YYYY-TQ')
            ORDER BY quarter ASC
        ) AS data
    ) AS t;

Graph (resultat)

Documentation

Page des Foreign Data Wrappers

Documentation

Postgresql : la nouvelle base orientée document par Yan Bonnel (Vidéos)

Projet Github

Foreign Data Wrapper

ou un réseau social pour vos données

sous PostgreSQL

Qui suis-je ?

PostgreSQL

Historique

Fonctionnalités générales

Foreign Data Wrapper

Qu'est-ce que c'est ?

Quelques Wrappers

Évolution (1/2)

Évolution (2/2)

Cas d'utilisation

Client/Server

Comment ça marche ?

Déclaration de l'extension

Déclaration du serveur distant

Mapping utilisateur

Création d'une table distante

Utilisation

Encore plus facile

Exemple

Tables sur server

Table sur le server

Table sur le server

Tables sur le client

Table sur le client

Table sur le client

Vue matérialisée

Cas pratique

Besoin

Explication

Rafraichissement du proxy

Problème 1

Solution 1

Solution 1

Solution 1

Problème 2

Solution 2

Solution 2

Git FDW

Déclaration du serveur

Déclaration de la table

SELECT

Résultat

Graph (requête)

Graph (resultat)

Documentation

Merci

Des questions ?