openfisca
diff --git a/‎CHANGELOG.md‎
Lines changed: 16 additions & 0 deletions b/‎CHANGELOG.md‎
Lines changed: 16 additions & 0 deletions
diff --git a/‎docs/RFC-002-METADATA-AND-CONFIG.md‎
Lines changed: 20 additions & 2 deletions b/‎docs/RFC-002-METADATA-AND-CONFIG.md‎
Lines changed: 20 additions & 2 deletions
diff --git a/‎docs/ZARR-BACKEND.md‎
Lines changed: 126 additions & 0 deletions b/‎docs/ZARR-BACKEND.md‎
Lines changed: 126 additions & 0 deletions
diff --git a/‎openfisca_survey_manager/configuration/config_loader.py‎
Lines changed: 1 addition & 0 deletions b/‎openfisca_survey_manager/configuration/config_loader.py‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎openfisca_survey_manager/core/dataset.py‎
Lines changed: 9 additions & 0 deletions b/‎openfisca_survey_manager/core/dataset.py‎
Lines changed: 9 additions & 0 deletions
diff --git a/‎openfisca_survey_manager/core/survey.py‎
Lines changed: 31 additions & 3 deletions b/‎openfisca_survey_manager/core/survey.py‎
Lines changed: 31 additions & 3 deletions
@@ -1,5 +1,21 @@
 # Changelog
 
+# 1.1.0
+
+* **Store backends** (choix du format de stockage des tables)
+  - **io/backends**: Backends HDF5, Parquet et Zarr (abstraction `StoreBackend`) ; `get_backend(name)`, `get_available_backend_names()`, `register_backend()` pour étendre.
+  - **Zarr** : backend optionnel (`pip install openfisca-survey-manager[zarr]`) ; une table = un groupe zarr dans un répertoire `.zarr` par survey.
+  - **Survey** : attribut `zarr_file_path` ; `fill_store(store_format="zarr")` et lecture via `get_values` pour zarr.
+  - **Table** : écriture/lecture et `_is_stored` délégués aux backends ; `_get_store_path_and_format()` unifie les chemins.
+  - **build-collection** : option `--zarr` en plus de `--parquet` ; défaut HDF5 avec avertissement.
+  - **Docs** : `docs/ZARR-BACKEND.md` (utilisation Zarr, compression, parallélisation).
+
+* **Manifest (RFC-002) : store_format**
+  - **manifest.yaml** : clé optionnelle `store_format` (hdf5, parquet, zarr) au niveau dataset ; par défaut `parquet` au chargement.
+  - **SurveyCollection.load** : depuis un manifest, applique `store_format` et déduit les chemins de store (`hdf5_file_path`, `parquet_file_path`, `zarr_file_path`) à partir de `default_output_dir`.
+  - **Script de migration** : infère `store_format` depuis le JSON legacy (`parquet_file_path` / `zarr_file_path` / `hdf5_file_path`) et l’écrit dans le manifest généré.
+  - **RFC-002** : exemple de manifest avec `store_format` ; section 3.5 et 4.2 mises à jour.
+
 # 1.0.0
 
 * **Breaking**: Version 1.0 — retrait des ré-exports et des DeprecationWarning
 
@@ -115,6 +115,9 @@ collections_dir/
 name: erfs
 label: "Enquête Revenus Fiscaux et Sociaux"
 
+# Backend de stockage des tables (hdf5, parquet, zarr) ; par défaut parquet
+store_format: parquet
+
 # Par survey : sources brutes (remplace raw_data.ini + informations)
 surveys:
   erfs_2019:
@@ -147,7 +150,22 @@ On **ne** résout plus le répertoire en fonction de la présence de `taxipp` ou
 - soit définir `OPENFISCA_SURVEY_CONFIG_DIR` vers leur répertoire,
 - soit passer le chemin de config à chaque appel.
 
-### 3.5 API cible (alignement RFC-001)
+### 3.5 Backends de stockage (store)
+
+Le stockage des tables d’enquête peut s’effectuer via différents **backends** (choix au build / `fill_store`) :
+
+| Backend  | Format              | Usage                                      |
+|----------|---------------------|--------------------------------------------|
+| **hdf5** | Un fichier .h5      | Historique (déprécié à terme)              |
+| **parquet** | Répertoire, un .parquet par table | Recommandé (interop, colonnes) |
+| **zarr** | Répertoire .zarr, un groupe par table | Optionnel (dépendance `[zarr]`)     |
+
+- **API** : `io.backends.get_backend(name)`, `get_available_backend_names()`, `register_backend(name, backend)` pour étendre.
+- **CLI** : `build-collection --parquet` ou `build-collection --zarr` ; par défaut HDF5 (avec avertissement).
+- **Survey** : `store_format`, `hdf5_file_path` / `parquet_file_path` / `zarr_file_path` selon le backend.
+- **Zarr (compression, parallélisation)** : voir [docs/ZARR-BACKEND.md](ZARR-BACKEND.md).
+
+### 3.6 API cible (alignement RFC-001)
 
 - Charger un dataset par nom : `DataManager.load("erfs", config_dir=...)` → lit `collections_dir/erfs/manifest.yaml` et les données associées.
 - Accès aux métadonnées : `dataset.metadata` (provenant du manifest), `dataset.schema` (si on l’expose), chemins dérivés déterministes à partir de `collections_dir` + `name` + `output_subdir`.
@@ -173,7 +191,7 @@ Un script permet de migrer l’existant vers la nouvelle structure :
   ```bash
   python -m openfisca_survey_manager.scripts.migrate_config_to_rfc002 [--config-dir PATH] [--dry-run] [-v]
   ```
-- **Comportement** : lit `config.ini` ([collections] + [data]) et, si présent, `raw_data.ini` ; pour chaque collection, charge le JSON, déduit `source.format` et `source.path` à partir de `informations` (csv_files, sas_files, etc.) ou de la section correspondante de raw_data.ini ; crée `config.yaml` et `collections_dir/<name>/manifest.yaml` pour chaque collection. Avec `--dry-run`, n’écrit aucun fichier.
+- **Comportement** : lit `config.ini` ([collections] + [data]) et, si présent, `raw_data.ini` ; pour chaque collection, charge le JSON, déduit `source.format` et `source.path` à partir de `informations` (csv_files, sas_files, etc.) ou de la section correspondante de raw_data.ini ; **infère `store_format`** (parquet, hdf5 ou zarr) à partir des champs `parquet_file_path` / `zarr_file_path` / `hdf5_file_path` des surveys du JSON legacy, et l’écrit dans le manifest ; crée `config.yaml` et `collections_dir/<name>/manifest.yaml` pour chaque collection. Avec `--dry-run`, n’écrit aucun fichier.
 - **Répertoire de config par défaut** : celui retourné par `get_config_dir()` (env `OPENFISCA_SURVEY_CONFIG_DIR` ou XDG). On peut imposer un répertoire avec `--config-dir`.
 
 ### 4.3 Dépréciation
 
@@ -0,0 +1,126 @@
+# Utiliser Zarr avec OpenFisca Survey Manager
+
+Ce document explique **si et comment** utiliser le backend Zarr pour stocker les enquêtes, et ce qu’il en est de la **compression** et de la **parallélisation** en lecture/écriture.
+
+---
+
+## 1. Utiliser Zarr avec OpenFisca
+
+### Oui, c’est possible
+
+Le backend **zarr** est disponible dans `openfisca-survey-manager` à condition d’installer la dépendance optionnelle :
+
+```bash
+pip install openfisca-survey-manager[zarr]
+# ou
+pip install openfisca-survey-manager zarr numcodecs
+```
+
+(pandas 2.x utilise `to_zarr` / `read_zarr` ; le package **zarr** est requis.)
+
+### En ligne de commande (build-collection)
+
+Pour construire une collection en stockant les tables au format Zarr :
+
+```bash
+build-collection -c ma_collection --zarr
+```
+
+Sans `--zarr`, le format par défaut reste HDF5 (avec avertissement) ou vous pouvez utiliser `--parquet`.
+
+### En Python (fill_store)
+
+```python
+from openfisca_survey_manager.core.dataset import SurveyCollection
+
+col = SurveyCollection.load(collection="ma_collection", config_files_directory="...")
+col.fill_store(
+    source_format="sas",   # ou csv, parquet, etc.
+    store_format="zarr",
+)
+```
+
+Après cela, chaque survey a un répertoire `{output}/{survey.name}.zarr`, et chaque table est un **groupe zarr** (sous-répertoire) dans ce store. La lecture se fait comme d’habitude avec `survey.get_values(table=..., variables=...)` ; le code utilise automatiquement le backend zarr si `store_format == "zarr"`.
+
+### Vérifier que Zarr est disponible
+
+```python
+from openfisca_survey_manager.io.backends import get_available_backend_names, get_backend
+
+print(get_available_backend_names())  # doit contenir "zarr" si le package est installé
+backend = get_backend("zarr")         # lève ValueError si zarr absent
+```
+
+---
+
+## 2. Compression
+
+### Comportement actuel
+
+Dans l’implémentation actuelle, l’écriture Zarr passe par `pandas.DataFrame.to_zarr(path, mode="w")` **sans options de compression explicites**. Zarr/pandas peuvent donc utiliser un comportement par défaut (par ex. compression légère ou aucune selon les versions).
+
+### Ce que Zarr permet en général
+
+Zarr gère la compression **par blocs (chunks)** via **numcodecs**. On peut utiliser par exemple :
+
+- **Blosc** (LZ4, Zstd, Zlib) : bon compromis vitesse / ratio, très utilisé
+- **Zstd** : bon ratio, décompression rapide
+- **LZ4** : très rapide, ratio moindre
+- **Gzip** : standard, plus lent
+
+Ces options se configurent au moment de la **création** du tableau zarr (compressor, chunks). Avec **pandas** :
+
+- `df.to_zarr(path, ...)` peut accepter des arguments supplémentaires passés au store zarr sous-jacent (selon la version de pandas).
+- Pour un contrôle fin (compression, chunking), on peut créer soi‑même un store zarr avec le bon `compressor` puis y écrire les colonnes, ou étendre le backend (voir ci‑dessous).
+
+### Évolution possible dans le survey-manager
+
+On peut faire évoluer le backend Zarr pour accepter des options (compression, chunks) soit :
+
+- via des **kwargs** dans `fill_store(..., store_format="zarr", **zarr_options)` transmis à `to_zarr`,  
+- soit via la **config** (manifest ou config.yaml) pour définir un compressor par défaut pour le format zarr.
+
+Aujourd’hui, si vous avez besoin d’une compression précise, vous pouvez :
+
+1. **Enregistrer un backend personnalisé** (`register_backend`) qui appelle `to_zarr` avec le `compressor` (et éventuellement les chunks) de votre choix.
+2. Ou **post‑traiter** les répertoires `.zarr` générés (ré‑écriture avec d’autres options zarr) en dehors du survey-manager.
+
+---
+
+## 3. Parallélisation lecture / écriture
+
+### Zarr en général
+
+- **Parallélisme par blocs** : Zarr est conçu pour que des **chunks différents** puissent être lus ou écrits en parallèle sans verrou global (chaque chunk est indépendant).
+- **En Python** : le **GIL** limite le gain avec des threads pour la partie compression/décompression ; le parallélisme efficace passe souvent par **multi‑processus** ou des runtimes qui libèrent le GIL (Cython, C extensions utilisées par numcodecs/blosc).
+- **Goulot d’étranglement** : en pratique, la **compression/décompression** peut saturer le CPU (~1 GB/s) alors que le disque ou le réseau peuvent aller plus vite ; des évolutions (batch encode/decode, GPU) sont en cours dans l’écosystème zarr.
+
+### Dans le survey-manager aujourd’hui
+
+- **Écriture** : `fill_store(store_format="zarr")` appelle `to_zarr` pour chaque table, de façon **séquentielle** (une table après l’autre, pas de parallélisation interne exposée).
+- **Lecture** : `get_values()` utilise `read_zarr` pour une table donnée, également de façon **séquentielle** par appel.
+
+Donc **par défaut** : pas de parallélisation multi‑tables ni multi‑chunks exposée dans l’API actuelle.
+
+### Comment paralléliser quand même
+
+1. **Plusieurs tables / plusieurs surveys**  
+   Vous pouvez paralléliser vous‑même au niveau applicatif : lancer plusieurs processus ou threads qui appellent `fill_store` (ou `get_values`) sur des collections/surveys/tables différents ; chaque processus écrira/lira ses propres fichiers ou groupes zarr sans conflit.
+
+2. **Dask**  
+   Pour des tableaux zarr, **Dask** (dask.array, ou chargement des zarr en Dask) gère le chargement parallèle par chunks. Cela ne passe pas directement par l’API Survey/SurveyCollection actuelle : il faudrait soit exporter les chemins `.zarr` puis les ouvrir avec Dask, soit ajouter une couche d’intégration (p.ex. une fonction qui retourne un Dask DataFrame à partir d’un survey zarr).
+
+3. **Évolution du backend**  
+   On pourrait ajouter plus tard un mode « écriture parallèle par table » (threads/processes) ou une option de lecture qui retourne un objet Dask pour exploiter le parallélisme par chunks côté zarr.
+
+---
+
+## 4. Résumé pratique
+
+| Question | Réponse |
+|----------|--------|
+| **Utiliser Zarr avec OpenFisca ?** | Oui : `pip install openfisca-survey-manager[zarr]`, puis `build-collection --zarr` ou `fill_store(store_format="zarr")`. |
+| **Compression ?** | Par défaut : comportement zarr/pandas (souvent léger). Pour plus de contrôle : backend personnalisé avec `to_zarr(..., compressor=...)` ou post‑traitement des stores zarr. |
+| **Parallélisation lecture/écriture ?** | Pas exposée dans l’API actuelle (une table à la fois). Parallélisme possible : vous-même sur plusieurs tables/surveys, ou en utilisant Dask sur les chemins zarr générés. |
+
+Si vous voulez, on peut détailler une proposition d’API pour passer des options de compression (et éventuellement de chunking) au backend Zarr dans `fill_store` ou dans la config.
@@ -91,6 +91,7 @@ def manifest_survey_to_json(survey_name: str, entry: dict[str, Any]) -> dict[str
         "label": entry.get("label", survey_name),
         "hdf5_file_path": None,
         "parquet_file_path": None,
+        "zarr_file_path": None,
         "tables": entry.get("tables"),
         "informations": informations,
     }
@@ -151,11 +151,20 @@ def load(
                 self.config = None
                 self.output_directory = str(new_cfg["default_output_dir"])
                 self.surveys = []
+                store_format = manifest.get("store_format", "parquet")
+                output_dir = Path(self.output_directory)
                 for survey_name, entry in manifest.get("surveys", {}).items():
                     survey_json = manifest_survey_to_json(survey_name, entry)
                     survey = Survey(name=survey_name)
                     survey = survey.create_from_json(survey_json)
                     survey.survey_collection = self
+                    survey.store_format = store_format
+                    if store_format == "hdf5":
+                        survey.hdf5_file_path = str(output_dir / (survey.name + ".h5"))
+                    elif store_format == "parquet":
+                        survey.parquet_file_path = str(output_dir / survey.name)
+                    elif store_format == "zarr":
+                        survey.zarr_file_path = str(output_dir / (survey.name + ".zarr"))
                     self.surveys.append(survey)
                 return self
 
 
@@ -15,6 +15,7 @@
 
 from openfisca_survey_manager.core.table import Table
 from openfisca_survey_manager.exceptions import SurveyIOError, SurveyManagerError
+from openfisca_survey_manager.io.backends import get_backend
 from openfisca_survey_manager.io.hdf import hdf5_safe_key
 from openfisca_survey_manager.processing.harmonization import harmonize_data_frame_columns
 
@@ -46,6 +47,7 @@ class Survey:
 
     hdf5_file_path: Optional[str] = None
     parquet_file_path: Optional[str] = None
+    zarr_file_path: Optional[str] = None
     label: Optional[str] = None
     name: Optional[str] = None
     survey_collection: Optional[SurveyCollection] = None
@@ -89,12 +91,16 @@ def __repr__(self) -> str:
 
     @classmethod
     def create_from_json(cls, survey_json: dict) -> Survey:
+        # Top-level store paths; exclude from informations to avoid duplicate kwargs
+        store_path_keys = {"hdf5_file_path", "parquet_file_path", "zarr_file_path"}
+        infos = {k: v for k, v in survey_json.get("informations", {}).items() if k not in store_path_keys}
         self = cls(
             name=survey_json.get("name"),
             label=survey_json.get("label"),
             hdf5_file_path=survey_json.get("hdf5_file_path"),
             parquet_file_path=survey_json.get("parquet_file_path"),
-            **survey_json.get("informations", {}),
+            zarr_file_path=survey_json.get("zarr_file_path"),
+            **infos,
         )
         self.tables = survey_json.get("tables")
         return self
@@ -137,6 +143,9 @@ def fill_store(
         if store_format == "parquet" and survey.parquet_file_path is None:
             survey.parquet_file_path = str(Path(directory_path) / survey.name)
 
+        if store_format == "zarr" and survey.zarr_file_path is None:
+            survey.zarr_file_path = str(Path(directory_path) / (survey.name + ".zarr"))
+
         self.store_format = store_format
 
         if source_format is not None:
@@ -276,6 +285,23 @@ def _get_values_from_parquet(
             return pq.ParquetDataset(parquet_file).read(columns=variables).to_pandas()
         raise SurveyIOError(f"No table {table} found in {self.parquet_file_path}")
 
+    def _get_values_from_zarr(
+        self,
+        table: str,
+        variables: Optional[List[str]] = None,
+        **kwargs: Any,
+    ) -> pandas.DataFrame:
+        """Read table from zarr store."""
+        if self.zarr_file_path is None:
+            raise SurveyIOError("No zarr store path for survey")
+        backend = get_backend("zarr")
+        return backend.read_table(
+            self.zarr_file_path,
+            table,
+            variables=variables,
+            **kwargs,
+        )
+
     def get_values(
         self,
         variables: Optional[List[str]] = None,
@@ -287,9 +313,11 @@ def get_values(
         batch_index: int = 0,
         filter_by: Optional[List[tuple]] = None,
     ) -> pandas.DataFrame:
-        if self.parquet_file_path is None and self.hdf5_file_path is None:
+        if self.parquet_file_path is None and self.hdf5_file_path is None and self.zarr_file_path is None:
             raise SurveyIOError(f"No data file found for survey {self.name}")
-        if self.hdf5_file_path is not None:
+        if self.store_format == "zarr" and self.zarr_file_path is not None:
+            df = self._get_values_from_zarr(table or "", variables=variables)
+        elif self.hdf5_file_path is not None:
             df, _ = self._get_values_from_hdf5(table or "", ignorecase=ignorecase)
         else:
             df = self._get_values_from_parquet(table, variables, filter_by, batch_size, batch_index)
Original file line number	Diff line number	Diff line change
`@@ -91,6 +91,7 @@ def manifest_survey_to_json(survey_name: str, entry: dict[str, Any]) -> dict[str`
`91`	`91`	`"label": entry.get("label", survey_name),`
`92`	`92`	`"hdf5_file_path": None,`
`93`	`93`	`"parquet_file_path": None,`
	`94`	`+ "zarr_file_path": None,`
`94`	`95`	`"tables": entry.get("tables"),`
`95`	`96`	`"informations": informations,`
`96`	`97`	`}`