Découper un fichier CSV volumineux - Script Python et alternatives

Problématique : ouvrir un fichier CSV trop volumineux

Ouvrir un fichier CSV de grande taille peut être difficile pour diverses raisons :

Les limitations propres au tableur que vous utilisez (Excel, LibreOffice Calc...)
La mémoire RAM limitée de votre station de travail
Le temps de chargement prohibitif des gros fichiers

Toujours prêt à sortir mon Python pour répondre à vos demandes, je vous ai proposé il y a 7 ans un petit script qui ouvre le fichier fichier.csv (par défaut, mais c'est modifiable), rédigé en Latin-1 (par défaut, mais c'est modifiable), le coupe en fichiers CSV de 100 000 lignes (par défaut, mais c'est modifiable) appelés export_1.csv, export_2.csv... (par défaut, mais c'est modifiable).

Version originale 2019

Code Python traduit en HTML:

# -*- coding: utf-8 -*-#csv_decoupe est une application python 3.6.4 par wouf 09/07/2019#qui découpe un csv#constantesfichier="fichier.csv"export="export"nblignes=100000lang="Latin-1"compteur=0first_export=export+"_1.csv"g=open(first_export,'a',encoding=lang)page=1with open(fichier,encoding=lang) as f :   for line in f :        compteur+=1        if compteur==nblignes:            g.close()            print('|',end="" )            page+=1            compteur=0            lexport=export+"_" +str(page)+".csv"            g=open(lexport,'a',encoding=lang)        g.write(line)try:    g.close()except:    pass

En 2019, ce court script faisait parfaitement le job :

Résultat du script Python de découpe CSV

Mise à jour 2026 : 7 ans plus tard Nouveau

Sept ans après la création de ce script, mes connaissances Python ont évolué. Le code de 2019 faisait parfaitement le job, mais aujourd'hui je l'écrirais différemment :

pathlib plutôt que manipulation de chaînes pour les fichiers
Context managers mieux utilisés pour éviter le try/except final
Variables plus explicites (first_export → gestion plus claire)
Affichage amélioré avec flush=True pour le retour visuel

Voyons concrètement ce qui change.

Version 2026

Le même algorithme, écrit avec les pratiques actuelles :

Code Python traduit en HTML:

# -*- coding: utf-8 -*-# csv_decoupe - Version 2026 par wouf# Découpe un fichier CSV en plusieurs morceauxfrom pathlib import Path# Configurationfichier = Path("fichier.csv")export_base = "export"nb_lignes = 100000encoding = "latin-1"# Traitementpage = 1compteur = 0with fichier.open(encoding=encoding) as lecture:    sortie = Path(f"{export_base}_{page}.csv").open('w', encoding=encoding)        for ligne in lecture:        sortie.write(ligne)        compteur += 1                if compteur == nb_lignes:            sortie.close()            print('|', end='', flush=True)            page += 1            compteur = 0            sortie = Path(f"{export_base}_{page}.csv").open('w', encoding=encoding)        sortie.close()print(f"\n✓ {page} fichiers créés")

Import de pathlib : la gestion moderne des fichiers

L'utilisation de from pathlib import Path remplace la manipulation de chaînes de caractères pour les chemins de fichiers. Path est un objet qui connaît les spécificités du système d'exploitation (Windows, Linux, Mac) et offre des méthodes claires comme .open(), .exists(), ou .stem. C'est devenu la méthode recommandée depuis Python 3.4 et aujourd'hui, en 2026, son usage est totalement généralisé.

Suppression de la variable first_export

Dans l'ancien code, first_export était créé séparément avant la boucle, puis les fichiers suivants utilisaient une autre logique. Cette duplication crée une asymétrie inutile. En initialisant directement page = 1 et en utilisant la même logique pour tous les fichiers, le code devient plus cohérent et plus facile à maintenir.

Le paramètre flush=True pour l'affichage temps réel

Par défaut, Python met en buffer les affichages console pour des raisons de performance. Avec print('|', end='', flush=True), on force l'affichage immédiat de chaque pipe, offrant un retour visuel instantané de la progression. Sans ce paramètre, tous les pipes pourraient s'afficher d'un coup à la fin.

Disparition du try/except final

Le try/except était nécessaire en 2019 pour gérer le cas où le fichier g était déjà fermé. Avec la nouvelle structure où sortie.close() est appelé de manière déterministe après la boucle, ce bloc devient superflu. Le code est plus clair car il ne masque plus d'erreurs potentielles.

Message de confirmation final

L'ajout de print(f"\n✓ {page} fichiers créés") donne une information claire à l'utilisateur sur le nombre de fichiers générés. C'est un retour d'information utile qui n'existait pas dans la version originale où seuls les pipes indiquaient la progression.

Et si on n'utilisait pas Python ?

En 2026, la solution la plus rapide et la plus élégante pour découper un fichier CSV est... de ne pas coder du tout !

La commande split (Linux/Mac)

Sous Linux et Mac, l'utilitaire split est préinstallé et fait exactement ce travail en une seule ligne de commande :

split -l 100000 --additional-suffix=.csv fichier.csv export_

Décortiquons cette commande :

split : l'outil de découpe de fichiers
-l 100000 : découpe tous les 100 000 lignes (l pour "lines")
--additional-suffix=.csv : ajoute l'extension .csv aux fichiers créés
fichier.csv : le fichier source à découper
export_ : le préfixe des fichiers générés

Résultat : des fichiers nommés export_aa.csv, export_ab.csv, export_ac.csv... créés en quelques secondes, même pour des fichiers de plusieurs gigaoctets.

Performances impressionnantes

Là où notre script Python traite environ 50 000 lignes par seconde, split peut atteindre plusieurs millions de lignes par seconde. Sur un fichier de 10 millions de lignes (environ 2 Go) :

🐍 Python

3-4 minutes

⚡ split

10-15 secondes

Cette différence s'explique par le fait que split est un utilitaire système écrit en C, optimisé depuis des décennies, alors que Python ajoute une couche d'interprétation.

Et sous Windows ?

Windows ne dispose pas nativement de split, mais vous pouvez l'utiliser via :

WSL (Windows Subsystem for Linux) : un vrai environnement Linux dans Windows 10/11
Git Bash : inclut les utilitaires Unix de base, dont split
Cygwin : émulation complète d'un environnement Unix

Une fois WSL ou Git Bash installé, la commande fonctionne exactement de la même manière.

Limitations de split

Malgré sa puissance, split a quelques limites :

Pas de gestion intelligente des en-têtes CSV : seul le premier fichier contiendra l'en-tête, les autres morceaux commenceront directement par les données
Nommage en lettres : aa, ab, ac... moins lisible que _1, _2, _3...
Pas de personnalisation : impossible d'ajouter une logique métier (filtrage, transformation...)

Quand utiliser split plutôt que Python ?

Privilégiez split si :

Vous voulez juste découper rapidement sans traitement particulier
Le fichier est très volumineux (plusieurs Go)
Vous n'avez pas besoin de préserver l'en-tête dans chaque morceau
Vous travaillez sous Linux/Mac (ou WSL sous Windows)

Gardez Python si :

Vous voulez comprendre ce qui se passe (pédagogie)
Vous devez personnaliser la logique (filtrage, transformation...)
Vous voulez dupliquer l'en-tête dans chaque fichier
Vous devez garantir la portabilité Windows pure

Dans mon cas, j'ai créé ce script Python en 2019 pour répondre à une demande spécifique d'une collègue qui travaillait sous Windows. Aujourd'hui, avec WSL facilement accessible, je lui conseillerais probablement split pour un usage ponctuel, mais je conserve le script Python comme outil pédagogique pour montrer la manipulation de fichiers en Python.

📦 Autres ressources : Python apprendre par l'exemple

🛠️ Exemples sur site2wouf.fr

PGCD de n nombres avec Pkinter
Dénombrement de Triangles
Afficher du code python en html.
Représentation visuelle d'un pseudo code.
Ouvrir un fichier CSV de grande taille peut-être difficile : Application Python → Vous êtes ici
Application pour jouer à Juniper Green contre l'ordinateur.
Application Patatoide : un utilitaire d'aide à la prise de paris hippiques.
Aide aux parisApplication

💻 Tester

Tester votre code !

📖 Blog

📥 Téléchargements

Code source sur GitHub

// Remarques, codes, notes de version...

Mon travail est sous licence Creative Commons.

N'hésitez pas à me contacter si vous détectez la moindre imperfection, ou si vous imaginez une amélioration potentielle !

Open source et gratuité n'empêchent ni les dons ni les remerciements 😉
Un euro ou deux pour m'aider à payer le serveur ? ☕ Payez-moi un café via PayPal

Découper un fichier CSV volumineux : script Python et alternatives