Si vous avez déjà dû envoyer par courriel, télécharger ou téléverser plusieurs gros fichiers ou programmes, vous avez très probablement rencontré des fichiers ZIP. Également connus sous le nom de fichiers compressés ou archivés, les fichiers ZIP condensent plusieurs fichiers en un seul emplacement avec l’extension .zip ou .ZIP, ce qui réduit la taille globale et facilite leur transmission.
Phillip Katz a inventé le fichier ZIP en 1986, et il a d’abord été mis en œuvre avec le programme PKZip pour la société de Katz, PKWare, Inc. Par la suite, la méthode de compression de Katz est devenue d’usage courant dans les systèmes d’exploitation populaires. Microsoft Windows et Mac OS d’Apple comprennent des utilitaires intégrés pour compresser et décompresser les fichiers, et des programmes comme WinRAR, WinZip et StuffIt peuvent les développer.
Mais comment tout cela fonctionne-t-il ? Quelle sorte de magie technologique est en jeu pour rendre vos fichiers plus petits tout en conservant toutes les informations pour plus tard ?
Cette “magie” est en fait un algorithme assez simple qui prend les aspects redondants d’un fichier et le décompose en parties plus petites.
Pour un exemple facile à comprendre, prenons la phrase “Mashable peut aider à rendre les lecteurs plus intelligents ; les lecteurs peuvent aider à rendre Mashable plus intelligent” et faisons comme si c’était un fichier.
Chaque mot de la phrase d’exemple apparaît deux fois. Si chaque caractère et espace de cette phrase constituait une unité de mémoire, l’ensemble aurait une taille de fichier de 78 unités. Si nous créions un code numéroté – ou “dictionnaire” – pour cette phrase, cela pourrait donner quelque chose comme ceci :
1. Mashable
2. can
3. help
4. make
5. readers
6. smarter
Cette nouvelle phrase ne comporte que 24 unités. Par conséquent, le fichier compressé n’aurait que 24 unités de mémoire en plus d’un autre fichier qui énumère notre code numéroté, afin que le programme de compression sache comment appliquer chaque unité d’information. C’est ce qu’on appelle la “compression sans perte” ; toute l’information originale est conservée.
La façon dont un programme de compression réel fonctionne est un peu plus compliquée que l’exemple précédent – il reconnaîtrait des modèles. Un exemple est la lettre “e” et un espace après “Mashable” et “make”. Mais comme il n’y a pas beaucoup d’occurrences de ce modèle particulier, le programme le remplacera très probablement par un modèle plus apparent. Le programme réel est capable de trouver un dictionnaire et un fichier compressé beaucoup plus efficaces que nous.
Selon le site Web éducatif et instructif HowStuffWorks, il est courant que les langues aient des motifs redondants, ce qui explique pourquoi les fichiers texte sont facilement compressés. Mais le taux de réduction du fichier dépend de plusieurs facteurs, dont le type et la taille du fichier et la façon dont le programme choisit de le compresser.
En revanche, les images et les fichiers MP3 contiennent plus d’informations uniques sans beaucoup de motifs. C’est là qu’intervient la “compression avec perte” – les programmes de compression se débarrassent de ce qu’ils jugent être des informations inutiles. Si vous avez une image numérisée, par exemple, avec un ciel bleu, un programme de compression pourrait choisir une couleur de bleu utilisée pour chaque pixel. Si le schéma de compression fonctionne bien, le changement ne serait pas très perceptible, mais la taille du fichier serait nettement plus petite.
Le problème de la compression avec perte, cependant, est que vous ne pouvez pas obtenir le fichier original à partir du fichier compressé, ce qui la rend moins idéale que la compression sans perte lorsque vous devez conserver toutes les informations originales, comme lorsque vous téléchargez des bases de données et certaines applications.
L’image composite de Mashable est une courtoisie de , tose, Auris.