lunes, 9 de agosto de 2021

Reducir tamaño en Microsoft Excel según datos guardados

Voy a explicar la relación entre los datos almacenados en una columna de Microsoft Excel y el tamaño del fichero generado.

Usaremos como ejemplo dos ficheros de Microsoft Excel en formato XLSX.

En ambos cubriremos de datos toda la columna A.

En el primero, escribiremos el número 1 en todas las celdas.

En el segundo escribiremos en cada celda el número correspondiente a su fila.


Microsoft Excel usa un motor de análisis en memoria para gestionar los datos. 

Para ello implementa técnicas de compresión para reducir lo datos a almacenar.

La razón de compresión depende, sobre todo, del número de valores únicos en cada columna, ya que se utiliza un sistema de diccionarios que almacena cada valor y los índices correspondientes.

De forma que cuanta mayor variedad de datos, mayor será el tamaño necesario para almacenarlos, y por tanto mas memoria será necesaria para procesarlos.

En la captura podéis comprobar la diferencia de tamaño de ambos ficheros.

Habíamos visto en otra publicación que cambiando el formato a XLSB podíamos ahorrar tamaño.

Eso es correcto, pero en este caso la diferencia en porcentaje de tamaño aún es mayor entre ambos ficheros.

En el caso del formato XLSX es necesario un 54% más de tamaño para almacenar datos distintos que para un único dato repetido.


Mientras que en el formato XLS este incremento alcanza el 90%.


Con esta introducción, podemos comenzar a entender cómo Microsoft Excel, y más adelante Power BI, almacena los datos, y de esta forma optimizar nuestras hijas de cálculo y paneles de análisis.

No hay comentarios:

Publicar un comentario