martes, 17 de agosto de 2021

Eliminar líneas duplicadas con Notepad++

Otra de las tareas que podemos realizar con Notepad++ es la eliminación de líneas duplicadas.

Este es un proceso que puede resultar muy útil, antes de realizar un análisis de datos mediante Microsoft Excel o Power BI.


Comenzamos con un fichero de texto de ejemplo, en el que hemos escrito varias palabras (una por línea), algunas de las cuales están repetidas una o más veces.

En el menú "Editar", dentro de la opción "Operaciones con líneas", se encuentran las opciones de eliminación de duplicados.

Existen dos opciones, la primera que veremos hoy, "Eliminar líneas duplicadas" elimina las líneas duplicadas de todo el fichero, dejando solo la primera que encuentre.

Cómo vemos en el resultado solo se muestra la primera aparición de cada línea.


Podemos comprobar, que la palabra hoy, ha pasado de la línea número 4 a la número 3, debido a la eliminación de la segunda aparición de la palabra hola, que estaba originalmente en la tercera posición.

Notepad++ gestiona correctamente ficheros de texto de gran tamaño, permitiendo realizar operaciones de limpieza sobre los datos en bruto, antes de cargarlos a la herramienta de análisis.

No hay comentarios:

Publicar un comentario