domingo, 23 de febrero de 2014

Problemas más habituales en ficheros CSV (parte 1)

Los ficheros CSV no son la panacea, si bien son una herramienta muy útil a la hora de intercambiar información, también tienen sus peros.

En esta entrada vamos a tratar dos de los problemas más habituales que pueden ocurrirnos con los ficheros CSV.

Los errores más habituales se refieren a dos tipos de datos, los datos numéricos con decimales (precios por ejemplo) y las fechas.

Otro posible error, se debe a la mala elección del separador de valores.

En primer lugar, analizaremos que puede suceder si elegimos mal el separador de caracteres, dejando para posteriores entradas el análisis de los demás casos.

Supongamos que tenemos un fichero como el siguiente, en el que se incluyen datos de unos productos, entre los que se puede encontrar la descripción, el precio neto y el PVP.


En este caso el error ha sido utilizar como separador de valores un carácter usado para representar información.

Al utilizar la coma como separador, que resulta ser el mismo carácter que se utilizar para indicar los valores decimales, será imposible diferenciar los valores correctamente a la hora de importarlos, por ejemplo en una hora de cálculo.




Como se ve el resultado de la importación, es un documento en el que aparecen más columnas de las deseadas, separando la parte entera y decimal de los valores en celdas adyacentes.

La forma más sencilla de evitar este problema es utilizar un elemento que se sepa a ciencia cierta que no aparece dentro del documento, como es el símbolo de la tubería | (pipe), que se puede escribir mediante la combinación de teclas AltGr + 1.

En nuestro caso el documento quedaría de la siguiente manera.


Eliminando de esta manera toda posible ambigüedad a la hora de realizar la importación.





domingo, 16 de febrero de 2014

Introducción al formato CSV

El formato CSV, comúnmente conocido como Valores Separados por Comas (Mala traducción), tal como se puede ver en la captura de pantalla de unos de los más conocidos programas de Hoja de Cálculo.



Una traducción más adecuada de su nombre, sería la que ofrece la misma Wikipedia, pero en su versión en inglés, en la que se define CSV como character-separated values, (Valores separados por caracteres).

Esto es así porque en este formato, los datos, (columnas) se separan mediante un carácter, y las filas mediante un cambio de línea.


Usualmente en el mundo angloparlante, se utilizaba como separador la coma, y en el hispano hablante el punto y coma (por utilizar la coma como separador decimal), aunque es posible utilizar cualquier otro carácter como separador.

De ahí que también se le conozca como Valores separados por punto y coma

Este formato es un sistema basado en ficheros de texto que permite el intercambio de información tabular entre distintos programas.

Es ampliamente utilizado para importar y exportar datos entre Hojas de cálculo y Bases de Datos.

Dada su simplicidad, y el ser soportado por todo tipo de Sistemas Operativos, es, quizás, la forma más segura de transferir información.

Sin embargo presenta inconvenientes a la hora de transferir datos numéricos con decimales, entre sistemas que utilicen el sistema de numeración anglosajón y el hispano, debido al distinto uso que se realiza de los puntos y las comas.

Al ser un fichero de texto plano, es el usuario a lo hora de importar el que debe indicar en que formato están los datos, y de equivocarse puede provocar una mala importación de los mismos.

Imaginemos el siguiente fichero, ¿que problemas nos encontraremos a la hora de importar los datos?

¿Cuál podría ser la solución?


La próxima semana, más información sobre este formato tan útil, y como evitar los errores más frecuentes a la hora de utilizarlo.

Si te ha gustado, comenta, comparte y no dudes en preguntar si tienes dudas.

domingo, 9 de febrero de 2014

Eliminando espacios indeseados.

Hoy os traigo una nueva aplicación de la herramienta Reemplazar.

En este caso se trata de eliminar los espacios repetitivos que aparecen a veces en los documentos.

Suele ser habitual al trabajar con documentos obtenidos mediante un proceso de Reconocimiento óptico de caracteres (OCR, Optical character recognition).

El proceso es muy sencillo, y se puede ver en el siguiente vídeo.



El proceso detallado es el siguiente:

Paso 1 - Se abre el texto en cualquier aplicación que permita utilizar la orden Reemplazar (en el caso del ejemplo se ha usado el Bloc de Notas, o Notepad de Microsoft Windows).



Paso 2 - Se ejecuta la orden Reemplazar, normalmente desde el menú Edición, o también mediante la combinación de teclas CTRL + R.



Paso 3 - Luego se indica que se desean sustituir dos espacios (pulsando dos veces la barra espaciadora), por un espacio, (pulsando una única vez la barra espaciadora).



Paso 4 - Este proceso se repite las veces necesarias hasta que no se realice ningún cambio, lo que indica que ya no existe ningún grupo de dos espacios consecutivos.





domingo, 2 de febrero de 2014

Eliminando caracteres indeseados

Muchas veces, en nuestros documentos, ya sea porque hemos copiado los datos, o porque alguien nos los ha enviado, nos encontramos con caracteres que debemos eliminar.

Normalmente el proceso se realiza manualmente eliminando cada carácter (letra, número o símbolo) mediante el uso de la tecla SUPR.

Podemos ahorrarnos mucho trabajo usando una de las herramientas que incorporan la mayoría de las aplicaciones ofimáticas, la opción Reemplazar...

Esta es una de esas opciones de gran potencia y muy desconocida por la mayoría de los usuarios.

Esta herramienta está disponible desde al bloc de notas, a todo tipo de aplicaciones ofimáticas y técnicas, como por ejemplo en LibreOffice Writer, Microsoft Word, LibreOffice Calc, Microsoft Excel, etc.

Evidentemente esta herramienta permite reemplazar una letra o símbolo por otra.

Por ejemplo en este ejemplo, de un ISBN, mostrado con guiones, se sustituyen estos por puntos.




En primer lugar, se accede a la opción de reemplazar, normalmente se encuentra en el menú Edición.



Y luego en la ventana de opciones, se indica en el primer cuadro de texto, identificado por Buscar, el valor que existe y queremos sustituir por otro, en este caso el guión "-".

En el segundo cuadro, identificado por Reemplazar por, se indica el carácter que sustituirá al existente, en este caso el punto ".".



Y el resultado final es el deseado, en este caso un ISBN, separado por puntos.


Pero, que sucedería si en el segundo cuadro no indicásemos nada.

Pues el programa hará exactamente lo que le indicamos, sustituir el carácter indicado por NADA.

Y nada, significa exactamente eso, NADA, (no confundir con un espacio).

El resultado en este caso, al no indicar nada en la segunda casilla.



En más detalle:




El resultado final es:



Un ISBN en el que los guiones que nos estorbaban, han desaparecido.

Esta misma herramienta se puede usar para eliminar también caracteres no imprimibles, como lo cambios de línea que, a veces, resultan tan molestos, sobre todo en documentos copiados de la web.

Pero esto lo veremos en otra ocasión

NOTA:
En Microsoft Word, a partir de la versión 2007, en la que hace su aparición la Ribbon Bar (Cinta de opciones en castellano), la opción Reemplazar se puede localizar a la derecha de todo, en la cinta Inicio, dentro del grupo edición.


Siendo su funcionamiento idéntico al de versiones anteriores.