martes, 13 de julio de 2021

Eliminar entradas de nube de palabras en Power BI

La nube de palabras o Word Cloud, es un objeto visual muy interesante, pero en su configuración por defecto no ofrece el resultado esperado.

Esto se debe a que en la mayoría de los escritos el cualquier idioma, la mayoría de las palabras usadas son conectores que no aportan significado.

Por ejemplo, artículos, pronombres, preposiciones, etc.

Nuestra nube de palabras será mucho más interesante si este tipo de palabras no se tuviesen en cuenta.

Evidentemente una opción sería eliminarlas del archivo original, pero esto puede resultar un tanto complejo, sobre todo en ficheros de gran tamaño.

El objeto Word Cloud, incluye un campo denominado excluye, que nos permite indicar un listado de palabras a ignorar.

En este caso usaremos como fuente de las palabras a eliminar, un simple fichero txt en el que indicaremos una palabra por línea.


Guardamos el fichero en la misma carpeta que el fichero original de power BI.

Te importamos los datos del fichero txt.

De esta forma podremos modificar el fichero txt actualizándolo en power bi hay para tener nuevas palabras a ignorar.

Ahora veremos en el panel campos que existen dos orígenes de datos cada uno de ellos con un único campo.

En el caso de los ejemplos ambos campos han sido denominados con el mismo nombre.


No es necesario que el origen de las palabras a mostrar en el control de la nube de palabras tengo una única columna.

Por eso es necesario vincular el campo que contiene las palabras eliminar, con el campo que contiene las palabras a mostrar en la nube de palabras.

Para ello procederemos a la ventana relaciones.


Y arrastraremos el campo en el que se indiquen las palabras que queremos ir norar encima del campo en el que se encuentra en las palabras que queremos mostrar en la nube de palabras.


Una vez hecho esto se creará automáticamente una relación uno a varios.

Es importante resaltar que el estado de palabras es que ahora no puede contener duplicados, ya que será la parte 1 de esta relación.


Ahora solo queda indicar en el objeto visual en categoría de valores el campo en el que se encuentran las palabras a mostrar y en excluye el campo en el que se encuentra el listado de palabras a ignorar.


Ahora podremos comprobar que nuestra nube de palabras ya no aparecen las que hemos indicado en el listado.

Si quisiéramos eliminar alguna más lo único que tendríamos que hacer sería editar el fichero de texto incluir una línea adicional con cada palabra que quisiéramos eliminar.

Posteriormente solo tendríamos que actualizar el campo en el que se encuentran esos datos.


Cómo podéis ver en este extracto del Quijote la palabra más repetida en este momento es de, mientras que entre las palabras largas la más repetida es Quijote.

Para obtener el resultado deseado de premios ir añadiendo todos los monosílabos que encontremos y palabras de pequeño tamaño para dejar solo las que nos interesan.

No hay comentarios:

Publicar un comentario