mirror of
https://github.com/flowsta/uc3m-periodismo-datos.git
synced 2024-12-27 08:11:22 +01:00
210 lines
10 KiB
Markdown
210 lines
10 KiB
Markdown
|
|
# Table of Contents
|
|
|
|
1. [Contenidos](#org4d4ef91)
|
|
1. [OpenRefine](#orga95ab94)
|
|
1. [Los datos](#org9536f44)
|
|
2. [Funciones](#orgecb40e9)
|
|
3. [Instalación](#org4f756f6)
|
|
4. [Ejecutar Refine](#orgc997763)
|
|
5. [Primeros pasos](#orge8aa446)
|
|
6. [Manuales](#org166c211)
|
|
2. [Virtualización y/o alternativas a Cygwin o la terminal de OSX](#org8c4bb4c)
|
|
1. [Resolver los problemas de Cygwin](#orgeaabd7a)
|
|
2. [WSL](#org7836cdd)
|
|
3. [Git bash](#org5c7ecf4)
|
|
4. [Msys2](#org2ec39f0)
|
|
5. [Github CLI](#orgcdb7557)
|
|
6. [VirtualBox](#orgeb6b8ec)
|
|
3. [Problemas Ruby](#orga4af035)
|
|
2. [Pruebas](#org3a615ef)
|
|
|
|
- State "PDF" from <span class="timestamp-wrapper"><span class="timestamp">2021-11-11 Thu 07:19</span></span>
|
|
|
|
|
|
<a id="org4d4ef91"></a>
|
|
|
|
# Contenidos
|
|
|
|
- Hemos trabajado con algunas herramientas de recolección de datos y las seguiremos utilizando diariamente a ser posible.
|
|
- Para analizar los datos también hemos abordado algunas herramientas de línea de comandos.
|
|
- En esta ocasión vamos a trabajar con OpenRefine.
|
|
- Para ello hay que descargarse <https://openrefine.org/>
|
|
- Vamos a trabajar con datos recopilados por el proyecto [TRESCA](https://trescaproject.eu).
|
|
|
|
|
|
<a id="orga95ab94"></a>
|
|
|
|
## OpenRefine
|
|
|
|
- Nació como un proyecto de Google de software libre, Google Refine.
|
|
- Cuando Google decidió dejarlo, la comunidad de usuarixs y desarrolladorxs hicieron un "fork" del proyecto y comenzó Open Refine, que es la evolución "natural" de Google Refine.
|
|
- Por eso hay quien se refiere a el software como Google Refine, Open Refine o, directamente, Refine.
|
|
|
|
|
|
<a id="org9536f44"></a>
|
|
|
|
### Los datos
|
|
|
|
- El archivo `feliz.csv` proviene de los datos recopilados por TRESCA para explorar las tendencias de Twitter durante un periodo de la pandemia del COVID19.
|
|
- El nombre responde a que de todo ese bruto de datos recopilados se han seleccionado los mensajes que contuvieran la expresión "feliz". (aunque esto tiene truco, lo recordamos en la siguiente sesión).
|
|
- Se recopila a través de la API de Twitter.
|
|
- Conviene señalar que Twitter devuelve por "tendencias" tanto los "hashtags" más usados (es decir, aquellas expresiones que comienzan por una almohadilla `#`, como por ejemplo `#FelizNavidad`) como las expresiones que detecta que se usan más aunque no estén marcadas por lxs usuarixs como hashtag (como por ejemplo `Feliz Navidad`.
|
|
- Hay dos campos de fecha.
|
|
- Un campo del término de la tendencia y otro de la consulta de la tendencia.
|
|
|
|
|
|
<a id="orgecb40e9"></a>
|
|
|
|
### Funciones
|
|
|
|
- Sirve para limpiar y analizar datos.
|
|
- Hay que tener en cuenta que la visualización de datos también se refiere a esta etapa en la que el análisis de ciertas cantidades de datos se va a apoyar en herramientas visuales que favorecerán ese análisis.
|
|
- Se le considera la "navaja suiza" del periodismo de datos por todo lo que se puede hacer "limpiando datos".
|
|
|
|
|
|
<a id="org4f756f6"></a>
|
|
|
|
### Instalación
|
|
|
|
- Se ha procedido a la instalación contemplando los diversos escenarios: máquinas W$ con Java, sin Java, OSX o GNU/Linux.
|
|
- También se han superado las advertencias de W$ u OSX sobre instalar software "no verificado".
|
|
- Un paréntesis sobre esto. Por norma general, esos avisos son una buena costumbre y previenen de instalar cosas que no estén verificadas/gestionadas/testadas por quienes hacen el sistema operativo.
|
|
- La contraparte es que mucho software libre, que por su naturaleza es de código abierto, que cualquier persona puede investigar para ver si es o no dañino, que suele tener una comunidad de desarrolladorxs y usuarixs que lo "quieren" y que puede no pasar por los procesos de esas compañías de sistemas operativos propietarios también se ven incluidos en el mismo "saco" que los anteriores.
|
|
- Aunque no es un dogma de fe, si el software es libre sueles poder fiarte más que si no lo es, pero depende de ti o de que confíes en quien te lo ofrece o quien te lo recomienda que sigas ese consejo o no. Lo importante aquí es que cualquiera tiene, potencialmente, la capacidad para investigar si efectivamente es bueno o no.
|
|
|
|
|
|
<a id="orgc997763"></a>
|
|
|
|
### Ejecutar Refine
|
|
|
|
- En Windows y Mac hay que pinchar sobre el ejecutable mientras que en GNU/Linux tenemos que ir desde la terminal al directorio donde se encuentra el ejecutable y ejecutarlo con `./refine`.
|
|
- Se abre una pantalla negra que no hay que cerrar, es la del programa.
|
|
- En el navegador se debería abrir una pestaña nueva (o el navegador con esa página si no lo teníamos abierto) donde aparece la interfaz de Refine.
|
|
- Refine es una aplicación web **PERO** no requiere de conexión a Internet, se ejecuta localmente (esa es la pantalla negra).
|
|
- Como toda aplicación web cliente-servidor, monta un servidor en el puerto `3333`, que es donde nos conectamos para verlo.
|
|
- El nombre de nuestro ordenador es `localhost` y su dirección IP (reservada) es `127.0.0.1`.
|
|
- Recordad que se puede ver esto en el archivo `/etc/hosts`
|
|
- Podemos tener varias pestañas abiertas pero todas serán de la misma instancia.
|
|
- Podemos tener varias sesiones de Refine abiertas en puertos distintos (se ve en siguiente sesión de Refine).
|
|
|
|
|
|
<a id="orge8aa446"></a>
|
|
|
|
### Primeros pasos
|
|
|
|
Se han visto algunas acciones y se repasarán en la siguiente sesión.
|
|
|
|
1. Cargar archivos
|
|
2. Editar columnas
|
|
3. Transformaciones comunes
|
|
4. Ordenar columnas
|
|
5. Facetas (numéricas, temporales y de texto)
|
|
6. Borrar filas
|
|
7. Exportar proyecto
|
|
|
|
Se recomienda seguir probando libremente ya que no se produce una pérdida de los datos pues el csv original sigue intacto (siempre que no lo borréis).
|
|
|
|
|
|
<a id="org166c211"></a>
|
|
|
|
### Manuales
|
|
|
|
- La propia página de Open Refine.
|
|
- Manual de Open Refine: <https://flowsta.github.io/refine>
|
|
|
|
|
|
<a id="org8c4bb4c"></a>
|
|
|
|
## Virtualización y/o alternativas a Cygwin o la terminal de OSX
|
|
|
|
El orden no importa en este caso pero, en los casos de problemas con Windows, se puede optar por probar estas alternativas:
|
|
|
|
|
|
<a id="orgeaabd7a"></a>
|
|
|
|
### Resolver los problemas de Cygwin
|
|
|
|
- Encontrar problemas no es malo, podemos aprender mucho de su resolución.
|
|
- En lo que respecta a git se recomienda seguir el siguiente procedimiento:
|
|
- Quitar `git` con `apt-cyg remove git`.
|
|
- Instalar `gcc-core`, `libcurl4`, `libcurl-devel`, `openssl`. Recordad que se pueden buscar estos paquetes con `apt-cyg searchall lo-que-queramos-buscar`.
|
|
- Instalar `git` con `apt-cyg install git`
|
|
|
|
|
|
<a id="org7836cdd"></a>
|
|
|
|
### WSL
|
|
|
|
- Es una terminal de un sistema operativo GNU/Linux virtualizado por M$ para W10.
|
|
- Había que iniciar una PowerShell con permisos de administración y ejecutar `wsl -install` e instala una terminal de Ubuntu GNU/Linux.
|
|
- Si en vez de Ubuntu se quiere otra distribución, se puede especificar con `wsl -install -d NombreDistribución`, donde una puede ser "Debian"
|
|
|
|
|
|
<a id="org5c7ecf4"></a>
|
|
|
|
### Git bash
|
|
|
|
- En la página oficial de git, <https://git-scm.org>, se puede descargar una terminal para trabajar con git.
|
|
- Se trata de una terminal basada en Msys2 (ver más abajo).
|
|
- Viene con git y otros comandos preinstalados.
|
|
- Si se quiere utilizar como terminal multipropósito, se recomienda aprender de MSYS2.
|
|
|
|
|
|
<a id="org2ec39f0"></a>
|
|
|
|
### Msys2
|
|
|
|
- En la página lo explican muy bien: <https://www.msys2.org/>
|
|
- Es otro proyecto de terminal multipropósito llamada Mintty que tiene cosas de Cygwin pero es independiente.
|
|
- A efectos de uso, una diferencia fundamental es la gestión de paquetes que no se realiza con apt-cyg o el software de instalación (setup) sino con `pacman`, un modelo que nace en la distribución de GNU/Linux ArchLinux: <https://archlinux.org/pacman/>
|
|
- Para aprender un poco de cómo gestionar (buscar, instalar, actualizar, borrar) paquetes se puede ir a <https://www.msys2.org/docs/package-management/> o <https://www.lifewire.com/using-the-pacman-package-manager-4018823>
|
|
|
|
|
|
<a id="orgcdb7557"></a>
|
|
|
|
### Github CLI
|
|
|
|
- Github también provee una terminal CLI para relacionarse con Github: <https://cli.github.com/>
|
|
- Tiene algunos puntos a favor pero también otros en contra.
|
|
- A favor:
|
|
- Su aspecto está muy pulido.
|
|
- Hacen fácil y más intuitivas las acciones que se realizan.
|
|
- En contra:
|
|
- Solo sirve para Github, no podríamos usarla con otros repositorios git que no fueran de Github.
|
|
- Tiene una personalización para esa facilidad que hacen que sus acciones no sirvan en otras plataformas o programas.
|
|
|
|
|
|
<a id="orgeb6b8ec"></a>
|
|
|
|
### VirtualBox
|
|
|
|
- No tendría por qué ser la última opción a abordar pero, en el caso concreto de tener el problema con git, sí.
|
|
- Virtualbox es un programa libre de Oracle disponible para W$, OSX o GX que sirve para virtualizar sistemas operativos.
|
|
- Es decir, desde un ordenador W$ se puede instalar en ese programa otro sistema operativo, ya sea otra versión de W$, de OSX o de GX, y esto funciona como un programa.
|
|
- De esta forma se pueden probar otros sistemas operativos o alguna de sus aplicaciones sin tocar el sistema operativo de nuestro ordenador.
|
|
- Se puede descargar de <https://www.virtualbox.org/>
|
|
|
|
|
|
<a id="orga4af035"></a>
|
|
|
|
## Problemas Ruby
|
|
|
|
Habría que probar esta posible solución <https://gist.github.com/ahsankhatri/260c58929962a01bf9e26ef660c832d0>
|
|
|
|
- Seleccionar los paquetes curl, git, nano, openssh, openssl, unzip, util-linux, vim, wget
|
|
- Instalar ruby desde su página <https://rubyinstaller.org/downloads/>
|
|
- Cambiar la variable PATH para tener a Ruby en el PATH `/cygdrive/c/Ruby22/bin` (o algo parecido, hay que comprobarlo)
|
|
- Editar `~/.bash_profile` o `~/.profile` con `alias gem=gem.bat`
|
|
- Instalar lolcat con `gem install lolcat`.
|
|
- A partir de ahora, cuando instalas un paquete (gema) hay que añadir a `~/.bash_profile` esto: `alias lolcat=lolcat.bat`
|
|
|
|
|
|
<a id="org3a615ef"></a>
|
|
|
|
# Pruebas
|
|
|
|
- Describe los datos que estamos utilizando en el proyecto TRESCA. Qué tipo de archivo y qué tipo de datos.
|
|
- Explica la diferencia entre filas y columnas
|
|
- ¿Cómo harías que OpenRefine interpretara correctamente los tipos de datos?
|
|
|