Técnicas – Observatorio

El flujo de trabajo del observatorio comienza con la automatización del rastreo de información en portales de noticias mediante técnicas de «scraping» implementadas en el lenguaje de programación PHP. En términos sencillos, un programa PHP, que reside en un servidor web, se ejecuta automáticamente cada dos horas. Este programa recopila noticias y las guarda en una base de datos MySQL, también alojada en un servidor web.

En la página web del Observatorio, hay otro conjunto de programas (scripts) que se activan cuando un usuario accede al sitio. Cada vez que alguien visita la página, un script PHP integrado se conecta a la base de datos de noticias y las procesa en tiempo real. Una vez procesadas, los datos se presentan visualmente a través de gráficos dinámicos creados con la biblioteca amCharts 5, desarrollada en el lenguaje de programación JavaScript.

La clasificación de las noticias se lleva a cabo utilizando PHP, SQL y JavaScript. Se utilizan diccionarios de palabras que están asociadas con diversos temas para identificar noticias relacionadas con la participación de mujeres y diversidades en el ámbito gremial argentino. Además, se «tokeniza» el contenido de las noticias, es decir, se divide en unidades más pequeñas, y se utilizan diccionarios de palabras vacías para limpiar el texto antes de construir nubes de palabras y tablas de n-gramas.

Glosario:

Web Scraping: técnica utilizada para extraer información de sitios web de manera automatizada. En este contexto, se refiere a la recolección automatizada de noticias desde portales web.
PHP (Hypertext Preprocessor): lenguaje de programación del lado del servidor ampliamente utilizado para el desarrollo web. En este caso, se emplea para la automatización de tareas y el manejo de datos en el servidor.
JavaScript: lenguaje de programación del lado de lxs usuarixs que se ejecuta en el navegador web. Se utiliza para realizar acciones dinámicas en las páginas web, como la visualización de datos en tiempo real y la interacción de lxs usuarixs.
SQL (Structured Query Language): lenguaje de programación diseñado para gestionar y manipular bases de datos. Se utiliza en este contexto para interactuar con la base de datos MySQL y realizar operaciones como la recuperación y procesamiento de datos.
MySQL: sistema de gestión de bases de datos relacional, utilizado para almacenar y organizar la información recopilada mediante web scraping.
Scritp: secuencia de instrucciones o código de programación que realiza una tarea específica. En este caso, se refiere a los programas escritos en PHP y JavaScript que automatizan procesos y manipulan datos.
Tokenizar: proceso de dividir un texto en unidades más pequeñas, llamadas tokens. En este contexto, se aplica a la descomposición del contenido de las noticias para su posterior procesamiento.
Nubes de Palabras: representación visual de las palabras más frecuentes en un conjunto de texto. Se utilizan para resaltar temas clave presentes en las noticias.
N-gramas: conjunto de n palabras consecutivas en un texto. En este contexto, se utilizan para analizar patrones y secuencias de palabras en las noticias recopiladas.