Big Data y Bibliotecas Digitales

                                                                                                                                                                                                                                                   Juan Manuel Pineda

Introducción

La incorporación de las nuevas tecnologías de la información y la comunicación  ha generado una gran explosión de la información y datos, el enorme volumen de estos se está generando en todos los ámbitos de la vida humana. Esta explosión de datos no es ajena a los ámbitos académicos y científicos, ante esto, aparece una nueva disciplina que estudia la posibilidad de  analizar los mismos  para realizar predicciones y tendencias, la cual se denomina Big Data.

Definición de Big Data

En la actualidad se  habla mucho de BIG DATA como un concepto que está de moda o como algo que se avecina en un futuro reciente, podemos decir en primera medida que  este es un término que  tiene que ver más con el análisis de datos que con el volumen de datos, una de las primeras definiciones realizadas sobre  Big Data es  del META Group (ahora Gartner) afirma que BIG DATA  “Es un activo de gran volumen, de riqueza y de variedad de información que exige formas rentables e innovadoras de procesamiento de información para una mejor comprensión y toma de decisiones» (Doug Laney, 2001),-

En cambio en la Wikipedia en español la denomina con estos vocablos,  Big Data, datos masivos o macrodatos  y es definida de la siguiente manera:

“Es un término que hace referencia al concepto relativo a conjuntos de datos tan grandes y complejos como para que hagan falta aplicaciones informáticas no tradicionales de procesamiento de datos para tratarlos adecuadamente. Por ende, los procedimientos usados para encontrar patrones repetitivos dentro de esos datos son más sofisticados y requieren software especializado.”

Esta disciplina que estudia los datos masivos está enfocado en el tratamiento de volumen de datos y en los hardware y softwares específicos que permitan procesar y manipular ese enorme volumen de información representadas en una gran  cantidad de datos existentes y crecientes día a día como disciplina se encuadraría dentro del sector que estudia las tecnologías de la información y la comunicación.

Cuantos serían estos datos masivos expresados en números

  • Gigabyte = 109= 1,000,000,000
  • Terabyte = 1012 = 1,000,000,000,000
  • Petabyte = 1015 = 1,000,000,000,000,000
  • Exabyte =   1018 = 1,000,000,000,000,000,000

Según investigaciones del IDC citado por Arévalo (2016), afirma que cada dos años los datos se duplican, existe una explosión de datos que necesitan ser organizados, analizados, estructurados, visionados y puestos a disposición de los usuarios.

Estos datos masivos se extraen de la información que arrojan las distintas fuentes del ecosistema informativo, entre ellas se encuentran las personas generadoras de gran cantidad de datos, la conexión entre las máquinas (machine to machine),  los escáneres faciales y biométricos, la enorme cantidad de datos que están en  las redes sociales e internet que son subidos por todos los usuarios que participan y alimentan de información; todos estos datos  se extraen de distintas actividades de la vida diaria sea del tipo comercial, de espionaje, salud, tendencias en economía, deporte, meteorología, agropecuario, comunicación,  social media entre otros aspectos.

Por medio de tecnologías  sofisticadas de hardware y software permiten capturar y  procesar gran cantidad y volumen de datos que posibilita la toma de decisiones más acertadas, a través de análisis de tendencias o estudiar predicciones, de este modo, se puede centrarse en forma  más específica en los usuarios para satisfacer sus necesidades, además de que las empresas u organizaciones con estos datos analizados pueden utilizarlos para mejorar su competitividad y rentabilidad.

También las tecnologías integradas con otras aplicaciones y software de alta generación arroja datos, o sea objetos inanimados, no solo las personas entre ellos podemos, estos datos pueden entrecruzarse y permitir extraer y analizar  información  como es el caso de los sensores digitales de tráfico, climáticos, agropecuarios, entre otros, se calculan que en el mundo hay millones de este tipo de sensores digitales que receptan gran cantidad de datos dispuestos a ser analizados y evaluados. O sea se puede extraer información de cosas inmateriales lo que se denomina internet de las cosas.

Es importante reconocer que los que tienen injerencias en políticas de información puedan decidir de cómo se pueden y deben  explotar esos datos tantos en organismos e instituciones sean de modalidad pública o privada, que permita mejorar los procesos y como la cuantiosa cantidad de información que se produce a través de la web semántica, redes sociales, investigaciones, comercio electrónico, internet de las cosas, puedan a través de software complejos analizar esos datos. Según Alonso Arévalo  y Vázquez (2016) afirman que Big Data es una tendencia del futuro:

Casi todos los analistas consideran Big Data como una de las tendencias de futuro que deberán tener en cuenta la mayoría de las empresas e instituciones. La sociedad de las tecnologías de la información y la comunicación (TIC) propicia y requiere un diluvio universal de datos, procesarlos, entenderlos y transformarlos en decisiones de valor es el reto del análisis Big Data.

 En nuestro país son escasas las aplicaciones de Big Data en universidades, centros de investigación o bibliotecas, para dar un ejemplo en un país de habla hispana que es  España de acuerdo a la Investigación que se efectuó hace casi 3 años realizada por medio de una encuesta a personal de distintas bibliotecas de universidades españolas pertenecientes a la red de bibliotecas universitarias (REBIUM), arrojó resultados pocos alentadores en la aplicación de proyectos de Big Data o de repositorio de datos, solo en algunos casos concretos y aislados tuvo algunas aplicaciones concretas,  teniendo a las bibliotecas  universitarias solo una participación del tipo más testimonial

Open data, Linked Open data.

 Open data, Linked open data  : la Open Data es poner a disposición de todos los datos sean digitales o impresos. Según el manual de la Open Knowledge Foundation (2012) citado por Ferrer-Sapena, Sánchez-Pérez, (2013), open data son los datos que pueden ser utilizados libremente, reutilizados y redistribuidos por cualquier persona, permitiendo la creación de obras derivadas que reconozcan la misma. Esta apertura de datos mejora la transparencia en las organizaciones y garantiza el rigor de las investigaciones académicas.

Linked Open Data son los datos entrecruzados y vinculados por medios de la Web Semántica. De acuerdo la Guía del World Wide Web Consortium, es “la forma que tiene la Web Semántica de vincular los distintos datos que están distribuidos en la Web, de forma que se referencian de la misma forma que lo hacen los enlaces de las páginas web”.

Open Linked Data

Cualidades de BIG DATA la denominada Triple “V”

 

Velocidad: en la cual se procesan y analizan los datos, se realizará a través de hardware especiales que permita realizar este trabajo en forma ágil y rápida para tener información para la toma de decisiones.

Variedad: tipo y naturaleza de los datos, para ayudar a las personas a analizar los datos y utilizar los datos en forma eficaz y eficiente. Estos se pueden presentar en diferentes modalidades, redes sociales, audios, vídeos, tarjetas de crédito, bases de datos, datos de turismo, historias clínicas, textos, etc.

Volumen: cantidad de datos generados y guardados en gigabytes, peta bytes y posteriormente exabytes, es cada vez mayor la cantidad de datos que producen los humanos y las máquinas.

Las dos variables que se agregan se le pueden adicionar 

Veracidad tiene que ver con la calidad de los  datos capturados estos puede variar.

 Valor: los datos deben ser útiles, y que tengan cierto valor.

Tecnología

 

Datos estructurados: son los datos que tienen definidos su longitud, por ejemplo fechas, nombres, cadenas de caracteres, un ejemplo de ello son las bases de datos relacionales y se almacenan comúnmente en formato de tablas.

Datos no estructurados carecen de estructura y se recolectan tal como fueron creados, podemos encontrar PDF, imágenes, audios correos electrónicos, documentos multimedia.

Datos Semiestructurados: son datos que tienen marcadores para separar elementos  pero que no están estructurados, poseen metadatos semi-estructurados que los describe y son utilizados por convención, entre estos archivos podemos encontrar XLS, HTML, XML, JSON.

BIG Data

Big Data y profesionales que la abordan.

Actualmente hay una variedad y diversidad de perfiles que trabajan en el mundo de la Big Data, estos deberían tener un conocimiento de estadísticas y de Ingeniería de software, están los que se denominan científicos de datos que tiene un perfil mixto con competencias tanto en el análisis estadístico, como en ingeniería de software, pero también se debe tener otros conocimientos competencias y habilidades que sirva para efectuar estos análisis de datos,  existen otras disciplinas para hacer frente a los distintos abordajes que esta nueva disciplina requiere entre estos perfiles podemos mencionar:

  • Ingenieros en Sistemas,
  • los data minning,
  • Periodista de datos
  • Documentalistas
  • Lingüistas
  • Científicos de datos
  • Especialistas en Visualización de la información

 

Big Data  en bibliotecas digitales

 La biblioteca como centro de información y documentación es un lugar donde se pueden extraer y explotar datos que arroja por su naturaleza la misma actividad y servicios de la biblioteca, como unidad de información es una institución que trabaja con datos e información, normalmente esta disciplina va más allá de los datos extraídos para las clásicas estadísticas bibliotecaria,  se puede hacer uso de la Big Data para mejorar sus servicios en favor del usuario. Esos datos están esperando a ser explotados para mejorar los servicios y productos, la usabilidad,  y el marketing.

Se están dando en que en algunas de las mejores y avanzadas universidades y centros de investigación del mundo se están creando repositorios de datos, gestionados y administrados por bibliotecarios, este nuevo perfil del profesional de la información se denominan “databrarians” o “cientistas de datos”; estos profesionales tienen  el rol de garantizar el acceso a datos de investigación a científicos para que puedan desarrollar más investigaciones o ampliar las que se están realizando, siendo además garante de la gestión de datos que ofrece, Research Data Management Services (RDMS).

Algunas experiencias concretas de bibliotecas del mundo con Big Data

 

Las bibliotecas pueden tener su catálogo e integrarlo a otros, a través de metabuscadores, un caso importante de mencionar está en España es el Punto único de consulta (PUC) donde las bibliotecas se integran en un gran catálogo colectivo, este cosecha registros con metadatos de más de 250 bibliotecas de Ministerios, del CSIC entre otras redes de bibliotecas de Universidades, museos  y otras  unidades de información que integran este megacatálogo colectivo. Utiliza una tecnología eXtensible Catalog que es la base tecnológica para desarrollar el proyecto del Punto de Consulta Único. XC es un conjunto de herramientas de fuentes abiertas que incluye la mayoría de las funcionalidades requeridas por un catálogo colectivo.

Otras experiencias interesantes intenta trascender con los conceptos de bibliotecas físicas y digital, donde los usuarios utilizan interactúan con los datos que poseen las  bibliotecas en forma real o es a través de experiencias físicas y  a veces pueden interactuar en forma lúdica.

Podemos mencionar experiencias en esta línea como las de las bibliotecas públicas de Aarhus, en Dinamarca, y su Transformation Lab, iniciativas como las del Library Lab de la Universidad de Harvard, o los recursos del Library Lab de la British Library.

Otras experiencias se da a través de sensores digitales de radio frecuencia donde en forma lúdica pueden vivir experiencias interactuando de forma física, un  ejemplo es el internet de las cosas.

 

Conclusiones

La bibliotecas, como unidades propias de información  es una mina de oro a la hora de extraer estos datos masivos  generados a diario por las distintas actividades, por los mismos usuarios y por los fondos y colecciones documentales en formato físico o  digital; además de  los resultados de investigación sumado a  la información que los usuarios vuelcan en  redes sociales,  por medio de una curaduría de contenidos podremos agrupar los datos, clasificarlos y extraer información útil para nuestra comunidad usuarios.

 Por ejemplo realizando Clúster, estudiaremos las tendencias y gustos literarios, de los usuarios y usuarios virtuales, otra opción puede ser a través de aplicaciones del tipo mashup o integradas, se puede extraer datos valiosos para ser analizados y sacarle partido a la biblioteca como gran productora de datos y los bibliotecarios como analistas de información o “databrarians” como se lo denominan en la actualidad.

Así también los datos que se pueden gestionar en los repositorios de datos realizados por los “cientistas de datos”,  puede ser muy útil para los científicos y académicos en sus investigaciones ofreciendo estos datos analizados para que los investigadores y académicos q puedan realizar sus investigaciones o comenzar con nuevas o descartar las que no son posibles.

 

Bibliografía

Alonso Arévalo, J. ; Vazquez Vazquez, M. (Junio, 2016)   Big Data: la próxima «gran cosa» en la gestión de la información.  BiD: textos universitaris de biblioteconomia i documentació,  (36). Recuperado de  http://bid.ub.edu/es/36/alonso.htm

El Big Data es la nueva fiebre del oro en la Era de la Información (16 de diciembre del 2014). [Entrada de Blog]. Recuperado de https://www.comunidadbaratz.com/blog/el-big-data-es-la-nueva-fiebre-del-oro-en-la-era-de-la-informacion/

Bermès E. Big.  Data y Bibliotecas (2016). (Inmaculada Morales Lucas Trad.). Paris (2015). Recuperado  de  https://diarium.usal.es/experimentrado/pasarelas/en-espanol/figoblog/big-data-y-bibliotecas/

Cuál es la relación entre el Big Data y la estadística (18 de octubre del 2018). [Entrada de Blog]. Recuperado https://noticias.universia.com.ar/educacion/noticia/2018/10/18/1162126/cual-relacion-big-data-estadistica.html

Equihua, S. (12 de septiembre de 2013). Hablemos de Big data. Recuperado de https://www.biblogtecarios.es/saulequihua/hablemos-sobre-big-data/

Serrano-Cobos J.(2018). Artículo B405. Big Data. En C. Rovira; M. C. Marcos; L. Codina (dir.). Máster en Información Digital. Barcelona: UPF Barcelona School of Management. Recuperado de  https://www.bsm.upf.edu/es/master-universitario-en-informacion-digital

Universo Abierto. Blog de traducción y documentación de la Universidad de Salamanca (2019). El valor de la biblioteca en la era de los big data: El vital toque humano. [Entrada  de Blog]. Recuperado de https://universoabierto.org/2019/06/06/valor-de-la-bibliotecologia-en-la-era-de-grandes-datos-el-vital-toque-humano/