datos y metadatos

playing with

2020-11-10

datos, metadatos, datadriven, foca, exif, whois, ripe, dnsdumpster, shodan, archive, theharvaster, ghunt, truthnest

Overview

Vivimos en un mundo donde los datos han ido obteniendo cada vez mayor importancia. Es habitual oír el concepto datadriven company para referirnos a compañías que emplean los datos en la toma de decisiones, también escuchamos habitualmente que las grandes compañías tecnológicas mercadean con nuestros datos o que se han usado los datos de facebook, por Cambridge analytica, para influir en las elecciones de los Estados Unidos de América del 2016, expuesto de forma contundente en el documental de Netflix El gran hackeo.

También es habitual hablar sobre la cantidad de datos que generamos diariamente en el mundo digital y de la importancia de los metadatos.

No puedo continuar sin definir antes el significado de la palabra metadato. Palabra de origen griego, meta se puede referir a después de, más allá de o literalmente sobre que es la que más se ajusta al sentido que se le da en el campo de la informática. Así que podemos decir que un metadato es un dato sobre un dato, nos aporta una información que acompaña al dato.

Por ejemplo, en una imagen digital, el dato es la imagen, los metadatos son la hora en la que se ha capturado la imagen, tiempo de exposición, apertura del obturador, marca y modelo de la cámara o teléfono con la que se ha obtenido la imagen y la posición GPS. Como podemos observar, podemos extraer gran cantidad de metadatos que ayudan a los sistemas de información a gestionar el dato proporcionado información relativa al mismo.

Los metadatos se emplean a hoy en día para múltiples objetivos, proporcionado un contexto, en ocasiones extremadamente detallado, del dato en si.

Como ejemplo podemos listar algunos de los usos más habituales, tanto de los datos como de los metadatos.

Forense

En el caso de la informática forense en muchas ocasiones el metadato es más importante que el dato en sí, ya que es el metadato el que puede proporcionarnos un contexto para ubicar una acción o individuo en un lugar concreto en un momento especifico.

Marketing

Es muy útil para la creación de perfiles, tanto los datos como los metadatos que sin ser conscientes proporcionamos a diario, ya sea en las publicaciones que realizamos en nuestras redes sociales o en las interacciones que realizamos con apps o aplicaciones web.

Proporcionamos normalmente de forma inadvertida, hábitos respecto a los horarios en los que publicamos o consultamos servicios, si lo realizamos desde un dispositivo móvil o desde un ordenador, la propia marca y modelo de nuestro dispositivo, la ubicación en la que nos encontramos, etc. Con toda esta información somos clasificados en perfiles de edad, tipo de consumo, hábitos, etc. Y vendidos a agencias para que nos propongan publicidad a medida.

Este es el negocio de las mayores compañías tecnológicas, que consiguen grandes beneficios por los ingresos generados por la gestión de la publicidad.

Seguridad

En seguridad de la información para un atacante puede ser muy interesante conocer, por ejemplo, que software usamos para la edición de imágenes o video, editor de texto o sistema operativo. Igual que en ejemplos anteriores, el atacante usará la información obtenida para obtener ventaja o aprovecharse de alguna brecha de seguridad conocida. Cuanta más información puedan obtener, más eficiente serán sus ataques, ya sean directos o creando campañas de phishing dirigidas.

También a la hora de defender nuestros sistemas tanto los datos como los metadatos pueden ofrecernos información que nos puede ayudar a identificar quien es el autor del ataque que estamos recibiendo, en este escenario el autor intentará siempre ocultar su identidad, pero si no ha sido cuidadoso nos puede proporcionar indicios que nos permitan identificarle.

Propiedad intelectual

Otro caso interesante es el de la protección de la propiedad intelectual. Como ya hemos mencionado en repetidas ocasiones, cuando generamos un fichero, de este se pueden obtener los datos del software con el que éste se ha creado. Pongamos por ejemplo, que tenemos un periódico online y que no hemos sido cuidadosos con los metadatos de las imágenes publicadas en él. Si el fabricante del software empleado advierte que no estamos pagando sus licencias lo tiene fácil para poder incriminarnos.

Herramientas para extracción de metadatos

Existen varias herramientas que nos permiten extraer los metadatos de distintos tipos de ficheros o como veremos en el siguiente ejemplo obtiene gran cantidad de información de forma automatizada de cualquier dominio web.

Foca

En entornos Windows la más conocida es foca, una herramienta muy orientada a los test de intrusión, que nos permite de forma simple obtener gran cantidad de datos de un dominio proporcionado y que usa distintas técnicas para maximizar los resultados.

En esta ocasión su uso no es ilegal, ya que lo único que estamos haciendo es acceder a información publicada en internet por su propietario.

La podéis descargar desde su github FOCA

Como se puede observar en las imágenes que se muestran a continuación la información obtenida por foca, únicamente proporcionado un dominio web, en cada uno de los casos es abundante y muy relevante. Incluyo únicamente el resumen de los datos obtenidos, pero como vemos en ambos casos se han obtenido nombres de usuarios, carpetas compartidas, software con el que se han creado los documentos analizados, correos electrónicos y sistemas operativos.

Los ejemplos de las imágenes corresponden a un periódico digital y a un partido político. Son ejemplos de alta exposición ya que publican mucha información de forma periódica.

En este caso no entraremos en el uso de la herramienta ya que esta es muy intuitiva y ya está ampliamente documentada.

Exif

En entornos Linux si queremos obtener los metadatos de una imagen sin duda el más conocido es exif, aunque hay también otras herramientas como ImageMagick que nos proporcionan también mucha información. Ambas son herramientas de liana de comandos.

En el ejemlo ejecutamos exif para extraer los datos de una imagen descargada de internet.

~:$ exif example.jpg  

EXIF tags in 'example.jpg' ('Motorola' byte order): 

--------------------+---------------------------------------------------------- 

Tag                 |Value 

--------------------+---------------------------------------------------------- 

Image Description   |DCIM\100GOPRO\GOPR6495. 

Manufacturer        |GoPro 

Model               |HERO4 Silver 

Orientation         |Top-left 

X-Resolution        |72 

Y-Resolution        |72 

Resolution Unit     |Inch 

Software            |GIMP 2.8.10 

Date and Time       |2017:10:20 10:35:38 

YCbCr Positioning   |Centered 

Compression         |JPEG compression 

X-Resolution        |72 

Y-Resolution        |72 

Resolution Unit     |Inch 

Exposure Time       |1/3049 sec. 

F-Number            |f/2.8 

Exposure Program    |Normal program 

ISO Speed Ratings   |100 

Exif Version        |Exif Version 2.21 

Date and Time (Origi|2017:10:14 11:16:08 

Date and Time (Digit|2017:10:14 11:16:08 

Components Configura|Y Cb Cr - 

Compressed Bits per |14461165.980 

Shutter Speed       |11.57 EV (1/3040 sec.) 

Aperture            |2.97 EV (f/2.8) 

Exposure Bias       |0.00 EV 

Maximum Aperture Val|2.97 EV (f/2.8) 

Subject Distance    |0.0 m 

Metering Mode       |Center-weighted average 

Light Source        |Unknown 

Flash               |No flash function 

Focal Length        |3.0 mm 

Maker Note          |10512 bytes undefined data 

FlashPixVersion     |FlashPix Version 1.0 

Color Space         |sRGB 

Pixel X Dimension   |500 

Pixel Y Dimension   |375 

Exposure Index      |0/0 

Sensing Method      |One-chip color area sensor 

File Source         |DSC 

Scene Type          |Directly photographed 

Custom Rendered     |Normal process 

Exposure Mode       |Auto exposure 

White Balance       |Auto white balance 

Digital Zoom Ratio  |1.000 

Focal Length in 35mm|15 

Scene Capture Type  |Standard 

Gain Control        |Normal 

Contrast            |Normal 

Saturation          |Normal 

Sharpness           |Hard 

Device Setting Descr|4 bytes undefined data 

Subject Distance Ran|Unknown 

Interoperability Ind|R98 

Interoperability Ver|0100 

--------------------+---------------------------------------------------------- 

EXIF data contains a thumbnail (4765 bytes).

Como podemos observar se obtiene muchísima información de la misma imagen.

La imagen fue tomada en el 14 de octubre del 2017 a las 11:16 a.m. con una cámara GoPro HERO4 Silver y fue editada posteriormente con GIMP 2.8.10, un software de edición de imágenes open source.

En este ejemplo no hemos obtenido la posición GPS, pero en el caso de que dispongamos la opción activa en el momento de realizar la fotografía esta seria también adquirida.

Otro ejemplo es file, como vemos en si ejecución nos aporta también información relevante.

1
2
3

~:$ file example.jpg  

example.jpg: JPEG image data, JFIF standard 1.01, resolution (DPI), density 72x72, segment length 16, Exif Standard: [TIFF image data, big-endian, direntries=11, description=DCIM\100GOPRO\GOPR6495., manufacturer=GoPro, model=HERO4 Silver, orientation=upper-left, xresolution=230, yresolution=238, resolutionunit=2, software=GIMP 2.8.10, datetime=2017:10:20 10:35:38], progressive, precision 8, 500x375, components 3

Igual que de una imagen podemos obtener toda esta información se pueden aplicar técnicas para obtener los metadatos de documentos ofimáticos, de comunicaciones digitales como las llamadas o los mensajes de WhatsApp, Telegram, Twitter, compras online o con tarjeta de crédito, navegación web … las fuentes de información que alimentamos constantemente inconscientemente son ingentes. Y uso el termino inconsciente en el mal sentido de la palabra, tendríamos, todos, que empezar a tomar consciencia de los datos que proporcionamos y aplicar técnicas de higiene digital que nos ayuden a dejar una huella digital menor.

Herramientas para extracción de datos

Cuando desde el campo de la seguridad de la información hablamos de la obtención de datos se suele hacer referencia a OSINT (open source intelligence), que de forma simplificada podemos decir que se basa en el uso de información pública para generar inteligencia. Solo como apunte, que la información sea pública no quiere decir que esta se haya publicado conscientemente.

Como veremos en los próximos ejemplos la información en muchos de los casos la obtenemos de forma indirecta, mediante registros de entidades, portales o protocolos necesarios para el funcionamiento de los servicios.

Osint framework

Antes de proponer algunos ejemplos, una página que no podemos pasar por alto a la hora de hablar de OSINT es osintframework.com, una página que nos muestra distintas páginas donde obtener información clasificada por temáticas.

Podéis consultar también otro portal osintessentials que dispone también de algunas fuentes de información interesantes.

RIPE (Network Coordination Centrer)

RIPE es el organismo a nivel europeo que gestiona los rangos IP . Es muy útil para detectar redes privadas que tal vez no se hayan vinculado al dominio de la compañía. Como con la mayoría de las técnicas OSINT lo que pretendemos es ampliar la superficie de ataque.

~:$ wget https://ftp.ripe.net/ripe/dbase/ripe.db.gz 

--2020-11-08 08:32:12--  https://ftp.ripe.net/ripe/dbase/ripe.db.gz 

Resolving ftp.ripe.net (ftp.ripe.net)... 193.0.6.140, 2001:67c:2e8:22::c100:68c 

Connecting to ftp.ripe.net (ftp.ripe.net)|193.0.6.140|:443... connected. 

HTTP request sent, awaiting response... 200 OK 

Length: 371055620 (354M) [application/x-gzip] 

Saving to: ‘ripe.db.gz.1’ 

ripe.db.gz.1                  100%[===============================================>] 353,87M  2,82MB/s    in 1m 41s   

2020-11-08 08:33:53 (3,50 MB/s) - ‘ripe.db.gz.1’ saved [371055620/371055620] 

~:$ zcat ripe.db.gz | grep -i -B 3 Ajuntament 

% RIPE-USER-RESOURCE 
  
inetnum:        195.76.198.128 - 195.76.198.191 

netname:        AJUNTAMENT-SABADELL 

-- 

inetnum:        195.76.126.192 - 195.76.126.223 

netname:        AYTOHOSPITALET 

descr:          AJUNTAMENT DE L'HOSPITALET DE LLOBREGAT

whois

Los usuarios de Linux disponemos de comandos como whois que nos proporciona en el terminal la información de registro de los dominios, es casi un paso obligatorio al iniciar cualquier investigación, aunque como veremos en el siguiente ejemplo, si se han aplicado las políticas de privacidad no nos ofrece mucha información.

~:$ whois playingwith.info 

Domain Name: PLAYINGWITH.INFO 

Registry Domain ID: D503300001186515502-LRMS 

Registrar WHOIS Server: whois.gandi.net 

Registrar URL: https://www.gandi.net/whois 

Updated Date: 2020-10-22T05:53:20Z 

Creation Date: 2020-09-21T18:02:44Z 

Registry Expiry Date: 2021-09-21T18:02:44Z 

Registrar Registration Expiration Date: 

Registrar: Gandi SAS 

Registrar IANA ID: 81 

Registrar Abuse Contact Email: [email protected] 

Registrar Abuse Contact Phone: +33.170377661 

Reseller: 

Domain Status: clientTransferProhibited https://icann.org/epp#clientTransferProhibited 

Domain Status: serverTransferProhibited https://icann.org/epp#serverTransferProhibited 

Registrant Organization: 

Registrant State/Province: B 

Registrant Country: ES 

Name Server: MOLLY.NS.CLOUDFLARE.COM 

Name Server: PEYTON.NS.CLOUDFLARE.COM 

DNSSEC: unsigned 

URL of the ICANN Whois Inaccuracy Complaint Form: https://www.icann.org/wicf/ 

>>> Last update of WHOIS database: 2020-11-07T16:36:11Z <<< 

  

For more information on Whois status codes, please visit https://icann.org/epp 

  

Access to AFILIAS WHOIS information is provided to assist persons in determining the contents of a domain name registration record in the Afilias registry database. The data in this record is provided by Afilias Limited for informational purposes only, and Afilias does not guarantee its accuracy.  This service is intended only for query-based access. You agree that you will use this data only for lawful purposes and that, under no circumstances will you use this data to(a) allow, enable, or otherwise support the transmission by e-mail, telephone, or facsimile of mass unsolicited, commercial advertising or solicitations to entities other than the data recipient's own existing customers; or (b) enable high volume, automated, electronic processes that send queries or data to the systems of Registry Operator, a Registrar, or Afilias except as reasonably necessary to register domain names or modify existing registrations. All rights reserved. Afilias reserves the right to modify these terms at any time. By submitting this query, you agree to abide by this policy. 

The Registrar of Record identified in this output may have an RDDS service that can be queried for additional information on how to contact the Registrant, Admin, or Tech contact of the queried domain name.

Para los que no dispongáis de un sistema Linux podéis consultar esta misma información en servicios como who.is.

dnsdumpster

Este es un portal que no ayuda a obtener información de los servidores de nombres de un dominio.

Los servidores de nombres son los encargados de traducir las direcciones web o url, fácilmente comprensibles, a direcciones IP, necesarias para el funcionamiento de las redes y de internet.

Podemos acceder al portal desde dnsdumpster y buscar información de cualquier dominio.

En el ejemplo, la búsqueda del dominio de este mismo blog, podemos observar donde se encuentran los servidores que sirven la web. He de reconocer que en este caso hay cierto truco que no es el objeto de este post, pero sirve igualmente para ilustrar la potencia del portal.

Shodan

Una vez conocemos los dominios e IP’s expuestos, shodan es sin duda el portal donde podemos obtener información de los servicios publicados en internet. Sin duda se merecería un post completo, pero en esta ocasión solo indicaremos su potencial para el descubrimiento de servicios.

En el ejemplo analizamos una de las IP’s proporcionadas por dnsdumpster. Como vemos tiene expuestos bastantes servicios que a los técnicos nos proporciona una idea clara de qué servicio provee dicho servidor.

No entraremos en el detalle del mismo dado que el objeto del post es la información expuesta, no su posterior tratamiento.

archive.org

Ya para finalizar la parte relativa a las infraestructuras, otro portal interesante es archive, este portal empezó a archivar páginas web desde 1996, de las que va tomando instantáneas periódicamente.

Es interesante para ver la evolución de las páginas web, buscar información que actualmente ya no esté disponible o tratar de obtener datos de agluna mala configuración anterior.

theHarvaster

Otra herramienta muy interesante para obtención de información, en este caso de dominios es theHarvaster. Esta herramienta nos proporciona correos electrónicos, IP’s y subdominios del dominio que le especifiquemos.

Permite buscar en distintos motores de búsqueda como Bing, duckduckgo o Google, el cual suele bloquearla de vez en cuando. Y en otras plataformas como LinkedIn, Twitter, trello, etc

~:$ theHarvester -d playingwith.info -l 500 -b all 

******************************************************************* 
*  _   _                                            _             *                                                                                                                                     
* | |_| |__   ___    /\  /\__ _ _ ____   _____  ___| |_ ___ _ __  *                                                                                                                                     
* | __|  _ \ / _ \  / /_/ / _` | '__\ \ / / _ \/ __| __/ _ \ '__| *                                                                                                                                     
* | |_| | | |  __/ / __  / (_| | |   \ V /  __/\__ \ ||  __/ |    *                                                                                                                                     
*  \__|_| |_|\___| \/ /_/ \__,_|_|    \_/ \___||___/\__\___|_|    *                                                                                                                                     
*                                                                 *                                                                                                                                     
* theHarvester 3.2.0                                          *                                                                                                                                                              
*******************************************************************                                                    

[*] Target: playingwith.info  

[*] Searching Linkedin.   

[*] No users found. 

[*] No IPs found. 

[*] No emails found.   

[*] Hosts found: 2 

--------------------- 

www.playingwith.info:172.67.141.23, 104.24.120.60, 104.24.121.60 

www.playingwith.info:35.181.5.131no ptr records found 

 [*] No Trello URLs found.

Es cierto que no siempre es exitosa, pero nos puede ofrecer información muy valiosa.

La información obtenida de los elementos de la infraestructura resulta muy interesante sobre todo para los que somos de perfil técnico, pero me parece muy relevante la información que se puede obtener de nuestras cuentas, ya sean personales o profesionales. A continuación, algunos ejemplos al respecto.

Examinaremos algunos ejemplos, pero existen multitud de herramientas y cada día aparecen de nuevas.

GHunt

Esta aplicación, que podéis obtener desde su github GHunt es un claro ejemplo. Nos ofrece datos sobre cualquier cuenta de google que le proporcionemos como:

Nombre del propietario de la cuenta

Ultima actualización del perfil

Google ID

Si la cuenta es un Bot de Hangouts

Servicios activados de Google (YouTube, Photos, Maps, News360, Hangouts, etc.)

Posible canal de YouTube

Posibles nombres de usuario

Fotos públicas

Modelo de los teléfonos móviles

Firmwares de los teléfonos móviles

Software instalado

Google Maps reviews

Posible localización física

Eventos de Google Calendar

Según la configuración de privacidad que hayamos aplicado en nuestra cuenta de google la información visible será escasa o abundante … También apuntar, que al menos en la imagen del perfil, google se preocupa de eliminar los metadatos.

truthnest

Este portal nos permite analizar los datos de cualquier cuenta de twitter, es muy interesante para ver a qué horas lo usa, sobre qué opina, en qué sentido …

Para usarla solo nos tenemos que logar en el portal truthnest y proporcionar nuestra cuenta.

Como hemos visto a lo largo del post proporcionamos una gran cantidad de datos a la red, algunos los conocemos, otros hasta ahora los desconocíamos y muchos seguro que nos pasan desapercibidos. La digitalización de nuestra vida nos aporta muchas ventajas, pero también proporciona a quienes la saben aprovechar formas de trazarnos, clasificarnos, localizarnos y posiblemente manipularnos. La línea que separa, el uso de los datos para la mejora de la experiencia del usuario, a la manipulación del mismo, es muy delgada.

Por nuestra parte el uso coherente de las herramientas como los dispositivos móviles, redes sociales, correo electrónico, etc., es necesario para que no nos convirtamos esclavos de las mismas. Como es obvio los fabricantes de software hacen aplicaciones atractivas que compiten para captar nuestra atención y somos nosotros los que tenemos que decidir, conscientemente, cuanto tiempo les queremos dedicar.

Por otro lado, tenemos que ser conscientes de que es muy poco probable que nos ofrezcan servicios gratuitos sin ningún coste. Todos nosotros somos consumidores de plataformas, que como hemos dicho ya en la introducción del post, a cambio de ofrecernos sus servicios comercializan con nuestros datos. Si lo aceptamos, todo está bien, pero es importante que tengamos consciencia de ello.

En la misma línea he escuchado, en más de una ocasión, personas que dicen, yo no tengo nada que esconder, no me importa que vean mis datos, y ésta es para mí la más peligrosa de las percepciones, ya que lo importante no es que accedan a tus datos sinó lo que son capaces de hacer con ellos. Con mucha probabilidad será una IA la que clasifique la información de forma masiva y como hemos visto en el caso ya comentado de Cambridge analytica la terminen empleando para influir en tus propias decisiones.

Propongo, en la línea de estas últimas líneas, otro documental de Netflix El dilema de las redes, donde los que formaron parte del diseño de algunas de las grandes plataformas, comentan sus impresiones viendo el sistema en perspectiva.

Me pongo en la piel de una aseguradora que pueda disponer de acceso a los datos proporcionados, por ejemplo, de los datos de salud que nos ofrecen nuestros dispositivos móviles. ¿Aumentaría las cuotas a los clientes con vidas sedentarias?

No quiero con este último alegato desalentar el uso de la tecnología o de las grandes plataformas de servicios online, al contrario, hay herramientas increíbles que nos pueden facilitar mucho la vida y la interacción con quienes están lejos. Pero tenemos que ser conscientes del coste que tienen y del tiempo que les dedicamos.

Hasta aquí el post de hoy. Espero haya sido de vuestro interés.

No dudéis en contactar mediante el formulario para hacerme llegar vuestros comentarios.