datos y metadatos

Overview

Vivimos en un mundo donde los datos han ido obteniendo cada vez mayor importancia. Es habitual oír el concepto datadriven company para referirnos a compañías que emplean los datos en la toma de decisiones, también escuchamos habitualmente que las grandes compañías tecnológicas mercadean con nuestros datos o que se han usado los datos de facebook, por Cambridge analytica, para influir en las elecciones de los Estados Unidos de América del 2016, expuesto de forma contundente en el documental de Netflix El gran hackeo.

También es habitual hablar sobre la cantidad de datos que generamos diariamente en el mundo digital y de la importancia de los metadatos.

No puedo continuar sin definir antes el significado de la palabra metadato. Palabra de origen griego, meta se puede referir a después de, más allá de o literalmente sobre que es la que más se ajusta al sentido que se le da en el campo de la informática. Así que podemos decir que un metadato es un dato sobre un dato, nos aporta una información que acompaña al dato.

Por ejemplo, en una imagen digital, el dato es la imagen, los metadatos son la hora en la que se ha capturado la imagen, tiempo de exposición, apertura del obturador, marca y modelo de la cámara o teléfono con la que se ha obtenido la imagen y la posición GPS. Como podemos observar, podemos extraer gran cantidad de metadatos que ayudan a los sistemas de información a gestionar el dato proporcionado información relativa al mismo.

Los metadatos se emplean a hoy en día para múltiples objetivos, proporcionado un contexto, en ocasiones extremadamente detallado, del dato en si.

Como ejemplo podemos listar algunos de los usos más habituales, tanto de los datos como de los metadatos.

Forense

En el caso de la informática forense en muchas ocasiones el metadato es más importante que el dato en sí, ya que es el metadato el que puede proporcionarnos un contexto para ubicar una acción o individuo en un lugar concreto en un momento especifico.

Marketing

Es muy útil para la creación de perfiles, tanto los datos como los metadatos que sin ser conscientes proporcionamos a diario, ya sea en las publicaciones que realizamos en nuestras redes sociales o en las interacciones que realizamos con apps o aplicaciones web.

Proporcionamos normalmente de forma inadvertida, hábitos respecto a los horarios en los que publicamos o consultamos servicios, si lo realizamos desde un dispositivo móvil o desde un ordenador, la propia marca y modelo de nuestro dispositivo, la ubicación en la que nos encontramos, etc. Con toda esta información somos clasificados en perfiles de edad, tipo de consumo, hábitos, etc. Y vendidos a agencias para que nos propongan publicidad a medida.

Este es el negocio de las mayores compañías tecnológicas, que consiguen grandes beneficios por los ingresos generados por la gestión de la publicidad.

Seguridad

En seguridad de la información para un atacante puede ser muy interesante conocer, por ejemplo, que software usamos para la edición de imágenes o video, editor de texto o sistema operativo. Igual que en ejemplos anteriores, el atacante usará la información obtenida para obtener ventaja o aprovecharse de alguna brecha de seguridad conocida. Cuanta más información puedan obtener, más eficiente serán sus ataques, ya sean directos o creando campañas de phishing dirigidas.

También a la hora de defender nuestros sistemas tanto los datos como los metadatos pueden ofrecernos información que nos puede ayudar a identificar quien es el autor del ataque que estamos recibiendo, en este escenario el autor intentará siempre ocultar su identidad, pero si no ha sido cuidadoso nos puede proporcionar indicios que nos permitan identificarle.

Propiedad intelectual

Otro caso interesante es el de la protección de la propiedad intelectual. Como ya hemos mencionado en repetidas ocasiones, cuando generamos un fichero, de este se pueden obtener los datos del software con el que éste se ha creado. Pongamos por ejemplo, que tenemos un periódico online y que no hemos sido cuidadosos con los metadatos de las imágenes publicadas en él. Si el fabricante del software empleado advierte que no estamos pagando sus licencias lo tiene fácil para poder incriminarnos.

Herramientas para extracción de metadatos

Existen varias herramientas que nos permiten extraer los metadatos de distintos tipos de ficheros o como veremos en el siguiente ejemplo obtiene gran cantidad de información de forma automatizada de cualquier dominio web.

Foca

En entornos Windows la más conocida es foca, una herramienta muy orientada a los test de intrusión, que nos permite de forma simple obtener gran cantidad de datos de un dominio proporcionado y que usa distintas técnicas para maximizar los resultados.

En esta ocasión su uso no es ilegal, ya que lo único que estamos haciendo es acceder a información publicada en internet por su propietario.

La podéis descargar desde su github FOCA

Como se puede observar en las imágenes que se muestran a continuación la información obtenida por foca, únicamente proporcionado un dominio web, en cada uno de los casos es abundante y muy relevante. Incluyo únicamente el resumen de los datos obtenidos, pero como vemos en ambos casos se han obtenido nombres de usuarios, carpetas compartidas, software con el que se han creado los documentos analizados, correos electrónicos y sistemas operativos.

Los ejemplos de las imágenes corresponden a un periódico digital y a un partido político. Son ejemplos de alta exposición ya que publican mucha información de forma periódica.

En este caso no entraremos en el uso de la herramienta ya que esta es muy intuitiva y ya está ampliamente documentada.

Exif

En entornos Linux si queremos obtener los metadatos de una imagen sin duda el más conocido es exif, aunque hay también otras herramientas como ImageMagick que nos proporcionan también mucha información. Ambas son herramientas de liana de comandos.

En el ejemlo ejecutamos exif para extraer los datos de una imagen descargada de internet.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
~:$ exif example.jpg  

EXIF tags in 'example.jpg' ('Motorola' byte order):

--------------------+----------------------------------------------------------

Tag |Value

--------------------+----------------------------------------------------------

Image Description |DCIM\100GOPRO\GOPR6495.

Manufacturer |GoPro

Model |HERO4 Silver

Orientation |Top-left

X-Resolution |72

Y-Resolution |72

Resolution Unit |Inch

Software |GIMP 2.8.10

Date and Time |2017:10:20 10:35:38

YCbCr Positioning |Centered

Compression |JPEG compression

X-Resolution |72

Y-Resolution |72

Resolution Unit |Inch

Exposure Time |1/3049 sec.

F-Number |f/2.8

Exposure Program |Normal program

ISO Speed Ratings |100

Exif Version |Exif Version 2.21

Date and Time (Origi|2017:10:14 11:16:08

Date and Time (Digit|2017:10:14 11:16:08

Components Configura|Y Cb Cr -

Compressed Bits per |14461165.980

Shutter Speed |11.57 EV (1/3040 sec.)

Aperture |2.97 EV (f/2.8)

Exposure Bias |0.00 EV

Maximum Aperture Val|2.97 EV (f/2.8)

Subject Distance |0.0 m

Metering Mode |Center-weighted average

Light Source |Unknown

Flash |No flash function

Focal Length |3.0 mm

Maker Note |10512 bytes undefined data

FlashPixVersion |FlashPix Version 1.0

Color Space |sRGB

Pixel X Dimension |500

Pixel Y Dimension |375

Exposure Index |0/0

Sensing Method |One-chip color area sensor

File Source |DSC

Scene Type |Directly photographed

Custom Rendered |Normal process

Exposure Mode |Auto exposure

White Balance |Auto white balance

Digital Zoom Ratio |1.000

Focal Length in 35mm|15

Scene Capture Type |Standard

Gain Control |Normal

Contrast |Normal

Saturation |Normal

Sharpness |Hard

Device Setting Descr|4 bytes undefined data

Subject Distance Ran|Unknown

Interoperability Ind|R98

Interoperability Ver|0100

--------------------+----------------------------------------------------------

EXIF data contains a thumbnail (4765 bytes).

Como podemos observar se obtiene muchísima información de la misma imagen.

La imagen fue tomada en el 14 de octubre del 2017 a las 11:16 a.m. con una cámara GoPro HERO4 Silver y fue editada posteriormente con GIMP 2.8.10, un software de edición de imágenes open source.

En este ejemplo no hemos obtenido la posición GPS, pero en el caso de que dispongamos la opción activa en el momento de realizar la fotografía esta seria también adquirida.

Otro ejemplo es file, como vemos en si ejecución nos aporta también información relevante.

1
2
3
~:$ file example.jpg  

example.jpg: JPEG image data, JFIF standard 1.01, resolution (DPI), density 72x72, segment length 16, Exif Standard: [TIFF image data, big-endian, direntries=11, description=DCIM\100GOPRO\GOPR6495., manufacturer=GoPro, model=HERO4 Silver, orientation=upper-left, xresolution=230, yresolution=238, resolutionunit=2, software=GIMP 2.8.10, datetime=2017:10:20 10:35:38], progressive, precision 8, 500x375, components 3

Igual que de una imagen podemos obtener toda esta información se pueden aplicar técnicas para obtener los metadatos de documentos ofimáticos, de comunicaciones digitales como las llamadas o los mensajes de WhatsApp, Telegram, Twitter, compras online o con tarjeta de crédito, navegación web … las fuentes de información que alimentamos constantemente inconscientemente son ingentes. Y uso el termino inconsciente en el mal sentido de la palabra, tendríamos, todos, que empezar a tomar consciencia de los datos que proporcionamos y aplicar técnicas de higiene digital que nos ayuden a dejar una huella digital menor.

Herramientas para extracción de datos

Cuando desde el campo de la seguridad de la información hablamos de la obtención de datos se suele hacer referencia a OSINT (open source intelligence), que de forma simplificada podemos decir que se basa en el uso de información pública para generar inteligencia. Solo como apunte, que la información sea pública no quiere decir que esta se haya publicado conscientemente.

Como veremos en los próximos ejemplos la información en muchos de los casos la obtenemos de forma indirecta, mediante registros de entidades, portales o protocolos necesarios para el funcionamiento de los servicios.

Osint framework

Antes de proponer algunos ejemplos, una página que no podemos pasar por alto a la hora de hablar de OSINT es osintframework.com, una página que nos muestra distintas páginas donde obtener información clasificada por temáticas.

Podéis consultar también otro portal osintessentials que dispone también de algunas fuentes de información interesantes.

RIPE (Network Coordination Centrer)

RIPE es el organismo a nivel europeo que gestiona los rangos IP . Es muy útil para detectar redes privadas que tal vez no se hayan vinculado al dominio de la compañía. Como con la mayoría de las técnicas OSINT lo que pretendemos es ampliar la superficie de ataque.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
~:$ wget https://ftp.ripe.net/ripe/dbase/ripe.db.gz 

--2020-11-08 08:32:12-- https://ftp.ripe.net/ripe/dbase/ripe.db.gz

Resolving ftp.ripe.net (ftp.ripe.net)... 193.0.6.140, 2001:67c:2e8:22::c100:68c

Connecting to ftp.ripe.net (ftp.ripe.net)|193.0.6.140|:443... connected.

HTTP request sent, awaiting response... 200 OK

Length: 371055620 (354M) [application/x-gzip]

Saving to: ‘ripe.db.gz.1’

ripe.db.gz.1 100%[===============================================>] 353,87M 2,82MB/s in 1m 41s

2020-11-08 08:33:53 (3,50 MB/s) - ‘ripe.db.gz.1’ saved [371055620/371055620]

~:$ zcat ripe.db.gz | grep -i -B 3 Ajuntament

% RIPE-USER-RESOURCE

inetnum: 195.76.198.128 - 195.76.198.191

netname: AJUNTAMENT-SABADELL

--

inetnum: 195.76.126.192 - 195.76.126.223

netname: AYTOHOSPITALET

descr: AJUNTAMENT DE L'HOSPITALET DE LLOBREGAT

whois

Los usuarios de Linux disponemos de comandos como whois que nos proporciona en el terminal la información de registro de los dominios, es casi un paso obligatorio al iniciar cualquier investigación, aunque como veremos en el siguiente ejemplo, si se han aplicado las políticas de privacidad no nos ofrece mucha información.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
~:$ whois playingwith.info 

Domain Name: PLAYINGWITH.INFO

Registry Domain ID: D503300001186515502-LRMS

Registrar WHOIS Server: whois.gandi.net

Registrar URL: https://www.gandi.net/whois

Updated Date: 2020-10-22T05:53:20Z

Creation Date: 2020-09-21T18:02:44Z

Registry Expiry Date: 2021-09-21T18:02:44Z

Registrar Registration Expiration Date:

Registrar: Gandi SAS

Registrar IANA ID: 81

Registrar Abuse Contact Email: [email protected]

Registrar Abuse Contact Phone: +33.170377661

Reseller:

Domain Status: clientTransferProhibited https://icann.org/epp#clientTransferProhibited

Domain Status: serverTransferProhibited https://icann.org/epp#serverTransferProhibited

Registrant Organization:

Registrant State/Province: B

Registrant Country: ES

Name Server: MOLLY.NS.CLOUDFLARE.COM

Name Server: PEYTON.NS.CLOUDFLARE.COM

DNSSEC: unsigned

URL of the ICANN Whois Inaccuracy Complaint Form: https://www.icann.org/wicf/

>>> Last update of WHOIS database: 2020-11-07T16:36:11Z <<<



For more information on Whois status codes, please visit https://icann.org/epp



Access to AFILIAS WHOIS information is provided to assist persons in determining the contents of a domain name registration record in the Afilias registry database. The data in this record is provided by Afilias Limited for informational purposes only, and Afilias does not guarantee its accuracy. This service is intended only for query-based access. You agree that you will use this data only for lawful purposes and that, under no circumstances will you use this data to(a) allow, enable, or otherwise support the transmission by e-mail, telephone, or facsimile of mass unsolicited, commercial advertising or solicitations to entities other than the data recipient's own existing customers; or (b) enable high volume, automated, electronic processes that send queries or data to the systems of Registry Operator, a Registrar, or Afilias except as reasonably necessary to register domain names or modify existing registrations. All rights reserved. Afilias reserves the right to modify these terms at any time. By submitting this query, you agree to abide by this policy.

The Registrar of Record identified in this output may have an RDDS service that can be queried for additional information on how to contact the Registrant, Admin, or Tech contact of the queried domain name.

Para los que no dispongáis de un sistema Linux podéis consultar esta misma información en servicios como who.is.

dnsdumpster

Este es un portal que no ayuda a obtener información de los servidores de nombres de un dominio.

Los servidores de nombres son los encargados de traducir las direcciones web o url, fácilmente comprensibles, a direcciones IP, necesarias para el funcionamiento de las redes y de internet.

Podemos acceder al portal desde dnsdumpster y buscar información de cualquier dominio.

En el ejemplo, la búsqueda del dominio de este mismo blog, podemos observar donde se encuentran los servidores que sirven la web. He de reconocer que en este caso hay cierto truco que no es el objeto de este post, pero sirve igualmente para ilustrar la potencia del portal.

Shodan

Una vez conocemos los dominios e IP’s expuestos, shodan es sin duda el portal donde podemos obtener información de los servicios publicados en internet. Sin duda se merecería un post completo, pero en esta ocasión solo indicaremos su potencial para el descubrimiento de servicios.

En el ejemplo analizamos una de las IP’s proporcionadas por dnsdumpster. Como vemos tiene expuestos bastantes servicios que a los técnicos nos proporciona una idea clara de qué servicio provee dicho servidor.

No entraremos en el detalle del mismo dado que el objeto del post es la información expuesta, no su posterior tratamiento.

archive.org

Ya para finalizar la parte relativa a las infraestructuras, otro portal interesante es archive, este portal empezó a archivar páginas web desde 1996, de las que va tomando instantáneas periódicamente.

Es interesante para ver la evolución de las páginas web, buscar información que actualmente ya no esté disponible o tratar de obtener datos de agluna mala configuración anterior.

theHarvaster

Otra herramienta muy interesante para obtención de información, en este caso de dominios es theHarvaster. Esta herramienta nos proporciona correos electrónicos, IP’s y subdominios del dominio que le especifiquemos.

Permite buscar en distintos motores de búsqueda como Bing, duckduckgo o Google, el cual suele bloquearla de vez en cuando. Y en otras plataformas como LinkedIn, Twitter, trello, etc

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
~:$ theHarvester -d playingwith.info -l 500 -b all 

*******************************************************************
* _ _ _ *
* | |_| |__ ___ /\ /\__ _ _ ____ _____ ___| |_ ___ _ __ *
* | __| _ \ / _ \ / /_/ / _` | '__\ \ / / _ \/ __| __/ _ \ '__| *
* | |_| | | | __/ / __ / (_| | | \ V / __/\__ \ || __/ | *
* \__|_| |_|\___| \/ /_/ \__,_|_| \_/ \___||___/\__\___|_| *
* *
* theHarvester 3.2.0 *
*******************************************************************

[*] Target: playingwith.info

[*] Searching Linkedin.

[*] No users found.

[*] No IPs found.

[*] No emails found.

[*] Hosts found: 2

---------------------

www.playingwith.info:172.67.141.23, 104.24.120.60, 104.24.121.60

www.playingwith.info:35.181.5.131no ptr records found

[*] No Trello URLs found.

Es cierto que no siempre es exitosa, pero nos puede ofrecer información muy valiosa.

La información obtenida de los elementos de la infraestructura resulta muy interesante sobre todo para los que somos de perfil técnico, pero me parece muy relevante la información que se puede obtener de nuestras cuentas, ya sean personales o profesionales. A continuación, algunos ejemplos al respecto.

Examinaremos algunos ejemplos, pero existen multitud de herramientas y cada día aparecen de nuevas.

GHunt

Esta aplicación, que podéis obtener desde su github GHunt es un claro ejemplo. Nos ofrece datos sobre cualquier cuenta de google que le proporcionemos como:

  • Nombre del propietario de la cuenta
  • Ultima actualización del perfil
  • Google ID
  • Si la cuenta es un Bot de Hangouts
  • Servicios activados de Google (YouTube, Photos, Maps, News360, Hangouts, etc.)
  • Posible canal de YouTube
  • Posibles nombres de usuario
  • Fotos públicas
  • Modelo de los teléfonos móviles
  • Firmwares de los teléfonos móviles
  • Software instalado
  • Google Maps reviews
  • Posible localización física
  • Eventos de Google Calendar
  • Según la configuración de privacidad que hayamos aplicado en nuestra cuenta de google la información visible será escasa o abundante … También apuntar, que al menos en la imagen del perfil, google se preocupa de eliminar los metadatos.

    truthnest

    Este portal nos permite analizar los datos de cualquier cuenta de twitter, es muy interesante para ver a qué horas lo usa, sobre qué opina, en qué sentido …

    Para usarla solo nos tenemos que logar en el portal truthnest y proporcionar nuestra cuenta.

    Como hemos visto a lo largo del post proporcionamos una gran cantidad de datos a la red, algunos los conocemos, otros hasta ahora los desconocíamos y muchos seguro que nos pasan desapercibidos. La digitalización de nuestra vida nos aporta muchas ventajas, pero también proporciona a quienes la saben aprovechar formas de trazarnos, clasificarnos, localizarnos y posiblemente manipularnos. La línea que separa, el uso de los datos para la mejora de la experiencia del usuario, a la manipulación del mismo, es muy delgada.

    Por nuestra parte el uso coherente de las herramientas como los dispositivos móviles, redes sociales, correo electrónico, etc., es necesario para que no nos convirtamos esclavos de las mismas. Como es obvio los fabricantes de software hacen aplicaciones atractivas que compiten para captar nuestra atención y somos nosotros los que tenemos que decidir, conscientemente, cuanto tiempo les queremos dedicar.

    Por otro lado, tenemos que ser conscientes de que es muy poco probable que nos ofrezcan servicios gratuitos sin ningún coste. Todos nosotros somos consumidores de plataformas, que como hemos dicho ya en la introducción del post, a cambio de ofrecernos sus servicios comercializan con nuestros datos. Si lo aceptamos, todo está bien, pero es importante que tengamos consciencia de ello.

    En la misma línea he escuchado, en más de una ocasión, personas que dicen, yo no tengo nada que esconder, no me importa que vean mis datos, y ésta es para mí la más peligrosa de las percepciones, ya que lo importante no es que accedan a tus datos sinó lo que son capaces de hacer con ellos. Con mucha probabilidad será una IA la que clasifique la información de forma masiva y como hemos visto en el caso ya comentado de Cambridge analytica la terminen empleando para influir en tus propias decisiones.

    Propongo, en la línea de estas últimas líneas, otro documental de Netflix El dilema de las redes, donde los que formaron parte del diseño de algunas de las grandes plataformas, comentan sus impresiones viendo el sistema en perspectiva.

    Me pongo en la piel de una aseguradora que pueda disponer de acceso a los datos proporcionados, por ejemplo, de los datos de salud que nos ofrecen nuestros dispositivos móviles. ¿Aumentaría las cuotas a los clientes con vidas sedentarias?

    No quiero con este último alegato desalentar el uso de la tecnología o de las grandes plataformas de servicios online, al contrario, hay herramientas increíbles que nos pueden facilitar mucho la vida y la interacción con quienes están lejos. Pero tenemos que ser conscientes del coste que tienen y del tiempo que les dedicamos.

    Hasta aquí el post de hoy. Espero haya sido de vuestro interés.

    No dudéis en contactar mediante el formulario para hacerme llegar vuestros comentarios.