Metagoofil è uno strumento OSINT storico ma ancora attuale, progettato per estrarre metadati da documenti pubblicamente accessibili su un dominio. La sua forza non è solo tecnica: è concettuale. Capire Metagoofil significa capire come le informazioni “invisibili” nei file possano diventare un vettore di intelligence.
Secondo la documentazione ufficiale, Metagoofil “searches Google for specific types of files being publicly hosted on a web site and optionally downloads them”. Questo lo rende uno strumento perfetto per:
- penetration tester
- analisti OSINT
- red team
- ricercatori di sicurezza
- blogger tecnici che vogliono mostrare rischi reali

Perché i metadati sono così importanti nell’OSINT?
Ogni file digitale contiene due livelli di informazione:
Contenuto visibile
Il testo, le immagini, le tabelle.
Metadati invisibili
Informazioni tecniche incorporate automaticamente dal software che ha creato il file.
Esempi di metadati:
- autore del documento
- username del PC
- nome dell’azienda
- versione del software
- timestamp di creazione e modifica
- percorsi locali o di rete
- MAC address (in alcuni documenti Office)
- informazioni hardware del sistema che ha generato il file
Questi dati sono spesso ignorati dagli utenti, ma per un ethical hacker rappresentano:
| Metadato | Perché è utile |
|---|---|
| Username reali | Creazione di wordlist per password spraying |
| Versioni software | Identificazione vulnerabilità note |
| Percorsi di rete | Mappatura dell’infrastruttura interna |
| Autori | Ricostruzione organigramma |
| MAC address | Identificazione dispositivi e vendor |
| Tool di creazione | Individuazione software obsoleti |
Metagoofil automatizza proprio questo processo: scopre, scarica ed estrae metadati.
Come funziona Metagoofil?
Il funzionamento è lineare ma potente:
Discovery tramite Google
Metagoofil usa query mirate per trovare documenti appartenenti a un dominio. Esempio (preso dalla documentazione ufficiale): ricerca di PDF su example.com.
Download dei file
Scarica localmente i documenti trovati.
Parsing dei metadati
Utilizza librerie come:
- Hachoir
- PdfMiner
come confermato dalle fonti tecniche.
Generazione report
Produce un report HTML o testuale con:
- utenti trovati
- software utilizzati
- percorsi di rete
- informazioni sensibili
- statistiche dei file
Crea un ambiente virtuale nella cartella del progetto:
python3 -m venv venvAttivalo
source venv/bin/activateInstallazione:
Per installare il software occorre digitare i seguenti comandi:
git clone https://github.com/opsdisk/metagoofil && cd metagoofil
pip install -r requirements.txt
Comandi essenziali:
Ricerca base:
python metagoofil.py -d esempio.com -t pdf -l 50 -o output -f report.htmlCosa fa questo comando?
- -d esempio.com Dice a Metagoofil quale dominio analizzare. Cerca documenti solo appartenenti a quel dominio.
- -t pdf Specifica il tipo di file da cercare. Puoi usare: pdf, doc, docx, xls, xlsx, ppt, pptx, ecc.
- -l 50 Numero massimo di risultati da estrarre da Google. Non significa che scaricherà 50 file, ma che analizzerà 50 risultati.
- -o output Cartella dove salvare i file scaricati.
- -f report.html Nome del report finale con i metadati estratti.
Ricerca multipla:
python metagoofil.py -d esempio.com -t pdf,doc,xls -l 100 -o dump -f metadata.htmlCosa cambia?
- -t pdf,doc,xls Cerca più tipi di file contemporaneamente.
- -l 100 Numero massimo di risultati da estrarre da Google. Non significa che scaricherà 100 file, ma che analizzerà 100 risultati
Questo aumenta la superficie OSINT e spesso rivela metadati più vari.
Solo estrazione metadati:
python metagoofil.py --no-search -o dump -f report.htmlCosa fa?
- –no-search Dice a Metagoofil di NON cercare file online.
Serve quando:
- hai già scaricato i file
- vuoi analizzare una cartella locale
- vuoi rigenerare un report senza rifare la ricerca
Cosa si può scoprire davvero se usato in maniera etica?
Grazie ai parser integrati, Metagoofil può estrarre:
- Author
- Last Modified By
- Company
- File Path
- Software
- MAC Address
Queste informazioni possono essere usate per:
- mappare l’infrastruttura
- identificare software obsoleti
- preparare attacchi simulati (autorizzati)
- valutare la superficie esposta di un’azienda
Secondo analisi recenti, Metagoofil è ancora utilizzato in contesti di:
- deep web exploration
- data extraction
- cybersecurity investigations
- analisi di esposizione documentale
Il motivo è semplice:
I documenti sono ancora oggi una delle principali fonti di leakage involontario.
Le aziende continuano a pubblicare PDF, DOC e PPT senza sanitizzare i metadati.
Ulteriori informazioni:
Metagoofil è uno strumento OSINT, quindi lavora solo su documenti pubblici. Tuttavia:
- va usato solo con autorizzazione
- non va utilizzato per raccogliere informazioni sensibili senza permesso
- i metadati possono contenere dati personali → GDPR
L’obiettivo è aiutare le aziende a proteggersi, non sfruttare vulnerabilità. Metagoofil non è solo un tool: è un metodo di analisi OSINT basato sui metadati. È perfetto per:
- integrare pipeline OSINT più complesse
- mostrare rischi reali
- educare utenti e aziende
- creare guide didattiche

