BACHECA TESI
Giovanni Apruzzese (Dipartimento di Ingegneria "Enzo Ferrari" - Università di Modena e Reggio Emilia)
"Security Analytics and Machine Learning for Cyber Detection: Modern Issues and Novel Solutions"
Link esterno al gruppo di ricerca: https://weblab.ing.unimore.it/people/
Giovanni Apruzzese (Dipartimento di Ingegneria "Enzo Ferrari" - Università di Modena e Reggio Emilia)
"Security Analytics and Machine Learning for Cyber Detection: Modern Issues and Novel Solutions"
(Relatore: Prof. Michele Colajanni).
La sicurezza delle informazioni nel mondo digitale è un problema complesso ed articolato: i sistemi informatici moderni sono costituiti da migliaia di dispositivi ed applicazioni eterogenee, aumentando quindi la superficie di vulnerabilità sfruttabili dagli attaccanti. I meccanismi difensivi si dividono in tre tipologie: prevenzione, rilevazione, e reazione. La prevenzione completa da qualsiasi tipologia di minaccia è un traguardo quasi irraggiungibile, mentre la reazione presuppone che l'attaccante ha già portato a termine il proprio obiettivo.
La presente tesi quindi affronta l'argomento della rilevazione (detection) dei cyber-attacchi avanzati -- attività che presenta numerose sfide. Gli attaccanti più esperti migliorano continuamente i propri strumenti e, attraverso l'attuazione di strategie originali, sono in grado di eludere la rilevazione degli approcci tradizionali basati su regole statiche. Di conseguenza, molte data-breach richiedono mesi prima di essere identificate, provocando ingenti danni alle organizzazioni moderne. Gli operatori umani da soli non sono in grado di gestire il continuo aumento della complessità, varietà e velocità delle minacce recenti. Per risolvere questo problema, come evidenziato sia dalla letteratura scientifica che da appositi report tecnici, gli analisti della sicurezza devono essere supportati da meccanismi di rilevazione aumatici che possano sfruttare le grandi quantità di dati generati dalle reti moderne. Questa tesi promuove e incentiva questa posizione, proponendo tecniche di security analytics che adottano modelli di machine learning e algoritmi matematici. In particolare, vengono presentate soluzioni originali per la cyber detection di minacce diffuse quali botnet, lateral movement, comunicazioni periodiche malevole, e phishing. Viene anche effettuato uno studio dei problemi che affliggono questi approcci nei contesti di cybersecurity, caratterizati da una -- non apparente -- difficoltà di applicazione di nuove soluzioni, a causa della difficoltà di definire la linea di separazione tra azioni malevole e legittime. Nella seconda parte di questa tesi, si considera il problema degli adversarial attack contro i cyber detector, e si presentano soluzioni originali per ridurre l'impatto di simili minacce. Tutti i metodi proposti richiedono un ridotto quantitativo di informazioni e si basano su assunzioni essenziali, consentendone l'integrazione nei framework di difesa adottati dalle organizzazioni reali. Un valore importante che caratterizza l'intera tesi è che tutte le idee e tecniche proposte sono validate attraverso numerose campagne sperimentali effettuate su dataset realistici di grosse dimensioni. I risultati ottenuti migliorano lo stato dell'arte e, in alcuni casi, risolvono i problemi di detection. Per queste ragioni, si può affermare che la presente tesi costituisca un solido fondamento per la creazione di sistemi difensivi che siano in grado di supportare gli operatori di sicurezza anche in presenza delle forme di cyber-attacchi più all'avanguardia.
Link esterno al gruppo di ricerca: https://weblab.ing.unimore.it/people/
Giovanni Calore (Dipartimento di Matematica, Università degli Studi di Padova)
"Membership Inference Attacks on Differentially Private StyleGAN2"
Link esterno al gruppo di ricerca: https://spritz.math.unipd.it/
Giovanni Calore (Dipartimento di Matematica, Università degli Studi di Padova)
"Membership Inference Attacks on Differentially Private StyleGAN2"
(Relatore: Mauro Conti).
In recent years, great progress has been made in defining ever more performing and powerful deep learning models, with abilities never seen before. While it is true that the architecture of a model is fundamental for performance in terms of quality and time spent on training, no less important is the usage of a high-quality dataset during training. If even the best of models is trained with a poor quality dataset, then the final result will reflect the negative consequences.
Datasets often requires specific permissions that the user must request at the source or complex anonymization procedures, which must be carried out to avoid exposing sensitive information, such as medical records, everyday personal information or sensitive images.
A strategy adopted to speed up the scientific research, satisfy the complex requests for data analysis and the stringent privacy requirements is that of the production of synthetic datasets, i.e., datasets that have a distribution very similar to that of a target dataset and can both be used to train complex networks and guarantee a high level of privacy, since their individual samples are different from those of the original dataset, while ensuring the similarity as a whole. A specific model architecture, the Generative Adversarial Network (GAN), has been proved effective in qualitative terms for the production of synthetic datasets.
This work focuses on a specific type of attacks against these networks, the Membership Inference attacks. Making membership inference means obtaining information about the individual components of the original dataset, in particular starting from a sample, defining whether that sample is part of the training dataset or not. Having a set of samples, in which the presence of samples used to train the generative model is suspected, the attack consists in identifying these samples.
The analysis is concentrated on images, an area in which GANs have established themselves as state-of-the-art for the production of high-quality images. A question to which we try to answer in this document concerns the privacy leakage of these models: do the improvements made to the networks that are now able to produce high-quality samples, translate into greater vulnerability? Does giving more quality necessarily mean creating overfitting on the reference dataset? What are the biggest privacy drawbacks towards these networks?
We then propose some innovative approaches as attempted attacks on GANs, testing the intuition that the network can actually "remember" information related to the training data.
Abadi et al. defined an algorithm for the protection of GANs against this kind of attacks, introducing the differentially private gradient descent. Basically, to avoid that the update of the network weights undergoes too large variations following observation of the data, the gradient is first clipped and then an arbitrary sum of noise is added, steps which are both regulated by hyperparameters. By definition, the addition of noise in the training procedure leads the model to lose part of its effectiveness and quality in the production of synthetic samples, a price that is paid to guarantee a certain level of privacy. We wanted to measure the effective loss of quality as the values of the clipping and noise intensity hyperparameters vary and the relative ability to resist the analyzed threats, with the aim of determining the feasibility of using the protections adopted in a realistic context and a trade-off between performance and privacy protection.
We then propose a new differentially private training procedure that aims to increase the performance of the model in terms of output sample quality, but still maintaining a good level of privacy. This approach is based on a different noise distribution through the layers: the intuition is that by adding a greater amount of noise to the layers that control the synthesis of higher-level features than the noise added to those layers that control low-level features, the model should perform better and output images with higher quality than having a static noise sum operation. The new defined optimizer is called Hierarchical Differentially Private Stochastic Gradient Descent (HDP-SGD).
Link esterno al gruppo di ricerca: https://spritz.math.unipd.it/
Marco Russodivito (Università degli Studi del Molise)
"2Faces: un nuovo modello di malware basato sulla compilazione dinamica di payload malevoli distribuiti"
Marco Russodivito (Università degli Studi del Molise)
"2Faces: un nuovo modello di malware basato sulla compilazione dinamica di payload malevoli distribuiti"
(Relatore: Francesco Mercaldo).
Android è il sistema operativo per dispositivi mobili più diffuso ed utilizzato al mondo, ma anche quello sottoposto a maggiori pressioni da parte di attacker, i quali sviluppano applicazioni malevole per trafugare informazioni private e sensibili da device infetti. Inoltre, considerando le recenti e sempre più stringenti normative in materia di dati personali, Google sta attuando misure maggiormente restrittive nella pubblicazione delle applicazioni nel suo Google Play Store, il market ufficiale di Android. Ciò porta gli attacker a sviluppare metodologie di attacco innovative. Le motivazioni dietro questo lavoro di tesi risiedono nella progettazione e nella implementazione di un nuovo modello di malware che sfrutta alcune caratteristiche di Android ereditate dal linguaggio Java, quali la compilazione dinamica, il caricamento dinamico e la reflection. Tali tecniche non sono ancora state adoperate per lo sviluppo di un malware, ma potrebbero essere in grado di operare attacchi sempre più dannosi, grazie alle capacità di eseguire codice malevolo, senza che questo persista nell’applicazione e di conseguenza che possa essere rilevato da qualsiasi software di analisi statica e dinamica, quali gli anti-malware. L’obiettivo di questo lavoro di tesi è la progettazione di un nuovo modello di malware Android basato sulla compilazione ed esecuzione di codice Java a runtime e, successivamente, alla progettazione di un’architettura software in grado di rendere questo nuovo modello di malware automatico e distribuito. Tutto ciò ci ha permesso di indagare su una nuova modalità d’attacco in ambiente Android al fine di diffondere i risultati raggiunti dalla comunità scientifica. Tali risultati sono soddisfacenti e ci hanno permesso di gettare buone basi per eventuali sviluppi futuri.
È possibile visionare il codice sorgente di 2Faces sulla piattaforma GitHub sulle seguenti repository pubbliche:
1. Android Application – https://github.com/RedHitMark/2faces-android
2. Node.js back end – https://github.com/RedHitMark/2faces-backend
3. Vue.js panel – https://github.com/RedHitMark/2faces-panel
BACHECA TESI EDIZIONI PASSATE
Edizione 2020
Edizione 2019
Edizione 2018
Edizione 2017
Edizione 2016
Edizione 2015
Edizione 2014
Edizione 2013
Edizione 2012
Edizione 2011
Edizione 2010
Edizione 2009
Edizione 2008
Edizione 2007
Il Premio Tesi è realizzato in collaborazione e con il sostegno di: