Securing Machine Learning Algorithms

Federica Granese

Résumé

Deep Neural Networks (DNNs) have seen significant advances in recent years and are nowadays widely used in a variety of applications. When it comes to safety-critical systems, developing methods and tools to make these algorithms reliable, particularly for non-specialists who may treat them as “black boxes” with no further checks, constitutes a core challenge. This thesis aims to investigate various methods that can enable the safe use of these technologies.In the first part, we tackle the problem of identifying whether the prediction of a DNN classifier should (or should not) be trusted so that, consequently, it would be possible to accept or reject it. In this regard, we propose a new detector whichapproximates the most powerful (Oracle) discriminator based on the probability of classification error with respect to the true class posterior probability.Two scenarios are investigated: Totally Black Box (TBB), where only the soft-predictionsare available, and Partially Black Box (PBB) where gradient-propagation to perform input pre-processing is allowed. The proposed detector can be applied to any pre-trained model. It does not require prior information about the underlying dataset and is as simple as the simplest available methods in the literature.We address in the second part the problem of simultaneous adversarial example detection. The detection methods are generally validated by assuming a single implicitly known attack strategy, which does not necessarily account for real-life threats. Indeed, this can lead to an overoptimistic assessment of the detectors’ performance andmay induce some bias in comparing competing detection schemes. We propose a novel multi-armed framework for evaluating detectors based on several attack strategies to overcome this limitation. Among them, we make use of three new objectives to generate attacks. The proposed performance metric is based on the worst-case scenario: detection is successful if and only if all different attacks are correctly recognized. Moreover, following this setting, we formally derive a simple yet effective method to aggregate the decisions of multiple trained detectors, possibly provided by a third party. While every single detector tends to underperform or fail at detecting types of attack that it has never seen at training time, our framework successfully aggregates the knowledge of the available detectors to guarantee a robust detection algorithm. The proposed method has many advantages: it is simple as it does not require further training of the given detectors; it is modular, allowing existing (and future) methods to be merged into a single one; it is general since it can simultaneously recognize adversarial examples created according to different algorithms and training (loss) objectives.

Les réseaux de neurones profonds ont connu des progressions significatives ces dernières années et sont aujourd’hui largement utilisés dans une variété d’applications. Lorsqu’il s’agit de systèmes critiques pour la sécurité, le développement de méthodes et d’outils pour rendre ces algorithmes fiables constitue un défi central, en particulier pour les non-spécialistes qui peuvent les traiter comme des "boîtes noires" sans autre vérification.L’objectif de cette thèse est d’étudier différentes méthodes qui peuvent permettre l’utilisation sécuritaire de ces technologies.D’abord, nous devons identifier si la prédiction d’un classificateur devrait (ou ne devrait pas) être fiable afin que il soit possible de l’accepter ou de la rejeter. A cet égard, nous proposons un nouveau détecteur qui approxime le discriminateur le plus puissant (Oracle) basé sur la probabilité d’erreur de classification calculée par rapport à la vraie probabilité postérieure du classificateur. Deux scénarios sont étudiés : Totally Black Box (TBB), où seules les soft-predictions sont disponibles et Partially Black Box (PBB) où la propagation du gradient est autorisée pour effectuer le input pre-processing. Le détecteur proposé peut être appliqué à n’importe quel modèle pre-trained, il ne nécessite pas d’informations préalables sur le dataset et est aussi simple que les méthodes les plus basiques disponibles dans la littérature.Nous poursuivons en abordant le problème de simultaneous adversarial example detection. Les méthodes de détection sont généralement validées en supposant une seule stratégie d’attaque implicitement connue, ce qui ne réalise pas nécessairement des menaces réelles. En effet, cela peut conduire à une évaluation trop optimiste des performances des détecteurs et peut induire un certain biais dans la comparaison des schémas de détection concurrents. Nous proposons un nouveau framework multi-armed pour évaluer les détecteurs sur la base de plusieurs stratégies d’attaques afin de surmonter cette limitation. Parmi celles-ci, nous utilisons trois nouvelles fonctions objectifs pour générer des attaques. La mesure de performance proposée est basée sur le scénario du worst case : la détection est réussie si et seulement si toutes les différentes attaques sont correctement reconnues. De plus, en suivant ce framework nous dérivons formellement une méthode simple mais efficace pour agréger les décisions de plusieurs détecteurs entraînés éventuellement fournis par une tierce partie. Alors que chaque détecteur a tendance à sous-performer ou à échouer dans la détection de types d’attaques qu’il n’a jamais vus au moment de l’entraînement, notre framework permet d’agréger avec succès les connaissances des détecteurs disponibles pour garantir un algorithme de détection robuste. La méthode proposée présente de nombreux avantages : elle est simple car elle ne nécessite pas d’entraînement supplémentaire des détecteurs donnés ; elle est modulaire, permettant aux méthodes existantes (et futures) d’être fusionnées en une seule ; elle est générale car elle peut reconnaître simultanément des exemples adverses créés selon différents algorithmes et objectifs d’entraînement.

Securing Machine Learning Algorithms

Sécurisation des Algorithmes d'Apprentissage Automatique

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager