Cisco introduce un toolkit open-source per verificare la provenienza dei modelli AI

Le aziende che scaricano modelli da piattaforme come Hugging Face spesso non tengono traccia delle modifiche apportate dopo il download, rendendo difficile verificare l'origine e l'integrità dei modelli in produzione. Questo problema è emerso nel rapporto State of AI Security 2026 di Cisco, che evidenzia come l'uso diffuso di modelli AI in sistemi critici stia espandendo i rischi legati alla supply chain dell'intelligenza artificiale.

Per affrontare questa sfida, Cisco ha sviluppato il Model Provenance Kit, un toolkit open-source in Python con interfaccia a riga di comando che permette di determinare se due modelli transformer condividono un'origine comune. Il kit analizza metadati architettonici, struttura del tokenizer e pesi appresi, offrendo un metodo sistematico per tracciare la provenienza dei modelli AI.

Le difficoltà nella verifica della provenienza dei modelli

Hugging Face ospita oltre 2 milioni di modelli, ma la documentazione su queste piattaforme può essere alterata o incompleta. Le schede informative potrebbero descrivere un modello come addestrato da zero, mentre in realtà si tratta di una versione modificata di un altro modello. Molte repository offrono poche garanzie criptografiche sull'origine, sui dati di addestramento o sulla storia delle modifiche.

Un esempio recente è Cursor’s Composer 2, parzialmente basato su Kimi 2.5, un modello sviluppato da un'azienda cinese. Questo tipo di dipendenze è comune in tutto il settore, complicando ulteriormente la tracciabilità delle origini.

Le moderne famiglie di modelli aggravano il problema poiché condividono architetture identiche. Modelli di Meta, Alibaba, DeepSeek e Mistral utilizzano gli stessi componenti, come l'attenzione a query raggruppate, gli embedding posizionali rotatori e la normalizzazione Root Mean Square. Un file di configurazione descrive l'architettura, ma non fornisce informazioni su come sono stati appresi i pesi.

Senza informazioni sulla provenienza, le organizzazioni rischiano di utilizzare modelli vulnerabili o compromessi, con potenziali conseguenze legali e regolatorie. Il Regolamento UE sull'IA richiede infatti la documentazione dei dati di addestramento e dei metodi utilizzati, mentre il NIST AI Risk Management Framework identifica i rischi legati ai componenti AI di terze parti come un'area critica di governance.

Come funziona il Model Provenance Kit

Il Model Provenance Kit opera in due fasi. Nella fase 1, il tool esegue uno screening architettonico che confronta le configurazioni dei modelli e i metadati strutturali prima di caricare i pesi. Se due modelli condividono la stessa specifica architettonica, vengono classificati come correlati.

Se i metadati sono ambigui, la pipeline passa alla fase 2, che estrae cinque segnali complementari dai pesi del modello:

  • Embedding Anchor Similarity (EAS): confronta le relazioni geometriche tra gli embedding dei token, una struttura unica per ogni run di addestramento che sopravvive anche al fine-tuning.
  • Embedding Norm Distribution (END): analizza la distribuzione delle magnitudini degli embedding, che codificano i pattern di frequenza delle parole dall'addestramento.
  • Norm Layer Fingerprint (NLF): legge i piccoli livelli di normalizzazione, che rimangono stabili anche dopo il fine-tuning.
  • Layer Energy Profile (LEP): confronta le distribuzioni delle curve di energia normalizzate attraverso la profondità della rete. Diversi run di addestramento producono distribuzioni di energia diverse, anche con architetture identiche.
  • Weight-Value Cosine (WVC): confronta direttamente i valori dei pesi tra un sottocampionamento di livelli corrispondenti. Modelli addestrati indipendentemente mostrano una correlazione quasi nulla in questa fase.

I segnali vengono combinati in un unico punteggio di identità utilizzando pesi empiricamente calibrati. Se un segnale non può essere calcolato, ad esempio perché i modelli hanno un numero diverso di livelli, viene escluso e i segnali rimanenti compensano la mancanza.

I segnali del tokenizer, come l'analisi di sovrapposizione del vocabolario e il vettore delle caratteristiche del tokenizer, vengono calcolati solo a scopo diagnostico e non influenzano il punteggio finale. Molti modelli addestrati indipendentemente condividono tokenizzatori, come StableLM e Pythia, che utilizzano entrambi il tokenizer GPT-NeoX. Se questi segnali influenzassero il punteggio, genererebbero falsi positivi.

Modalità di utilizzo e benchmark

Il kit è disponibile in due modalità. La modalità Compare produce un dettagliato confronto di similarità tra due modelli, mentre la modalità Scan confronta un singolo modello con un database di impronte digitali note per identificare potenziali origini.

Cisco ha rilasciato un database iniziale di impronte digitali che copre circa 150 modelli base tra 45 famiglie e 20 editori, con dimensioni che vanno da 135 milioni a oltre 70 miliardi di parametri.

Il kit è stato valutato su un benchmark composto da 111 coppie di modelli, di cui 55 simili e 56 dissimili. Il benchmark includeva casi complessi come la distillazione aggressiva, la quantizzazione in vari formati, il fine-tuning incrociato tra organizzazioni, la fusione LoRA e l'estensione del vocabolario per l'addestramento continuato.

Con una soglia di 0,70 su una scala da 0 a 1, il kit ha ottenuto un punteggio F1 di 0,963, un'accuratezza del 96,4%, una precisione del 98,1% e un richiamo del 94,6%. Ha identificato con successo derivati standard come il fine-tuning, la quantizzazione e l'allineamento con un richiamo del 100%, e ha gestito trappole come tokenizzatori condivisi con una specificità del 100%.

Solo quattro coppie su 111 sono state classificate erroneamente, tutte coinvolgenti trasformazioni architettoniche estreme, come la distillazione di un modello a 12 livelli con 768 dimensioni nascoste in uno a 4 livelli con dimensioni dimezzate.

Distribuzione e applicazioni

Il pipeline del Model Provenance Kit funziona su CPU e scala con le dimensioni del modello. I confronti architettonici vengono risolti in millisecondi, mentre le caratteristiche estratte vengono memorizzate nella cache per un riutilizzo efficiente.

Il toolkit è disponibile su GitHub, mentre il dataset di impronte digitali è pubblicato su Hugging Face. Questa soluzione rappresenta un passo significativo verso una maggiore trasparenza e sicurezza nella supply chain dei modelli AI, offrendo alle organizzazioni uno strumento affidabile per verificare l'origine e l'integrità dei modelli che utilizzano.

Implicazioni per la sicurezza e la conformità

Il Model Provenance Kit rappresenta uno strumento cruciale per affrontare le crescenti preoccupazioni riguardanti la sicurezza e la conformità normativa nell'uso dei modelli AI. La mancanza di informazioni sulla provenienza può esporre le organizzazioni a rischi significativi, come l'uso di modelli contaminati o vulnerabili che potrebbero trasmettere difetti ereditari a chatbot, applicazioni agenti e strumenti per i clienti. Questo strumento permette di identificare rapidamente modelli derivati da fonti non autorizzate, riducendo così il rischio di violazioni della sicurezza e di non conformità alle normative.

Vantaggi per le aziende

Per le aziende che integrano modelli AI nei loro sistemi operativi, il Model Provenance Kit offre numerosi vantaggi. In primo luogo, migliora la trasparenza, permettendo di verificare l'origine e l'integrità dei modelli utilizzati. Questo è particolarmente importante per le aziende che operano in settori regolamentati, dove la conformità alle normative è fondamentale. Inoltre, il kit facilita la gestione del rischio, identificando potenziali problemi di sicurezza prima che possano causare danni significativi.

Applicazioni pratiche

Il kit può essere utilizzato in vari contesti pratici. Ad esempio, le aziende possono utilizzarlo per verificare la provenienza dei modelli prima di integrarli nei loro sistemi, garantendo così che non siano derivati da fonti non autorizzate o che non rispettano le normative. Inoltre, può essere utilizzato per monitorare i modelli in uso, identificando eventuali modifiche non autorizzate che potrebbero compromettere la sicurezza o l'efficacia del modello.

Sfide e limitazioni

Nonostante i numerosi vantaggi, il Model Provenance Kit presenta alcune sfide e limitazioni. Ad esempio, la sua efficacia dipende dalla disponibilità di un database completo di impronte digitali. Attualmente, il database copre circa 150 modelli base, ma potrebbe non essere sufficientemente ampio per coprire tutti i modelli in uso. Inoltre, il kit potrebbe non essere in grado di gestire trasformazioni architettoniche estreme, come la distillazione aggressiva, che possono portare a classificazioni errate.

Prospettive future

Guardando al futuro, il Model Provenance Kit ha il potenziale per diventare uno strumento standard nell'industria AI. Man mano che il database di impronte digitali si espande e la tecnologia migliora, il kit potrebbe diventare ancora più accurato e affidabile. Inoltre, potrebbe essere integrato in altre piattaforme e strumenti di sicurezza, offrendo una soluzione completa per la gestione della sicurezza e della conformità nell'uso dei modelli AI. In conclusione, il Model Provenance Kit rappresenta un passo significativo verso una maggiore trasparenza e sicurezza nella supply chain dei modelli AI. Offrendo uno strumento affidabile per verificare l'origine e l'integrità dei modelli, aiuta le organizzazioni a mitigare i rischi di sicurezza e a garantire la conformità alle normative. Nonostante alcune sfide e limitazioni, il suo potenziale per migliorare la sicurezza e la gestione dei modelli AI è innegabile, rendendolo uno strumento prezioso per qualsiasi azienda che utilizza modelli AI nei suoi sistemi operativi.

Nota Editoriale e Disclaimer

Le guide e i contenuti pubblicati su GoYou sono frutto di attività di ricerca e analisi indipendente, a scopo informativo, educativo e di approfondimento.

GoYou non costituisce una testata giornalistica né un prodotto editoriale ai sensi della Legge n. 62/2001 e non svolge attività di informazione in tempo reale.

Il progetto GoYou non fornisce consulenza professionale, tecnica, legale o finanziaria e declina ogni responsabilità per l’uso improprio delle informazioni pubblicate.

Nel settore Crypto, ogni investimento comporta rischi: si invita il lettore a informarsi sempre in modo autonomo prima di assumere qualsiasi decisione.