Non esistono parametri assoluti o numeri su cui basare calcoli. L’unica cosa certa è che i programmi di intelligenza artificiale, per essere sviluppati ed avere risultati ottimali, richiedono quantitativi impressionanti di dati.
Tutto dipende dalla complessità del problema, dal modello di IA utilizzato o che si voglia sviluppare e, ovviamente, dalla qualità dei dati stessi.
Possiamo provare a individuare alcune categorie per avere un'idea di massima di che cosa stiamo parlando e dei quantitativi di dat processati.
La classificazione di immagini, ad esempio, richiede migliaia o addirittura milioni di immagini per ottenere buone prestazioni, specialmente per reti neurali profonde. L’elaborazione del Linguaggio Naturale (NLP) o modelli come GPT (Generative Pre-trained Transformer) sono addestrati su miliardi di parole. Il Riconoscimento Vocale richiede ore e ore di dati audio etichettati.
Inoltre, sia per l’addestramento dei dati sia per le applicazioni in concreto si possono presentare per gli sviluppatori e i programmatori problemi più o meno complessi da risolvere. Alcuni possono essere risolti con meno dati come, ad esempio, una semplice classificazione binaria richiede meno dati rispetto a una classificazione multiclasse.
Per saperne di più > AI e Carenza Dati Personali: dalla raccolta alla profilazione un problema non solo etico
La creazione di un sistema di guida autonoma richiede milioni di chilometri di dati di guida.
Alcuni modelli tradizionali conosciuti ( SVM, Logistic Regression) possono funzionare bene con meno dati se le caratteristiche sono ben definite mentre le Reti Neurali Profonde richiedono grandi quantità di dati per evitare overfitting e migliorare le prestazioni.
In ogni caso la qualità dei dati è fondamentale.
Disporre di elementi puliti e ben etichettati può ridurre la quantità di dati necessari e, ricordiamo, i dati di alta qualità migliorano l'accuratezza del modello mentre dati rumorosi o non etichettati possono richiedere una complessa pre-elaborazione e tecniche di data augmentation per essere utilizzabili.
I problemi sono tecnici e soltanto chi vi lavora può conoscere compiutamente le criticità e le casistiche ma, in ogni caso, il punto di partenza è la disponibilità di quantitativi di dati che possono essere impressionanti.
Potrebbe interessarti > La portata dell'AI Act
Ed ovviamente si tratta di dati che devono non solo essere acquisiti legalmente, ma anche utilizzati portando a conoscenza gli interessati dei processi a cui vengono sottoposti ai fini della prestazione di un consenso consapevole e formatosi liberamente su quegli specifici trattamenti.
Si tratta quindi, mai come in questo caso, di predisporre informative che, oltre ad indicare compiutamente la base giuridica del trattamento, l’assoluta chiarezza e trasparenza sui processi automatizzati e gli eventuali trasferimenti a terze parti che, a loro volta, dovranno offrire le stesse misure di sicurezza e protezione del dato del titolare.
Da ciò emerge come nella catena della privacy per il trattamento dei dati per sviluppare soluzioni di intelligenza artificiale, la creazione di una privacy policy e la gestione del dato sono aspetti estremamente delicati e cruciali. La privacy policy. infatti, non è semplicemente un documento formale, ma diviene un vero e proprio impegno concreto verso la trasparenza e la protezione dei dati degli utenti. Redigere una privacy policy efficace richiede una comprensione approfondita delle normative vigenti, come il GDPR e il recente AI Act, e una capacità di comunicare chiaramente agli utenti come i loro dati saranno raccolti, utilizzati, conservati e protetti.
Cosa ne pensi? > La Rivoluzione Digitale: il Capitalismo dei Dati Personali
Tutto ciò implica anche una serie di pratiche operative che devono essere meticolosamente implementate per garantire che ogni fase del trattamento sia conforme agli standard di sicurezza e privacy. Questo include anche l'adozione di misure tecniche e organizzative per la protezione da accessi non autorizzati, perdite o violazioni, e l'adozione di tecniche come l'anonimizzazione e la pseudonimizzazione per minimizzare i rischi associati.
La gestione di queste attività comporta anche la responsabilità di mantenere un registro dettagliato delle attività, effettuare valutazioni d'impatto quando necessario e garantire che i dati siano trasferiti in modo sicuro, specialmente quando si tratta di trasferimenti internazionali.
In questo scenario, qualsiasi compromesso nella protezione dei dati può non solo violare le normative legali, ma anche erodere la fiducia degli utenti e danneggiare la reputazione dell'organizzazione.
Pertanto, una gestione accurata e responsabile dei dati, sostenuta da una privacy policy chiara e completa, è fondamentale per il successo e l'integrità di qualsiasi progetto di intelligenza artificiale.