Scopriamo cos’è la durabilità del dato, quanto è rilevante nel Data management e come può essere garantita da un’infrastruttura Cloud
In un contesto come quello attuale in cui i processi decisionali delle organizzazioni sono sempre più Data Driven, la disponibilità e l’accessibilità delle informazioni diventano dei fattori fondamentali per massimizzare la produttività, automatizzare i task e ottimizzare i flussi di lavoro. Questa considerazione ci permette di introdurre il concetto di durabilità del dato che nel Data management fa riferimento alle misure necessarie per assicurare l’integrità e la permanenza dei dati nel corso del tempo. La durabilità del dato è un aspetto di vitale importanza soprattutto per le applicazioni che gestiscono informazioni critiche o sensibili. Cioè quando è necessario adottare strumenti e soluzioni con cui proteggere i dati da qualsiasi evento ne possa causare l’alterazione inattesa, la corruzione, la perdita o l’obsolescenza.
Guasti del sistema, bug software, errori umani, disastri naturali, interruzioni di servizio o malfunzionamenti a carico dell’hardware sono solo alcuni degli incidenti che possono determinare l’inaccessibilità o l’indisponibilità dei dati.
Titolo call form..
Cosa rende un dato “durabile” nel contesto di un’infrastruttura tecnica?
Definizione e importanza della durabilità del dato
Con la definizione di durabilità del dato ci si riferisce in primo luogo alla capacità di garantire la sicurezza e l’invariabilità nel tempo delle informazioni raccolte e gestite da un’organizzazione.
Il fatto che un dato “durabile” sia anche un dato “invariabile” non significa naturalmente che esso non possa essere analizzato, elaborato o aggiornato. Devono essere però evitate tutte le eventualità che potrebbero portare ad una sua manomissione. Ciò è particolarmente importante in applicazioni come i sistemi di archiviazione legale, la Blockchain o in ambiti di compliance, dove si deve garantire che i dati non siano stati alterati. Ecco perché i sistemi che gestiscono dati inalterabili utilizzano spesso soluzioni come gli hash crittografici e le firme digitali per certificarne l’integrità.
Durabilità e reversibilità del dato
A questo proposito è utile ricordare come il concetto di durabilità del dato sia fortemente connesso a quello di reversibilità del dato. Esso fa riferimento alla possibilità di riportare un dato al suo stato originale dopo che è stato elaborato o modificato. La reversibilità del dato è quindi particolarmente rilevante nell’ambito del Data Management perché consente di invertire o annullare operazioni eseguite a carico dei dati.
Un esempio di reversibilità del dato viene fornito dalla crittografia, in quanto un’informazione criptata può essere decifrata e riportata allo stato originale tramite l’utilizzo di una chiave. Nel Machine Learning, invece, la reversibilità può riferirsi alla capacità di ricostruire i dati di input a partire dagli output restituiti da un modello. Lo stesso discorso potrebbe essere fatto per le attività di versionig, con le quali vengono tracciate tutte le modifiche subite da un progetto, o per il rollback dei database transazionali, con la possibilità di annullare le modifiche apportate da una transazione che non sia stata portata a termine con successo.
Anche la reversibilità rappresenta quindi una caratteristica rilevante per la durabilità del dato. Il fatto di poter accedere al contenuto originale di un’informazione ne garantisce infatti la conservazione nel tempo.
Tecnologie e strategie per la durabilità del dato
La durabilità del dato viene garantita da diverse soluzioni che vanno dalla scelta del supporto di archiviazione più adatto ai sistemi di backup e ridondanza. Dalla gestione del ciclo di vita dei dati ai meccanismi per le verifiche di integrità. Tali misure possono essere implementate all’interno di un’infrastruttura on-premise, quindi localmente nel contesto di un’organizzazione, o tramite sistemi di archiviazione distribuiti e soluzioni Cloud based.
Nel primo caso tutta la complessità dell’infrastruttura viene gestita internamente. Si può scegliere tra SSD, NVMe o nastri magnetici per l’archiviazione di breve o lunga durata. Si può puntare su configurazioni RAID per prevenire perdite di dati. Si possono pianificare migrazioni periodiche e scegliere formati con cui prevenire l’obsolescenza dei dati. Ci si può occupare dei controlli di integrità tramite checksum e hash così come delle strategie di Data Recovery e Disaster Recovery. Tutti gli oneri relativi a mantenimento, aggiornamento, monitoraggio, continuità di servizio e sicurezza sono però a carico dell’organizzazione.
Durabilità del dato e infrastrutture Cloud
Rispetto alle configurazioni on-premise, le infrastrutture Cloud consentono di focalizzarsi sui processi di business più legati al Data management e alla conversione dei dati in valore.
Abbiamo già parlato di archiviazione, backup, ridondanza, data lifecycle management e controlli di integrità. Tutti aspetti che nel caso delle infrastrutture Cloud possono essere gestiti conciliando l’ottimizzazione e la scalabilità delle risorse con la durabilità dei dati. Vi sono però altri elementi che rendono questo tipo di soluzioni vantaggiose rispetto alle implementazioni in-house.
Replicazione dei dati in Cloud
Un primo beneficio è offerto ad esempio dalla replicazione de dati, grazie alla quale un servizio Cloud replica le informazioni archiviate in più Data Center collocati in aree geografiche differenti. Essa garantisce quindi che, in caso di guasti, disastri o calamità, i dati rimangano sempre accessibili e disponibili.
Normative e compliance
Un secondo aspetto di cui tenere conto è quello legato alla conformità dei sistemi di archiviazione, trattamento e protezione dei dati alla legislazione vigente. In ambito europeo, ad esempio, il GDPR (General Data Protection Regulation) prevede dei requisiti di compliance molto stringenti e sanzioni altrettanto severe in caso di violazioni. Anche in questo caso operare unicamente in locale potrebbe risultare complesso e dispendioso.
Quante aziende rinunciano ad archiviare alcuni dati riservati dei propri utenti, come per esempio i numeri di carta di credito, per via di limiti legati alla propria infrastruttura?
In quanti casi un’organizzazione si trova davanti all’onere di dover garantire il rispetto di standard internazionali e normative settoriali?
Rapporto costo-efficienza del Cloud
Un terzo aspetto di importanza rilevante riguarda il rapporto tra costo ed efficienza garantito dal Cloud. I modelli di tariffazione pay-per-use o pay-as-you-go consentono infatti di pagare esclusivamente per le risorse (spazio di archiviazione, CPU, memoria RAM) effettivamente utilizzate. Questo si traduce nella possibilità di scalare le risorse per fronteggiare picchi di traffico periodici o imprevisti, senza doverle preventivare con precisione e acquistarle in anticipo.