Salta al contenuto

Controllo delle spese di archiviazione cloud per applicazioni di dati su larga scala

nell'era dell'uso intensivo dei dati, le moderne imprese si affidano sempre più a sistemi di memorizzazione dati potenti e scalabili. Molte aziende scelgono servizi di memorizzazione cloud come Amazon S3, Google Cloud Storage e Azure Blob Storage, tutti quelli che offrono caratteristiche robuste.

Controllo delle Spese per il Magazzinaggio Cloud in Applicazioni di Dati su Grande Scala
Controllo delle Spese per il Magazzinaggio Cloud in Applicazioni di Dati su Grande Scala

Controllo delle spese di archiviazione cloud per applicazioni di dati su larga scala

Nel dominio delle applicazioni di grandi dati basate su cloud, comprendere i costi associati alle diverse attività è cruciale per ottimizzare l'uso delle risorse e minimizzare le spese. Un componente dei costi che merita una particolare attenzione è la voce "Richiami & Recuperi Dati" della strategia di prezzo di Amazon S3.

Per quanto riguarda il trasferimento dei dati, Amazon S3 consiglia di utilizzare il caricamento multipart per i file superiori a 100 MB. Tuttavia, l'impatto dell'aumento della dimensione del chunk multipart o della disabilitazione del trasferimento dei dati multipart in generale sull'esecuzione dell'applicazione potrebbe essere minimo.

Per impostazione predefinita, le API S3 di Boto3 come e applicano il caricamento/scaricamento multipart con una dimensione del chunk di 8 MB per qualsiasi file superiore a 8 MB. Molte API, inclusa Boto3, utilizzano il scaricamento multipart per impostazione predefinita.

Tuttavia, una configurazione appropriata delle impostazioni del trasferimento dei dati multipart può portare a ulteriori risparmi sui costi. Ad esempio, raggruppare i campioni di dati in file più grandi e eseguire le trasformazioni sui batch di campioni può ridurre significativamente i costi delle chiamate API.

Un semplice dataset PyTorch dimostra questa tecnica, utilizzando l'API Boto3 per estrarre campioni individuali di 1 MB da file di grandi dimensioni di campioni raggruppati. Questo approccio può risparmiare denaro sulle chiamate PUT e GET, nonché su altri componenti dei costi di Amazon S3 che dipendono dal numero di file oggetto piuttosto che dalla dimensione complessiva dei dati.

Una soluzione di compromesso consiste nel caricare file di grandi dimensioni con campioni raggruppati mentre si abilita l'accesso ai campioni individuali attraverso un file indice e uno strato API sottile. Questa tecnica può comportare un notevole risparmio sui costi delle chiamate API.

Ad esempio, l'utilizzo di una dimensione del chunk multipart di 500 MB ha comportato un risparmio sui costi fino al 98,4% rispetto alla dimensione del chunk predefinita di Boto3, come dimostrato nella tabella seguente:

Tuttavia, l'ottimizzazione di un solo componente dei costi potrebbe aumentare involontariamente altri componenti in modo da aumentare il costo complessivo. Un progetto appropriato per il tuo archiviazione dei dati dovrà tenere conto di tutti i possibili fattori di costo e dipenderà in gran parte dalle tue esigenze e modelli di utilizzo dei dati specifici.

Le aziende moderne si basano pesantemente sulle soluzioni di archiviazione dei dati basate su cloud come Amazon S3, Google Cloud Storage e Azure Blob Storage. Comprendere le sfumature di questi servizi e i loro costi associati è essenziale per lo sviluppo di applicazioni di grandi dati economiche.

Leggi anche:

Più recente