Salta al contenuto

Interrogazioni accelerate di database Python attraverso piattaforma innovativa di scienza dei dati

Interrogazioni Python che causano rallentamenti su piattaforme di analisi dei dati, ma una nuova piattaforma creata da ricercatori di Brown e MIT promette di risolvere il problema dell'efficienza di Python.

Piattaforma migliorata per la scienza dei dati accelera l'elaborazione delle query in Python
Piattaforma migliorata per la scienza dei dati accelera l'elaborazione delle query in Python

Interrogazioni accelerate di database Python attraverso piattaforma innovativa di scienza dei dati

In una svolta innovativa, i ricercatori di Brown University, MIT, dell'Università di Waterloo e dell'EPFL (École Polytechnique Fédérale de Lausanne) hanno presentato un nuovo framework di scienza dei dati chiamato Tuplex. Questo strumento innovativo, presentato al SIGMOD 2021, un'importante conferenza sul trattamento dei dati, promette di aumentare significativamente la produttività dei data scientist.

Tuplex elabora le query sui dati scritti in Python fino a 90 volte più velocemente dei sistemi di elaborazione dei dati standard dell'industria come Apache Spark o Dask. Questa velocità può ridurre i tempi di attesa per un output da 10 minuti a un solo secondo, secondo i ricercatori.

Il segreto delle prestazioni fulminee di Tuplex risiede nel suo metodo di elaborazione dei dati unico, chiamato elaborazione a doppio caso. Questo metodo suddivide i dati in due casi, semplificando il problema di compilazione preoccupandosi solo di un unico insieme di tipi di dati e di assunzioni di caso comune.

Uno dei principali vantaggi di Tuplex è la sua capacità di gestire i dati anomali in modo efficace. Invece di causare crash del programma, Tuplex mette da parte questi dati, offrendo un nuovo modo di gestire i dati imprevisti. Gli utenti hanno la possibilità di riparare i dati anomali dopo l'esecuzione del programma.

In Tuplex, Python, il linguaggio di programmazione principale utilizzato dai data scientist, non viene compilato in anticipo. Tuttavia, Tuplex compensa compilando un programma altamente specializzato per la query specifica e i dati di input del caso comune, mentre i dati di input insoliti vengono inviati a un interprete.

Lo sviluppo di Tuplex è stato sostenuto dal National Science Foundation (DGE-2039354, IIS-1453171) e dalla U.S. Air Force (FA8750-19-2-1000). Un recente sondaggio ha mostrato che il 66% degli utenti delle piattaforme dei dati utilizza Python come linguaggio principale, sottolineando l'importanza di Tuplex nella comunità della scienza dei dati.

Inoltre, l'elaborazione a doppio caso di Tuplex consente una alta produttività e una velocità di esecuzione rapida. Le funzioni definite dall'utente (UDFs) nella scienza dei dati, che specificano la logica personalizzata come l'estrazione del numero di camere da letto dal testo di un annuncio immobiliare per una query che cerca tutti gli annunci immobiliari negli Stati Uniti e seleziona quelli con tre camere da letto, traggono grande beneficio dall'efficienza di Tuplex.

Malte Schwarzkopf, professore associato di scienza

Leggi anche:

Più recente