Oltrepassare le metriche tradizionali: allineare le valutazioni offline con gli indicatori di performance reali
Nel campo della previsione della domanda, un modello di un rivenditore ha dimostrato risultati impressionanti offline, ma ha fallito quando si trattava di miglioramenti online, a causa di un problema noto come disallineamento della proxy. Questo problema è stato affrontato da Madhura Raut, un Principal Data Scientist di Workday, che guida la progettazione di sistemi di machine learning su larga scala per la previsione della domanda di lavoro.
Il nocciolo della questione sta nell'identificare i quadri di valutazione offline ottimali e le metriche che possono prevedere il successo online. I modelli di Machine Learning (ML), pur funzionando bene offline, spesso falliscono in produzione a causa di differenze come distribuzioni dei dati cambianti, complessità di integrazione e variazioni dell'ambiente che non vengono tenute in conto nei test offline. Questi modelli spesso incontrano condizioni reali impreviste, dati in evoluzione e sfide operative che possono erodere le loro prestazioni al di fuori degli ambienti offline controllati.
Per affrontare questo problema, il team di Madhura ha adottato un approccio strategico. Hanno ridefinito il loro quadro di valutazione, optando per una metrica personalizzata ponderata per l'azienda che penalizza di più la sotto-previsione per i prodotti in tendenza e tiene traccia degli esaurimenti di scorte. Questo cambiamento mirava a colmare il divario tra le prestazioni offline e online.
Un altro metodo utilizzato è stato l'uso di alcune tecniche nei sistemi di raccomandazione, come i simulatori di banditi e la valutazione controfattuale, che hanno aiutato a ridurre il divario online-offline. Inoltre, sono state analizzate le esperienze passate per scoprire quali metriche offline erano correlate ai risultati online di successo.
In sintesi, le metriche offline agiscono come prove generali per una prova di ballo, mentre le metriche online misurano le reazioni effettive del pubblico e il valore per l'azienda. Capendo questa distinzione, i data scientist possono cercare di creare modelli che funzionano in modo coerente in entrambi gli ambienti.
È importante notare che Madhura Raut non è un'estranea alla comunità dei data scientist. Ha tenuto discorsi chiave in numerosi prestigiosi convegni di data science e ha servito come giudice e mentore per numerosi hackathon codecrunch. La sua esperienza e le sue strategie innovative continuano a plasmare il futuro della previsione della domanda e dell'apprendimento automatico.
Infine, è fondamentale ricordare che anche dopo il deployment, i modelli devono essere monitorati attentamente per garantire che la discrepanza non si riapra silenziosamente. Il monitoraggio e l'adattamento continuo sono fondamentali per mantenere l'accuratezza e l'efficacia di questi modelli nel panorama digitale in continua evoluzione.
Leggi anche:
- La pioggia ha interrotto il primo incontro di Trump con i leader tecnologici nel Rose Garden, dopo la sua decisione di pavimentare il prato bagnato per ridurre al minimo i potenziali problemi meteorologici.
- Scoperte scientifiche portano all'identificazione della scintilla primordiale della vita
- 'Le regine sessualmente riproduttive delle formiche parassitarie costringono le colonie catturate a produrre figli clonati per scopi di lavoro'
- La centrale solare di PowerBank, con una capacità di 3,79 megawatt, opera attivamente a Geddes, segnando l'inizio di una nuova strategia di tesoreria Bitcoin.