Spark Optimization: A Column Recommendation System for Data Partitioning and Z-Ordering on ETL Platforms

dc.contributor.advisor	Esteves, Rui Paulo Maximo Pereira Mateus
dc.contributor.author	Jacobsen, Håvard Moe
dc.contributor.author	Flotve, Ola Andrè
dc.date.accessioned	2023-09-16T15:51:22Z
dc.date.available	2023-09-16T15:51:22Z
dc.date.issued	2023
dc.identifier	no.uis:inspera:129718883:50646236
dc.identifier.uri	https://hdl.handle.net/11250/3089848
dc.description.abstract	In this thesis, we present a solution for the challenge of optimizing the retrieval of data in Spark. Our column recommendation system is based on Spark's event logs and finds influential columns for Z-ordering and partitioning. The column recommendation system consists of four methods, each looking for different query patterns and query characteristics. From the recommendation system experiment, we managed to improve the run time by 17% compared to the baseline. This improvement demonstrates our column recommendation system's potential for optimizing data retrieval in Spark. Our system was developed on an ETL platform and is a flexible solution for ETL platforms utilizing Spark.
dc.description.abstract
dc.language	eng
dc.publisher	uis
dc.title	Spark Optimization: A Column Recommendation System for Data Partitioning and Z-Ordering on ETL Platforms
dc.type	Master thesis

Studentoppgaver (TN-IDE) [823]
Studentoppgaver i informasjonsteknologi, datateknikk / kybernetikk, signalbehandling