Day 1 (July 3rd, 2025)
|
Time |
Event |
8:00 - 8:30am |
Registration
|
8:30 - 10:00am |
Session 1: "Graphs & Knowledge Management"
Chair: Yannis Vassiliou
|
8:30 - 8:48am |
Danae Pla Karidi (Archimedes, Athena Research Center)*;
Evaggelia Pitoura (University of Ioannina and Archimedes,
Athena Research Center)
Danae Pla Karidi (Archimedes, Athena Research Center)*;
Evaggelia Pitoura (University of Ioannina and Archimedes,
Athena Research Center)
Click to display the abstract
Abstract:
Path-based explanations provide intrinsic insights into
graph-based recommendation models. However, most
previous work has focused on explaining an individual
recommendation of an item to a user. In this paper, we
propose summary explanations, i.e., explanations that
highlight why a user or a group of users receive a set
of item recommendations and why an item, or a group of
items, is recommended to a set of users as an effective
means to provide insights into the collective behavior
of the recommender. We also present a novel method to
summarize explanations using efficient graph algorithms,
specifically the Steiner Tree and the Prize-Collecting
Steiner Tree. Our approach reduces the size and
complexity of summary explanations while preserving
essential information, making explanations more
comprehensible for users and more useful to model
developers. Evaluations across multiple metrics
demonstrate that our summaries outperform baseline
explanation methods in most scenarios, in a variety of
quality aspects.
Περίληψη:
Οι επεξηγήσεις βασισμένες σε μονοπάτια παρέχουν εγγενή
κατανόηση των μοντέλων συστάσεων που στηρίζονται σε
γράφους. Ωστόσο, η μέχρι σήμερα έρευνα εστιάζει κυρίως
στην επεξήγηση μιας μεμονωμένης σύστασης αντικειμένου σε
έναν χρήστη. Στην παρούσα εργασία προτείνουμε τις
συνοπτικές επεξηγήσεις: επεξηγήσεις που αναδεικνύουν
γιατί ένας χρήστης ή μια ομάδα χρηστών λαμβάνει ένα
σύνολο συστάσεων αντικειμένων, καθώς και γιατί ένα
αντικείμενο ή μια ομάδα αντικειμένων προτείνεται σε ένα
σύνολο χρηστών, παρέχοντας έτσι βαθύτερη εικόνα για τη
συλλογική συμπεριφορά του συστήματος συστάσεων.
Επιπρόσθετα, παρουσιάζουμε μια καινοτόμο μέθοδο σύνοψης
επεξηγήσεων με τη χρήση αποδοτικών αλγορίθμων γράφων,
συγκεκριμένα του Steiner Tree και του Prize-Collecting
Steiner Tree. Η προσέγγισή μας μειώνει το μέγεθος και
την πολυπλοκότητα των συνοπτικών επεξηγήσεων,
διατηρώντας τις ουσιώδεις πληροφορίες, καθιστώντας τις
πιο κατανοητές για τους χρήστες και πιο χρήσιμες για
τους δημιουργούς των μοντέλων. Πειραματικές αξιολογήσεις
με πολλαπλές μετρικές δείχνουν ότι οι προτεινόμενες
συνόψεις μας υπερτερούν των βασικών μεθόδων επεξήγησης
στην πλειονότητα των σεναρίων και σε ποικίλες μετρικές
ποιότητας.
|
8:48 - 9:06am |
Haridimos Kondylakis (FORTH-ICS & Computer Science
Department, University of Crete)*
Click to display the abstract
Abstract: The exact evaluation of queries over
knowledge graphs encoded as RDF data has been extensively
studied. However, in a wide array of applications, RDF
queries do not even terminate, due to performance reasons.
Notably, queries on public SPARQL endpoints are oftentimes
timed out without returning any results. To address this,
we propose a novel solution to the problem of progressive
query answering and introduce the PING system that
implements it on top of SPARK. In our approach, graph
query answering leverages a hierarchical structure, which
facilitates effective data partitioning, thus allowing us
to reduce the sizes of intermediate results and return
progressive answers. Moreover, it allows the RDF query
evaluation algorithms to directly locate and access the
different hierarchy levels required for query answering.
Navigating through the hierarchy levels allows expanding
or shrinking query results at different granularities. The
extensive experimental study on real-world graph datasets,
with varied query workloads, shows PING’s effectiveness
and efficiency, on both exact and progressive query
answering, and its superiority to the most relevant
baselines.
|
9:06 - 9:24am |
Evangelia Tsoukanara (University of Macedonia); Georgia
Koloniari (University of Macedonia)*; Evaggelia Pitoura
(University of Ioannina); Peter Triantafillou (University
of Warwick)
Evangelia Tsoukanara (University of Macedonia); Georgia
Koloniari (University of Macedonia)*; Evaggelia Pitoura
(University of Ioannina); Peter Triantafillou (University
of Warwick)
Click to display the abstract
Abstract:
When the focus is on the relationships or interactions
between entities, graphs offer an intuitive model for
many real-world data. Such graphs are usually large and
change over time, thus, requiring models and strategies
that explore their evolution. We study the evolution of
aggregate graphs and introduce the GraphTempo model that
allows temporal and graph aggregation not only on node
level by grouping individual nodes, but on a pattern
level as well, where subgraphs are grouped together.
Furthermore, we propose an efficient strategy for
exploring the evolution of the graph based on
identifying time intervals of significant growth,
shrinkage, or stability. Finally, we evaluate the
efficiency and effectiveness of the proposed approach
using four real graphs.
Περίληψη:
Όταν εστιάζουμε στις σχέσεις ή τις αλληλεπιδράσεις
μεταξύ οντοτήτων, οι γράφοι προσφέρουν ένα διαισθητικό
μοντέλο για πολλά δεδομένα του πραγματικού κόσμου.
Τέτοιοι γράφοι είναι συνήθως μεγάλοι και αλλάζουν με το
χρόνο, απαιτώντας, επομένως, μοντέλα και στρατηγικές που
εξερευνούν την εξέλιξή τους. Μελετάμε την εξέλιξη
συγκεντρωτικών γράφων και προτείνουμε το μοντέλο
GraphTempo το οποίο επιτρέπει χρονική συνάθροιση και
συνάθροιση γράφου όχι μόνο σε επίπεδο κόμβου με την
ομαδοποίηση των κόμβων του γράφου, αλλά και σε επίπεδο
προτύπου, όπου υπογράφοι ομαδοποιούνται μαζί. Επιπλέον,
προτείνουμε μια αποδοτική στρατηγική για την εξερεύνηση
της εξέλιξης του γράφου βασισμένη στον προσδιορισμό
χρονικών διαστημάτων σημαντικής ανάπτυξης, μείωσης ή
σταθερότητας. Τέλος, αποτιμούμε την απόδοση και την
αποτελεσματικότητα της προτεινόμενης προσέγγισης
χρησιμοποιώντας τέσσερις πραγματικούς γράφους.
|
9:24 - 9:42am |
Panos Vassiliadis (University of Ioannina ); Alexandros
Karakasidis (University of Macedonia)*
Panos Vassiliadis (University of Ioannina ); Alexandros
Karakasidis (University of Macedonia)*
Click to display the abstract
Abstract:
This paper presents a set of patterns on how schema
evolution takes place over time in Free Open-Source
Systems that are built on top of relational databases.
To come up with these timing patterns, we have studied
151 projects of a public dataset of schema histories,
with duration more than 12 months. The eight timing
patterns of schema evolution are largely grouped in 3
families: (a) the family of limited and focused-in-time
change, whose members differ only on when the change
happens (early, middle or late life of a project), (b)
the family of regular updates, whose members differ in
the frequency of change, and (c) the family of middle or
late initiation of change, whose members differ in the
initiation of schema maintenance as well as the
frequency of change.
Περίληψη:
Αυτή η εργασία παρουσιάζει ένα σύνολο μοτίβων σχετικά με
το πώς η εξέλιξη των σχημάτων βάσεων δεδομένων λαμβάνει
χώρα με την πάροδο του χρόνου σε Συστήματα Ελεύθερου και
Ανοικτού Κώδικα που είναι υλοποιημένα πάνω σε σχεσιακές
βάσεις δεδομένων. Για να καταλήξουμε σε αυτά τα μοτίβα
χρονισμού, έχουμε μελετήσει ένα δημόσια διαθέσιμο σύνολο
δεδομένων με την ιστορική εξέλιξη 151 σχεσιακών
σχημάτων, με διάρκεια μεγαλύτερη των 12 μηνών. Τα οκτώ
μοτίβα χρονισμού της εξέλιξης των σχημάτων
ομαδοποιούνται σε μεγάλο βαθμό σε 3 οικογένειες: (α) την
οικογένεια περιορισμένης και εστιασμένης στο χρόνο
αλλαγής, τα μέλη της οποίας διαφέρουν μόνο ως προς το
πότε συμβαίνει η αλλαγή (πρώιμη, μέση ή ύστερη ζωή ενός
έργου), (β) την οικογένεια τακτικών ενημερώσεων, τα μέλη
της οποίας διαφέρουν ως προς τη συχνότητα αλλαγής και
(γ) την οικογένεια μέσης ή ύστερης έναρξης αλλαγής, τα
μέλη της οποίας διαφέρουν ως προς την έναρξη της
συντήρησης του σχήματος καθώς και ως προς τη συχνότητα
αλλαγής του.
|
9:42 - 10:00am |
guozhong Li (KAUST); Muhannad Alhumaidi (KAUST)*; Spiros
Skiadopoulos (UOP); Ibrahim Hoteit (KAUST); Panos Kalnis
(KAUST)
guozhong Li (KAUST); Muhannad Alhumaidi (KAUST)*; Spiros
Skiadopoulos (UOP); Ibrahim Hoteit (KAUST); Panos Kalnis
(KAUST)
Click to display the abstract
Abstract:
The generation of voluminous scientific data poses
significant challenges for efficient storage, transfer,
and analysis. Recently, error-bounded lossy compression
methods emerged due to their ability to achieve high
compression ratios while controlling data distortion.
However, they often overlook the inherent spatial and
temporal correlations within scientific data, thus
missing opportunities for higher compression. In this
paper we propose GRAPHCOMP, a novel graph-based method
for error-bounded lossy compression of scientific data.
We perform irregular segmentation of the original grid
data and generate a graph representation that preserves
the spatial and temporal correlations. Inspired by Graph
Neural Networks (GNNs), we then propose a temporal graph
autoencoder to learn latent representations that
significantly reduce the size of the graph, effectively
compressing the original data. Decompression reverses
the process and utilizes the learnt graph model together
with the latent representation to reconstruct an
approximation of the original data. The decompressed
data are guaranteed to satisfy a user-defined point-wise
error bound. We compare our method against the
state-of-the-art error-bounded lossy methods (i.e.,
HPEZ, SZ3.1, SPERR, and ZFP) on large-scale real and
synthetic data. GRAPHCOMP consistently achieves the
highest compression ratio across most datasets,
outperforming the second-best method by margins ranging
from 22% to 50%.
Περίληψη:
Η παραγωγή μεγάλου όγκου επιστημονικών δεδομένων θέτει
σημαντικές προκλήσεις για την αποτελεσματική αποθήκευση,
μεταφορά και ανάλυση. Υπάρχουσες μέθοδοι συμπίεσης με
απώλειες, επιτυγχάνουν υψηλούς λόγους συμπίεσης,
ελέγχοντας παράλληλα την παραμόρφωση των δεδομένων.
Ωστόσο, συχνά παραβλέπουν τις εγγενείς χωρικές και
χρονικές συσχετίσεις των επιστημονικών δεδομένων,
χάνοντας έτσι ευκαιρίες για υψηλότερη συμπίεση. Σε αυτή
την εργασία προτείνουμε το GRAPHCOMP, μια νέα μέθοδο
βασισμένη σε γράφους για συμπίεση επιστημονικών
δεδομένων με απώλειες με όρια σφάλματος. Αρχικά τα
δεδομένα διαιρούνται σε μικρές σχετικά ομογενείς
περιοχές που αναπαρίστανται από ένα γράφο ο οποίος
διατηρεί τις χωρικές και χρονικές συσχετίσεις.
Εμπνευσμένοι από τα Νευρωνικά Δίκτυα Γράφων (GNN),
προτείνουμε στη συνέχεια έναν χρονικό αυτόματο
κωδικοποιητή γραφήματος (temporal graph autoencoder) για
την εκμάθηση λανθανουσών αναπαραστάσεων που μειώνουν
σημαντικά το μέγεθος του γραφήματος, συμπιέζοντας
αποτελεσματικά τα αρχικά δεδομένα. Η αποσυμπίεση
αντιστρέφει τη διαδικασία και χρησιμοποιεί το εκμαθημένο
μοντέλο του γράφου μαζί με την λανθάνουσα αναπαράσταση
για να ανακατασκευάσει μια προσέγγιση των αρχικών
δεδομένων. Τα αποσυμπιεσμένα δεδομένα είναι εγγυημένα
ότι ικανοποιούν ένα όριο σφάλματος ανά σημείο που
ορίζεται από τον χρήστη. Συγκρίνουμε τη μέθοδό μας με
τις πιο σύγχρονες μεθόδους με απώλειες και περιορισμό
σφάλματος (HPEZ, SZ3.1, SPERR και ZFP) σε πραγματικά και
συνθετικά δεδομένα μεγάλης κλίμακας. Το GRAPHCOMP
επιτυγχάνει σταθερά τον υψηλότερο λόγο συμπίεσης στα
περισσότερα σύνολα δεδομένων, ξεπερνώντας τη δεύτερη
καλύτερη μέθοδο με περιθώρια που κυμαίνονται από 22% έως
50%.
|
10:00 - 10:30am |
Coffee Break |
10:30 - 12:00pm |
Session 2: "Systems" Chair: Panos Chrysanthis
|
10:30 - 10:48am |
Xenofon Chatziliadis (Technische Universität Berlin)*;
Eleni Tzirita Zacharatou (Hasso Plattner Institute);
Alphan Eracar (Technische Universität Berlin); Steffen
Zeuch (Technische Universität Berlin); Volker Markl
(Technische Universität Berlin)
Xenofon Chatziliadis (Technische Universität Berlin)*;
Eleni Tzirita Zacharatou (Hasso Plattner Institute);
Alphan Eracar (Technische Universität Berlin); Steffen
Zeuch (Technische Universität Berlin); Volker Markl
(Technische Universität Berlin)
Click to display the abstract
Abstract:
A recent trend in stream processing is offloading the
computation of decomposable aggregation functions (DAF)
from cloud nodes to geo-distributed fog/edge devices to
decrease latency and improve energy efficiency. However,
deploying DAFs on low-end devices is challenging due to
their volatility and limited resources. Addi- tionally,
in geo-distributed fog/edge environments, creating new
operator instances on demand and replicating operators
ubiqui- tously is restricted, posing challenges for
achieving load balancing without overloading devices.
Existing work predominantly focuses on cloud
environments, overlooking DAF operator placement in
resource-constrained and unreliable geo-distributed
settings. This paper presents NEMO, a resource-aware
optimization ap- proach that determines the replication
factor and placement of DAF operators in
resource-constrained geo-distributed topologies.
Leveraging Euclidean embeddings of network topologies
and a set of heuristics, NEMO scales to millions of
nodes and handles topo- logical changes through adaptive
re-placement and re-replication decisions. Compared to
existing solutions, NEMO achieves up to 6× lower latency
and up to 15× reduction in communication cost, while
preventing overloaded nodes. Moreover, NEMO re-optimizes
placements in constant time, regardless of the topology
size. As a result, it lays the foundation to efficiently
process continuous data streams on large, heterogeneous,
and geo-distributed topologies.
Περίληψη:
Μια πρόσφατη τάση στην επεξεργασία ροών δεδομένων είναι
η εκφόρτωση του υπολογισμού αποσυνθέσιμων συναρτήσεων
συνάθροισης (ΑΣΣ) από κόμβους του cloud σε γεωγραφικά
κατανεμημένες συσκευές fog/edge, με στόχο τη μείωση της
καθυστέρησης και τη βελτίωση της ενεργειακής απόδοσης.
Ωστόσο, η ανάθεση ΑΣΣ σε συσκευές χαμηλών δυνατοτήτων
είναι δύσκολη λόγω της αστάθειας και των περιορισμένων
πόρων τους. Επιπλέον, στα γεωγραφικά κατανεμημένα
περιβάλλοντα fog/edge, η δημιουργία νέων στιγμιότυπων
χειριστών ροών δεδομένων κατά απαίτηση και η αναπαραγωγή
των χειριστών είναι περιορισμένες, γεγονός που
δημιουργεί σημαντικές δυσκολίες για την επίτευξη
ισοκατανομής φορτίου χωρίς υπερφόρτωση των συσκευών. Η
υπάρχουσα έρευνα επικεντρώνεται κυρίως σε περιβάλλοντα
cloud, παραμελώντας την τοποθέτηση τελεστών ΑΣΣ σε
περιορισμένους και μη αξιόπιστους γεωκατανεμημένους
πόρους. Αυτό το άρθρο παρουσιάζει το NEMO, μια μέθοδο
βελτιστοποίησης με επίγνωση των πόρων, που καθορίζει τον
συντελεστή αναπαραγωγής και την τοποθέτηση των τελεστών
ΑΣΣ σε γεωγραφικά κατανεμημένες τοπολογίες με
περιορισμένους πόρους. Εκμεταλλευόμενο Ευκλείδειες
ενσωματώσεις των τοπολογιών δικτύου και ένα σύνολο
ευρετικών, το NEMO κλιμακώνεται σε εκατομμύρια κόμβους
και διαχειρίζεται τις αλλαγές τοπολογίας μέσω
προσαρμοστικών αποφάσεων επανατοποθέτησης και
επαναναπαραγωγής. Σε σύγκριση με υπάρχουσες λύσεις, το
NEMO επιτυγχάνει έως και 6 φορές χαμηλότερη καθυστέρηση
και έως και 15 φορές μείωση του κόστους επικοινωνίας,
ενώ αποτρέπει την υπερφόρτωση των κόμβων. Επιπλέον, το
NEMO επαναβελτιστοποιεί τις τοποθετήσεις σε σταθερό
χρόνο, ανεξαρτήτως του μεγέθους της τοπολογίας. Ως εκ
τούτου, θέτει τα θεμέλια για αποδοτική επεξεργασία
συνεχών ροών δεδομένων σε μεγάλες, ετερογενείς και
γεωγραφικά κατανεμημένες τοπολογίες.
|
10:48 - 11:06am |
Edson Ramiro Lucas Filho (Cyprus University of
Technology); George Savva (Cyprus University of
Technology); Lun Yang (Huawei Technologies Co., Ltd.);
Kebo Fu (Huawei Technologies Co., Ltd.); Jianqiang Shen
(Huawei Technologies Co., Ltd.); Herodotos Herodotou
(Cyprus University of Technology)*
Edson Ramiro Lucas Filho (Cyprus University of
Technology); George Savva (Cyprus University of
Technology); Lun Yang (Huawei Technologies Co., Ltd.);
Kebo Fu (Huawei Technologies Co., Ltd.); Jianqiang Shen
(Huawei Technologies Co., Ltd.); Herodotos Herodotou
(Cyprus University of Technology)*
Click to display the abstract
Abstract:
Modern multi-tiered data storage systems optimize file
access by managing data across a hybrid composition of
caches and storage tiers while using policies whose
decisions can severely impact the storage system’s
performance. Recently, different Machine Learning (ML)
algorithms have been used to model access patterns from
complex workloads. Yet, current approaches train their
models offline in a batch-based approach, even though
storage systems are processing a stream of file requests
with dynamic workloads. In this manuscript, we advocate
the streaming ML paradigm for modeling access patterns
in multi-tiered storage systems as it introduces various
advantages, including high efficiency, high accuracy,
and high adaptability. Moreover, representative file
access patterns, including temporal, spatial, length,
and frequency patterns, are identified for individual
files, directories, and file formats, and used as
features. Streaming ML models are developed, trained,
and tested on different file system traces for making
two types of predictions: the next offset to be read in
a file and the future file hotness. An extensive
evaluation is performed with production traces provided
by Huawei Technologies, showing that the models are
practical, with low memory consumption (<1.3 MB) and low
training delay (<1.8 ms per training instance), and can
make accurate predictions online (0.98 F1 score and 0.07
MAE on average).
Περίληψη:
Τα σύγχρονα υβριδικά συστήματα αποθήκευσης δεδομένων
βελτιστοποιούν την πρόσβαση στα αρχεία με το να
διαχειρίζονται δεδομένα σε μια υβριδική σύνθεση κρυφών
μνήμων και επιπέδων αποθήκευσης, ενώ χρησιμοποιούν
πολιτικές των οποίων οι αποφάσεις μπορούν να επηρεάσουν
σοβαρά την απόδοση του συστήματος. Πρόσφατα,
διαφορετικοί αλγόριθμοι μηχανικής μάθησης έχουν
χρησιμοποιηθεί για τη μοντελοποίηση μοτίβων πρόσβασης
από πολύπλοκους φόρτους εργασίας. Ωστόσο, οι τρέχουσες
προσεγγίσεις εκπαιδεύουν τα μοντέλα τους εκτός
συστήματος σε μια προσέγγιση βασισμένη σε παρτίδες,
παρόλο που τα συστήματα αποθήκευσης επεξεργάζονται μια
ροή αιτημάτων πρόσβασης σε αρχεία με δυναμικό φόρτο
εργασίας. Σε αυτή την εργασία, υποστηρίζουμε τη χρήση
μηχανικής μάθησης ροής για τη μοντελοποίηση μοτίβων
πρόσβασης σε υβριδικά συστήματα αποθήκευσης, καθώς
εισάγει πολλαπλά πλεονεκτήματα, όπως υψηλή απόδοση,
υψηλή ακρίβεια σε προβλέψεις και υψηλή
προσαρμοστικότητα. Επιπλέον, αντιπροσωπευτικά μοτίβα
πρόσβασης αρχείων, συμπεριλαμβανομένων των χρονικών,
χωρικών, μεγέθους και συχνότητας, προσδιορίζονται για
αρχεία, φακέλους και τύπους αρχείων, τα οποία
χρησιμοποιούνται ως χαρακτηριστικά. Τα μοντέλα μηχανικής
μάθησης ροής αναπτύσσονται, εκπαιδεύονται και
δοκιμάζονται σε διαφορετικούς φόρτους εργασίας για την
πραγματοποίηση δύο τύπων προβλέψεων: το σημείο της
επόμενης πρόσβασης σε ένα αρχείο και τη μελλοντική
δημοτικότητα του αρχείου. Πραγματοποιείται εκτενής
αξιολόγηση με πραγματικούς φόρτους εργασίας που
παρέχονται από την εταιρεία Huawei Technologies,
δείχνοντας ότι τα μοντέλα είναι πρακτικά, με χαμηλή
κατανάλωση μνήμης (<1,3 MB) και χαμηλό χρόνο εκπαίδευσης
(<1,8 ms ανά σημείο εκπαίδευσης) και μπορούν να κάνουν
ακριβείς προβλέψεις στο διαδίκτυο (0,98 βαθμολογία F1
και 0,07 MAE κατά μέσο όρο).
|
11:06 - 11:24am |
Haralampos Gavriilidis (Technische Universität Berlin)*;
Kaustubh Beedkar (Indian Institute of Technology Delhi);
Matthias Boehm (BIFOLD and Technische Universität Berlin);
Volker Markl (BIFOLD, Technische Universität Berlin, and
DFKI GmbH)
Haralampos Gavriilidis (Technische Universität Berlin)*;
Kaustubh Beedkar (Indian Institute of Technology Delhi);
Matthias Boehm (BIFOLD and Technische Universität Berlin);
Volker Markl (BIFOLD, Technische Universität Berlin, and
DFKI GmbH)
Click to display the abstract
Abstract:
Fast and scalable data transfer is crucial in today's
decentralized data ecosystems and data-driven
applications. Example use cases include transferring
data from operational systems to consolidated data
warehouse environments, or from relational database
systems to data lakes for exploratory data analysis or
ML model training. Traditional data transfer approaches
rely on efficient point-to-point connectors or general
middleware with generic intermediate data
representations. Physical environments (e.g.,
on-premise, cloud, or consumer nodes) also have become
increasingly heterogeneous. Existing work still
struggles to achieve both, fast and scalable data
transfer as well as generality in terms of heterogeneous
systems and environments. Hence, in this paper, we
introduce a holistic data transfer framework. Our XDBC
framework splits the data transfer pipeline into logical
components and provides a wide variety of physical
implementations for these components. This design allows
a seamless integration of different systems as well as
the automatic optimizations of data transfer
configurations according to workload and environment
characteristics. Our evaluation shows that XDBC
outperforms state-of-the-art generic data transfer tools
by up to 5x, while being on par with specialized
approaches.
Περίληψη:
Η γρήγορη και ευέλικτη μεταφορά δεδομένων είναι ζωτικής
σημασίας στα σημερινά αποκεντρωμένα οικοσυστήματα
δεδομένων και στις data-driven εφαρμογές. Ενδεικτικές
περιπτώσεις χρήσης περιλαμβάνουν τη μεταφορά δεδομένων
από επιχειρησιακά συστήματα σε κεντρικές αποθήκες
δεδομένων ή από σχεσιακές βάσεις δεδομένων σε λίμνες
δεδομένων, για διερευνητική ανάλυση ή εκπαίδευση
μοντέλων μηχανικής μάθησης. Οι παραδοσιακές προσεγγίσεις
μεταφοράς δεδομένων βασίζονται είτε σε αποδοτικές
απευθείας συνδέσεις μεταξύ συστημάτων, είτε σε γενικού
σκοπού ενδιάμεσο λογισμικό που χρησιμοποιεί γενικές
ενδιάμεσες αναπαραστάσεις δεδομένων. Τα υπολογιστικά
περιβάλλοντα (όπως τοπικές υποδομές, το υπολογιστικό
νέφος ή συσκευές χρηστών) παρουσιάζουν πλέον υψηλό βαθμό
ετερογένειας. Ωστόσο, οι υπάρχουσες λύσεις συνεχίζουν να
δυσκολεύονται να επιτύχουν τόσο υψηλές επιδόσεις και
ευελιξία στη μεταφορά δεδομένων, όσο και γενικότητα
απέναντι στην ποικιλομορφία συστημάτων και
περιβαλλόντων. Στην παρούσα εργασία, παρουσιάζουμε ένα
ολιστικό πλαίσιο μεταφοράς δεδομένων, το XDBC. Το XDBC
διαχωρίζει τη ροή μεταφοράς δεδομένων σε λογικές μονάδες
και προσφέρει πλούσιο σύνολο φυσικών υλοποιήσεων για την
καθεμία. Η αρχιτεκτονική του XDBC επιτρέπει την ομαλή
ενσωμάτωση ετερογενών συστημάτων, καθώς και την αυτόματη
βελτιστοποίηση των ρυθμίσεων μεταφοράς δεδομένων,
ανάλογα με τα χαρακτηριστικά του φόρτου εργασίας και του
περιβάλλοντος. Η αξιολόγησή μας δείχνει ότι το XDBC
υπερτερεί έως και 5 φορές σε σχέση με κορυφαία γενικά
εργαλεία μεταφοράς δεδομένων, ενώ προσφέρει απόδοση
αντίστοιχη με εξειδικευμένες λύσεις.
|
11:24 - 11:42am |
Antonios Katsarakis (Huawei Research)*; Vasilis
Gavrielatos (Huawei Research); Chris Jensen (University of
Cambridge); Nikos Ntarmos (Huawei Research, Edinburgh)
Antonios Katsarakis (Huawei Research)*; Vasilis
Gavrielatos (Huawei Research); Chris Jensen (University of
Cambridge); Nikos Ntarmos (Huawei Research, Edinburgh)
Click to display the abstract
Abstract:
This paper presents an in-memory, RDMA-enabled,
highly-available, transactional Key-Value Store (KVS),
dubbed Dandelion, that significantly improves
performance in small deployments (e.g., 5-10 machines).
Small deployments are motivated by the anticipated
memory expansion (e.g., through CXL), which enables the
deployment of in-memory KVSes with few machines but lots
of memory. A small deployment presents locality
opportunities that have not been examined by related
work. Specifically, it is more likely that at any given
time, we must send multiple messages to the same
recipient. We leverage this by transparently batching
multiple requests in the same network packet. Similarly,
there is a greater chance of having multiple requests
that can be served by the local hashtable without going
through the network. Sending all requests to the
hashtable as a batch allows it to overlap their memory
latencies through software prefetching. Finally, it is
more likely that the node that requests a key is itself
a backup of that key. We leverage this by allowing
strongly-consistent local reads from backups. Our
evaluation shows that these optimizations result in up
to 6.5x throughput improvement over a state-of-the-art
system, FaSST, in OLTP workloads in a 5-machine
deployment. We characterize the impact and scalability
of each of these optimizations with up to 10 machines --
where Dandelion still offers as much as 3.5x higher
throughput than FaSST.
Περίληψη:
Αυτό το άρθρο παρουσιάζει ένα in-memory, RDMA-enabled,
υψηλής διαθεσιμότητας, transactional Key-Value Store
(KVS), με το όνομα Dandelion, το οποίο βελτιώνει
σημαντικά τις επιδόσεις σε μικρές αναπτύξεις (π.χ. 5–10
μηχανές). Τέτοιες μικρές αναπτύξεις καθίστανται πιο
εφικτές χάρη στην αναμενόμενη επέκταση της μνήμης (π.χ.
μέσω CXL), που επιτρέπει in-memory KVSes με λίγες
μηχανές αλλά άφθονη μνήμη. Οι μικρές αναπτύξεις
προσφέρουν ευκαιρίες εντοπιότητας που δεν έχουν
μελετηθεί εκτενώς στη σχετική βιβλιογραφία.
Συγκεκριμένα, είναι πιο πιθανό να απαιτείται η αποστολή
πολλαπλών μηνυμάτων στον ίδιο παραλήπτη την ίδια χρονική
στιγμή. Αυτό το εκμεταλλευόμαστε με τη διαφανή
ομαδοποίηση πολλών αιτημάτων στο ίδιο πακέτο δικτύου.
Ομοίως, αυξάνεται η πιθανότητα ύπαρξης πολλαπλών
αιτημάτων που μπορούν να εξυπηρετηθούν τοπικά από το
hashtable χωρίς να περάσουν από το δίκτυο. Η αποστολή
όλων των αιτημάτων ως batch στο hashtable επιτρέπει την
επικάλυψη των καθυστερήσεων μνήμης μέσω software
prefetching. Τέλος, είναι πιο πιθανό ο κόμβος που ζητά
ένα κλειδί να είναι ο ίδιος και αντίγραφο (backup) του.
Αυτό το εκμεταλλευόμαστε ενεργοποιώντας ισχυρά συνεπείς
τοπικές αναγνώσεις από αντίγραφα. Η αξιολόγησή μας
δείχνει ότι αυτές οι βελτιστοποιήσεις προσφέρουν έως και
6.5x αύξηση στο throughput σε σχέση με το προηγμένο
σύστημα FaSST, σε OLTP workloads με ανάπτυξη 5 μηχανών.
Χαρακτηρίζουμε την επίδραση και την κλιμακωσιμότητα
καθεμιάς από τις βελτιστοποιήσεις έως και σε 10
μηχανές—όπου το Dandelion συνεχίζει να επιτυγχάνει έως
και 3.5x υψηλότερο throughput από το FaSST.
|
11:42 - 12:00pm |
Mahesh Dananjaya (Huawei Research, Edinburgh); Vasilis
Gavrielatos (Huawei Research, Edinburgh); Antonios
Katsarakis (Huawei Research)*; Nikos Ntarmos (Huawei
Research, Edinburgh); Vijay Nagarajan (University of Utah)
Mahesh Dananjaya (Huawei Research, Edinburgh); Vasilis
Gavrielatos (Huawei Research, Edinburgh); Antonios
Katsarakis (Huawei Research)*; Nikos Ntarmos (Huawei
Research, Edinburgh); Vijay Nagarajan (University of Utah)
Click to display the abstract
Abstract:
Memory Disaggregation decouples memory from traditional
datacenter servers, offering a promising pathway for
achieving very high availability in transactional
in-memory disaggregated Key-Value Stores (DKVSes).
Achieving such availability hinges on transactional
protocols that can efficiently handle failures in this
setting where compute and memory are independent.
However, existing transactional protocols overlook the
scenario where compute and memory fail independently.
Exacerbating the problem, memory disaggregation relies
on memory nodes with limited compute capacity, requiring
one-sided RDMA-style protocols instead of traditional
RPC-based approaches. This significantly complicates
achieving a correct and recoverable protocol due to the
limited semantics of one-sided RDMA. Moreover, the only
state-of-the-art one-sided transactional protocol has
overlooked recovery, jeopardizing correctness and
performance. We present Pandora, the first one-sided
transactional protocol that is specifically designed to
enable fast and correct recovery on disaggregated KVSes.
Pandora's fast recovery hinges on two innovations: (a)
the PILL (Pandora's Implicit Latch Logging), a novel
technique for managing latches in the presence of
compute failures; and (b) an RDMA-based recovery
algorithm that detects and quickly recovers from
failures. To validate that Pandora recovers correctly in
the presence of failures, we introduce a new
litmus-testing framework for end-to-end validation of
transactional protocols. Our evaluation (and validation)
reveals that Pandora achieves fast and correct recovery
in the range of a few milliseconds without compromising
the performance of failure-free runtime execution.
Περίληψη:
Η αποσυζευγμένη μνήμη (Memory Disaggregation)
αποδεσμεύει τη μνήμη από τους παραδοσιακούς διακομιστές
των datacenters, προσφέροντας μια πολλά υποσχόμενη
προσέγγιση για την επίτευξη πολύ υψηλής διαθεσιμότητας
σε transactional in-memory disaggregated Key-Value
Stores (DKVSes). Η επίτευξη αυτής της διαθεσιμότητας
προϋποθέτει transactional πρωτόκολλα που μπορούν να
διαχειριστούν αποδοτικά σφάλματα σε περιβάλλοντα όπου ο
υπολογισμός και η μνήμη είναι ανεξάρτητα. Ωστόσο, τα
υπάρχοντα transactional πρωτόκολλα παραβλέπουν το
σενάριο όπου οι υπολογιστικοί και οι μνημονικοί κόμβοι
αποτυγχάνουν ανεξάρτητα. Το πρόβλημα επιτείνεται από το
γεγονός ότι η αποσυζευγμένη μνήμη βασίζεται σε
μνημονικούς κόμβους με περιορισμένες υπολογιστικές
δυνατότητες, απαιτώντας πρωτόκολλα μονής κατεύθυνσης
τύπου RDMA αντί για τις παραδοσιακές RPC προσεγγίσεις.
Αυτό καθιστά πολύπλοκη την επίτευξη ενός ορθού και
ανακτήσιμου transactional πρωτοκόλλου, λόγω των
περιορισμένων σημασιολογικών δυνατοτήτων του one-sided
RDMA. Επιπλέον, το μοναδικό σύγχρονο transactional
πρωτόκολλο μονής κατεύθυνσης παραλείπει την υποστήριξη
ανάκαμψης, υπονομεύοντας την ορθότητα και την απόδοση.
Παρουσιάζουμε το Pandora, το πρώτο transactional
πρωτόκολλο μονής κατεύθυνσης σχεδιασμένο ειδικά για
ταχύτατη και ορθή ανάκαμψη σε disaggregated KVSes. Η
ταχύτητα ανάκαμψης του Pandora βασίζεται σε δύο
καινοτομίες: (α) το PILL (Pandora’s Implicit Latch
Logging), μια νέα τεχνική διαχείρισης latches σε
περιπτώσεις υπολογιστικής αποτυχίας, και (β) έναν
αλγόριθμο ανάκαμψης βασισμένο σε RDMA που εντοπίζει και
ανακτά ταχύτατα από σφάλματα. Για να επαληθεύσουμε ότι
το Pandora ανακτάται ορθά σε περίπτωση σφαλμάτων,
εισάγουμε ένα νέο πλαίσιο litmus-testing για end-to-end
επαλήθευση transactional πρωτοκόλλων. Η αξιολόγηση και
επαλήθεσή μας δείχνει ότι το Pandora επιτυγχάνει
ταχύτατη και ορθή ανάκαμψη εντός λίγων millisecond χωρίς
να θυσιάζει την απόδοση σε περιπτώσεις χωρίς σφάλματα.
|
12:00pm - 1:00pm |
Keynote: Mosaics in Big Data
Prof. Dr. Volker Markl (TU Berlin, Germany)
Click to display the abstract
Abstract: Data management systems research focuses
on improving human and technical efficiency for performing
data analysis tasks. In this presentation, I describe
selected research contributions to achieve that goal. I
first highlight work on using query feedback in order to
improve the cardinality model of a relational query
optimizer. I then will discuss how the research vision of
the Stratosphere research project at TU Berlin lead to the
creation of the data stream processing system Apache
Flink. As a third contribution, I will discuss how fractal
space-filling curves can be used to efficiently process
multidimensional range queries. I will conclude by giving
an outlook on NebulaStream, a novel data processing system
to handle massively distributed data streams on
heterogeneous devices.
|
1:00 - 2:00pm |
Lunch Break |
2:00 - 3:30pm |
Session 3: "Spatial, Time-series & Scientific"
Chair: George Papastefanatos
|
2:00 - 2:18pm |
Dimitrios Giouroukis (BIFOLD, TU Berlin)*; Varun Pandey
(BIFOLD, TU Berlin); Steffen Zeuch (BIFOLD, TU Berlin);
Volker Markl (BIFOLD, TU Berlin)
Dimitrios Giouroukis (BIFOLD, TU Berlin)*; Varun Pandey
(BIFOLD, TU Berlin); Steffen Zeuch (BIFOLD, TU Berlin);
Volker Markl (BIFOLD, TU Berlin)
Click to display the abstract
Abstract:
Internet of Things (IoT) applications make use of live
data from numerous sensors that reside outside cloud
datacenters. As a result, it is imperative for IoT data
management systems to reduce their network footprint
while simultaneously scaling to larger numbers of
sensors. One way of achieving this is to adapt data
generation to the rate of changes in the real world. In
this systems paper, we propose Chameleon, a
sensor-driven protocol for network-efficient data
management that treats sensors as first-class components
of a stream processing system. Chameleon combines local
knowledge from the sensors with global knowledge
Περίληψη:
Οι εφαρμογές του Διαδικτύου των Πραγμάτων (IoT)
βασίζονται σε ζωντανά δεδομένα από πληθώρα αισθητήρων
που βρίσκονται εκτός των υποδομών των υπολογιστικών
νεφών. Ως εκ τούτου, είναι κρίσιμο τα συστήματα
διαχείρισης δεδομένων IoT να μειώνουν το δικτυακό τους
αποτύπωμα, διατηρώντας παράλληλα την ικανότητα
κλιμάκωσης σε μεγαλύτερο αριθμό αισθητήρων. Μια
προσέγγιση για την επίτευξη αυτού του στόχου είναι η
προσαρμογή της παραγωγής δεδομένων με βάση τον ρυθμό
μεταβολών στον πραγματικό κόσμο.
|
2:18 - 2:36pm |
Fatemeh Zardbani (Aarhus University); Konstantinos
Lampropoulos (University of Ioannina); Nikos Mamoulis
(University of Ioannina); Panagiotis Karras (University of
Copenhagen)*
Click to display the abstract
Abstract: Adaptive indexing allows for the
progressive and simultaneous query-driven exploration and
indexing of memory-resident data, starting as soon as they
become available without upfront indexing. This technique
has been so far applied to one-dimensional and
multidimensional data, as well as to objects with spatial
extent arising in geographic information systems. However,
existing spatial adaptive indexing methods cater to static
data made available in an one-off manner. To date, no
spatial adaptive indexing method can ingest data updates
interleaved with data exploration. In this paper we
introduce GLIDE, a novel method that intertwines the
adaptive indexing and incremental updating of a
spatial-object data set. GLIDE builds a hierarchical
spatial index incrementally in response to queries and
also ingests updates judiciously into it. We examine
several design choices and settle for a variant that
combines gradual self-driven top-down insertions with
query-driven indexing operations. In an extensive
experimental comparison, we show that GLIDE achieves a
lower cumulative cost than upfront-indexing methods and
adaptive-indexing baselines.
|
2:36 - 2:54pm |
Xenophon Kitsios (Athens University of Economics and
Business)*; Panagiotis Liakos (Athens University of
Economics and Business); Katia Papakonstantinopoulou
(Athens University of Economics and Business); Yannis
Kotidis (Athens University of Economics and Business)
Xenophon Kitsios (Athens University of Economics and
Business)*; Panagiotis Liakos (Athens University of
Economics and Business); Katia Papakonstantinopoulou
(Athens University of Economics and Business); Yannis
Kotidis (Athens University of Economics and Business)
Click to display the abstract
Abstract:
Approximating a series of timestamped data points
through a sequence of line segments with a maximum error
guarantee is a fundamental data compression problem,
termed as Piecewise Linear Approximation (PLA). As the
demand for analyzing large volumes of time-series data
across various domains continues to grow, the
significance of this problem has recently received
considerable attention. Recent PLA algorithms have
emerged to help us handle the overwhelming amount of
information, albeit at the expense of some precision
loss. More precisely, these algorithms involve a
delicate balance between the maximum acceptable
precision loss and the space savings that can be
achieved. In our recent work we proposed Sim-Piece,
offering a fresh perspective on the long-standing
challenge of PLA approximation. Sim-Piece identifies
similarities among line segments in a PLA representation
enabling their grouping and joint representation. This
way, Sim-Piece delivers space-saving advantages that
outperform even the optimal PLA approximation. In this
work, we present Mix-Piece, an improved PLA compression
algorithm that builds upon the core idea of Sim-Piece
(i.e., exploiting similar PLA segments) but improves
further its performance by (1) considering multiple
candidate PLA segments when ingesting a time series, (2)
enabling grouping of additional segments not utilized by
Sim-Piece, and, (3) making use of a versatile output
format that exploits all segment similarities. Our
experimental evaluation demonstrates that Mix-Piece
outperforms Sim-Piece and previous competing techniques,
attaining compression ratios with more than twofold
improvement on average over what PLA algorithms can
offer. This allows for providing significantly higher
accuracy with equivalent space requirements.
Περίληψη:
Η προσέγγιση μιας σειράς δεδομένων με χρονική σήμανση
μέσω μιας ακολουθίας ευθυγράμμων τμημάτων με εγγύηση
μέγιστου σφάλματος αποτελεί ένα θεμελιώδες πρόβλημα
συμπίεσης δεδομένων, γνωστό ως Κατά Τμήματα Γραμμική
Προσέγγιση (Piecewise Linear Approximation - PLA). Καθώς
η ανάγκη για ανάλυση μεγάλων όγκων χρονοσειρών σε
διάφορους τομείς αυξάνεται, το πρόβλημα αυτό έχει
τραβήξει ιδιαίτερη προσοχή τα τελευταία χρόνια.
Πρόσφατοι αλγόριθμοι PLA έχουν αναπτυχθεί για να
διαχειρίζονται τον τεράστιο όγκο πληροφοριών, αν και με
κάποιο κόστος σε ακρίβεια. Πιο συγκεκριμένα, αυτοί οι
αλγόριθμοι προσπαθούν να ισορροπήσουν μεταξύ της
μέγιστης αποδεκτής απώλειας σε ακρίβεια και της
εξοικονόμησης χώρου που μπορεί να επιτευχθεί. Στο
πρόσφατο άρθρο μας προτείναμε τον Sim-Piece, μια νέα
προσέγγιση στο διαχρονικό πρόβλημα της προσέγγισης μέσω
PLA. Ο Sim-Piece εντοπίζει ομοιότητες μεταξύ γραμμικών
τμημάτων σε μια αναπαράσταση PLA, επιτρέποντας την
ομαδοποίησή τους και την κοινή αναπαράσταση. Με αυτόν
τον τρόπο, ο Sim-Piece πετυχαίνει εξοικονόμηση χώρου
ξεπερνώντας ακόμη και την βέλτιστη προσέγγιση μέσω PLA.
Σε αυτή την εργασία, παρουσιάζουμε τον Mix-Piece, έναν
βελτιωμένο αλγόριθμο συμπίεσης PLA που βασίζεται στην
κεντρική ιδέα του Sim-Piece (δηλαδή την εκμετάλλευση των
παρόμοιων τμημάτων PLA), αλλά ενισχύει περαιτέρω την
απόδοσή του με τους εξής τρόπους (1) λαμβάνοντας υπόψη
πολλαπλά υποψήφια PLA τμήματα κατά την εισαγωγή μιας
χρονοσειράς, (2) επιτρέποντας την ομαδοποίηση επιπλέον
τμημάτων που δεν χρησιμοποιήθηκαν από τον Sim-Piece, και
(3) αξιοποιώντας μια ευέλικτη μορφή εξόδου που
εκμεταλλεύεται όλες τις ομοιότητες μεταξύ τμημάτων. Η
πειραματική μας αξιολόγηση δείχνει ότι ο Mix-Piece
υπερτερεί του Sim-Piece και των προηγούμενων
ανταγωνιστικών τεχνικών, επιτυγχάνοντας κατά μέσο όρο
πάνω από διπλάσια βελτίωση σε λόγους συμπίεσης σε σχέση
με ό,τι προσφέρουν οι αλγόριθμοι PLA. Αυτό επιτρέπει την
παροχή σημαντικά υψηλότερης ακρίβειας με ισοδύναμες
απαιτήσεις σε αποθηκευτικό χώρο.
|
2:54 - 3:12pm |
Achilleas Michalopoulos (University of Ioannina); Dimitrios
Tsitsigkos (Archimedes, Athena Research Center); Panagiotis
Bouros ( Johannes Gutenberg Universitat Mainz); Nikos
Mamoulis (University of Ioannina)*; Manolis Terrovitis
(IMSI, Athena Research Center)
Click to display the abstract
Abstract: Distance queries, including
distance-range queries, k-nearest neighbors search, and
distance joins, are very popular in spatial databases.
However, they have been studied mainly for point data.
Inspired by a recent approach on indexing non-point
objects for rectangular range queries, we propose a
secondary partitioning approach for space-partitioning
indices, which is appropriate for distance queries. Our
approach classifies the contents of each primary partition
into 16 secondary partitions, taking into consideration
the begin and end values of objects with respect to the
spatial extent of the primary partition. Based on this, we
define algorithms for three popular spatial query types,
that avoid duplicate results and skip unnecessary
computations. We compare our approach to the previous
secondary partitioning method and to state-of-the-art
data-partitioning indexing and find that it has a
significant performance advantage.
|
3:12 - 3:30pm |
Nikolaos Koutroumanis (Archimedes, Athena Research Center)*;
Christos Doulkeridis (University of Piraeus); Akrivi Vlachou
(Department of Information and Communication Systems
Engineering)
Click to display the abstract
Abstract: Parallel spatial join algorithms are
essential for scalable processing and analysis of big
spatial data. The state-of-the-art algorithms rely on
splitting the data into partitions and replicating objects
from one data set in neighboring partitions, so that
partitions can be processed in parallel independently
without producing duplicate results. However, this
universal replication of one data set leads to suboptimal
performance in the case of skewed data sets with varying
density. Instead, we advocate an approach that adaptively
selects which data set to replicate in different local
areas of the space, thus minimizing replication and
boosting the performance of query processing. To this end,
we contrive a graph-based framework for modeling
replication between neighboring partitions. We study the
theoretical properties that lead to adaptive replication
with correct and duplicate-free results. Then, we design a
data-parallel algorithm in Apache Spark which is based on
adaptive replication, and we demonstrate its performance
gain over the state-of-the-art for large-sized data sets,
real and synthetic, under various settings.
|
3:30 - 4:00pm |
Coffee break |
4:00 - 4:54pm |
Session 4a: "Lightning Talks Demo, Research Poster &
Student Poster"
|
4:00 - 4:03pm |
Fan Yang (The Ohio State University); John Paparrizos (The
Ohio State University)*
Click to display the abstract
Abstract:
SPARTAN: Data-Adaptive Symbolic Time-Series
Approximation FAN YANG, The Ohio State University, USA
JOHN PAPARRIZOS, The Ohio State University, USA Symbolic
approximations are dimensionality reduction techniques
that convert time series into sequences of discrete
symbols, enhancing interpretability while reducing
computational and storage costs. To construct symbolic
representations, first numeric representations
approximate and capture properties of raw time series,
followed by a discretization step that converts these
numeric dimensions into symbols. Despite decades of
development, existing approaches have several key
limitations that often result in unsatisfactory
performance: they (i) rely on data-agnostic numeric
approximations, disregarding intrinsic properties of the
time series; (ii) decompose dimensions into equal-sized
subspaces, assuming independence among dimensions; and
(iii) allocate a uniform encoding budget for
discretizing each dimension or subspace, assuming
balanced importance. To address these shortcomings, we
propose SPARTAN, a novel data-adaptive symbolic
approximation method that intelligently allocates the
encoding budget according to the importance of the
constructed uncorrelated dimensions. Specifically,
SPARTAN (i) leverages intrinsic dimensionality reduction
properties to derive non- overlapping, uncorrelated
latent dimensions; (ii) adaptively distributes the
budget based on the importance of each dimension by
solving a constrained optimization problem; and (iii)
prevents false dismissals in similarity search by
ensuring a lower bound on the true distance in the
original space. To demonstrate SPARTAN’s robustness, we
conduct the most comprehensive study to date, comparing
SPARTAN with seven state-of-the-art symbolic methods
across four tasks: classification, clustering, indexing,
and anomaly detection. Rigorous statistical analysis
across hundreds of datasets shows that SPARTAN
outperforms competing methods significantly on all tasks
in terms of downstream accuracy, given the same budget.
Notably, SPARTAN achieves up to a 2x speedup compared to
the most accurate rival. Overall, SPARTAN effectively
improves the symbolic representation quality without
storage or runtime overheads, paving the way for future
advancements.
Περίληψη:
|
4:03 - 4:06pm |
Jens d'Hondt (TU Eindhoven); Haojun Li (The Ohio State
University); Fan Yang (The Ohio State University); Odysseas
Papapetrou (TU Eindhoven); John Paparrizos (The Ohio State
University)*
Click to display the abstract
Abstract:
Distance measures are fundamental to time series
analysis and have been extensively studied for decades.
Until now, research efforts mainly focused on univariate
time series, leaving multivariate cases largely under-
explored. Furthermore, the existing experimental studies
on multivariate distances have critical limitations: (a)
focusing only on lock-step and elastic measures while
ignoring categories such as sliding and kernel measures;
(b) considering only one normalization technique; and
(c) placing limited focus on statistical analysis of
findings. Motivated by these shortcomings, we present
the most complete evaluation of multivariate distance
measures to date. Our study examines 30 standalone
measures across 8 categories, 2 channel-dependency
models, and considers 13 normalizations. We perform a
comprehensive evaluation across 30 datasets and 3
downstream tasks, accompanied by rigorous statistical
analysis. To ensure fairness, we conduct a thorough
investigation of parameters for methods in both a
supervised and an unsupervised manner. Our work verifies
and extends earlier findings, showing that insights from
univariate distance measures also apply to the
multivariate case: (a) alternative normalization methods
outperform Z-score, and for the first time, we
demonstrate statistical differences in certain
categories for the multivariate case; (b) multiple
lock-step measures are better suited than Euclidean
distance, when it comes to multivariate time series; and
(c) newer elastic measures outperform the widely adopted
Dynamic Time Warping distance, especially with proper
parameter tuning in the supervised setting. Moreover,
our results reveal that (a) sliding measures offer the
best trade-off between accuracy and runtime; (b) current
normalization techniques fail to significantly enhance
accuracy on multivariate time series and, surprisingly,
do not outperform the no normalization case, indicating
a lack of appropriate solutions for normalizing
multivariate time series; and (c) independent
consideration of time series channels is beneficial only
for elastic measures. In summary, we offer guidelines to
aid in designing and selecting preprocessing strategies
and multivariate distance measures for our community.
Περίληψη:
|
4:06 - 4:09pm |
Tiago Brasileiro Araujo (Tampere University); Vasilis
Efthymiou (Harokopio University of Athens); Vassilis
Christophides (ENSEA, ETIS); Evaggelia Pitoura (University
of Ioannina); Kostas Stefanidis (Tampere University)*
Tiago Brasileiro Araujo (Tampere University); Vasilis
Efthymiou (Harokopio University of Athens); Vassilis
Christophides (ENSEA, ETIS); Evaggelia Pitoura (University
of Ioannina); Kostas Stefanidis (Tampere University)*
Click to display the abstract
Abstract:
Currently, the growing proliferation of information
systems generates large volumes of data continuously,
stemming from a variety of sources such as web
platforms, social networks, and multiple devices. These
data, often lacking a defined schema, require an initial
process of consolidation and cleansing before analysis
and knowledge extraction can occur. In this context,
Entity Resolution (ER) plays a crucial role,
facilitating the integration of knowledge bases and
identifying similarities among entities from different
sources. However, the traditional ER process is
computationally expensive, and becomes more complicated
in the streaming context where the data arrive
continuously. Moreover, there is a lack of studies
involving fairness and ER, which is related to the
absence of discrimination or bias. In this sense,
fairness criteria aim to mitigate the implications of
data bias in ER systems, which requires more than just
optimizing accuracy, as traditionally done. Considering
this context, this work presents TREATS, a
schema-agnostic and fairness-aware ER workflow developed
for managing streaming data incrementally. The proposed
fairness-aware ER framework tackles constraints across
various groups of interest, presenting a resilient and
equitable solution to the related challenges. Through
experimental evaluation, the proposed techniques and
heuristics are compared against state-of-the-art
approaches over five real-world data source pairs, in
which the results demonstrated significant improvements
in terms of fairness, without degradation of
effectiveness and efficiency measures in the streaming
environment. In summary, our contributions aim to propel
the ER field forward by providing a workflow that
addresses both technical challenges and ethical
concerns.
Περίληψη:
Ο μεγάλος ρυθμός αύξησης των πληροφοριακών συστημάτων
παράγει συνεχώς μεγάλους όγκους δεδομένων, που
προέρχονται από μια ποικιλία πηγών, όπως διαδικτυακές
πλατφόρμες, κοινωνικά δίκτυα και πολλαπλές συσκευές.
Αυτά τα δεδομένα, που συχνά δεν διαθέτουν καθορισμένο
σχήμα, απαιτούν μια αρχική διαδικασία ενοποίησης και
καθαρισμού, ώστε να μπορούν να αναλυθούν και να
χρησιμοποιηθούν για εξαγωγή γνώσης. Σε αυτό το πλαίσιο,
η Ταυτοποίηση Οντοτήτων (entity resolution - ER) παίζει
κρίσιμο ρόλο, διευκολύνοντας την ενσωμάτωση των βάσεων
γνώσης και τον εντοπισμό ομοιοτήτων μεταξύ οντοτήτων από
διαφορετικές πηγές. Ωστόσο, η παραδοσιακή διαδικασία ER
είναι υπολογιστικά δαπανηρή και γίνεται πιο περίπλοκη
στο πλαίσιο συνεχών ροών δεδομένων. Επιπλέον, υπάρχει
έλλειψη εργασιών που να μελετούν ζητήματα
μεροληψίας/δικαιοσύνης στο ER. Τα κριτήρια δικαιοσύνης
στοχεύουν στον μετριασμό των επιπτώσεων της μεροληψίας
δεδομένων στα συστήματα ER, κάτι που απαιτεί κάτι
περισσότερο από τη βελτιστοποίηση μόνο της ακρίβειας,
όπως γίνεται παραδοσιακά. Λαμβάνοντας υπόψη αυτό το
πλαίσιο, η παρούσα εργασία παρουσιάζει το TREATS, μια
ροή εργασίας ER που δεν εξαρτάται από σχήματα, λαμβάνει
υπόψιν τη δικαιοσύνη και αναπτύχθηκε για τη σταδιακή
διαχείριση ροών δεδομένων. Το προτεινόμενο πλαίσιο ER με
επίγνωση της δικαιοσύνης αντιμετωπίζει περιορισμούς σε
πολλαπλές ομάδες ενδιαφέροντος, παρουσιάζοντας μια
ανθεκτική και δίκαιη λύση στις σχετικές προκλήσεις. Μέσω
πειραματικής αξιολόγησης, οι προτεινόμενες τεχνικές και
οι ευρετικές μέθοδοι συγκρίνονται με προσεγγίσεις αιχμής
σε πέντε ζεύγη πραγματικών πηγών δεδομένων, στα οποία τα
αποτελέσματα κατέδειξαν σημαντικές βελτιώσεις όσον αφορά
τη δικαιοσύνη, χωρίς υποβάθμιση των μετρικών
αποτελεσματικότητας και αποδοτικότητας στο περιβάλλον
ροής. Συνοπτικά, οι συνεισφορές μας στοχεύουν στην
προώθηση του τομέα του ER παρέχοντας μια ροή εργασίας
που αντιμετωπίζει τόσο τεχνικές προκλήσεις όσο και ηθικά
ζητήματα.
|
4:09 - 4:12pm |
"Mike Xydas (Athena Research Center)*; Anna Mitsopoulou
(Athena Research Center ); George Katsogiannis-Meimarakis
(Athena Research Center ); Chris Tsapelas (Athena Research
Center ); Stavroula Eleftherakis (Athena Research Center);
Αntonis Μandamadiotis (Athena Research Center ); Georgia
Koutrika (Athena Research Center)"
"Mike Xydas (Athena Research Center)*; Anna Mitsopoulou
(Athena Research Center ); George Katsogiannis-Meimarakis
(Athena Research Center ); Chris Tsapelas (Athena Research
Center ); Stavroula Eleftherakis (Athena Research Center);
Αntonis Μandamadiotis (Athena Research Center ); Georgia
Koutrika (Athena Research Center)"
Click to display the abstract
Abstract:
For over five decades, enabling non-technical users to
access databases without SQL has been a major research
focus. Despite recent advances in Text-to-SQL, the
primary focus remains on accuracy, often overlooking
real-world deployment challenges. This demo presents
DataDazzle, a natural language data exploration system.
It allows users to query data, review and verify
answers, and benefit from recommendations, offering a
comprehensive data exploration experience.
Περίληψη:
Για περισσότερες από πέντε δεκαετίες, η δυνατότητα
πρόσβασης μη τεχνικών χρηστών σε βάσεις δεδομένων χωρίς
τη χρήση SQL αποτελεί κύριο αντικείμενο έρευνας. Παρά
τις πρόσφατες εξελίξεις στο πεδίο του Text-to-SQL, η
κύρια έμφαση εξακολουθεί να δίνεται στην ακρίβεια, συχνά
παραβλέποντας τις προκλήσεις που προκύπτουν στην
πραγματική χρήση. Το DataDazzle είναι ένα σύστημα
εξερεύνησης δεδομένων μέσω φυσικής γλώσσας. Επιτρέπει
στους χρήστες να υποβάλλουν ερωτήματα, να εξετάζουν και
να επαληθεύουν απαντήσεις, και να επωφελούνται από
προτάσεις, προσφέροντας μια ολοκληρωμένη εμπειρία
εξερεύνησης δεδομένων.
|
4:12 - 4:15pm |
Christos Balaktsis (Aristotle University of
Thessaloniki)*; Ioannis Mavroudopoulos (Aristotle
University of Thessaloniki); Marco Comuzzi (Ulsan National
Institute of Science and Technology); Anastasios Gounaris
(Aristotle University of Thessaloniki); Fabrizio Maggi
(Free University of Bozen-Bolzano)
Christos Balaktsis (Aristotle University of
Thessaloniki)*; Ioannis Mavroudopoulos (Aristotle
University of Thessaloniki); Marco Comuzzi (Ulsan National
Institute of Science and Technology); Anastasios Gounaris
(Aristotle University of Thessaloniki); Fabrizio Maggi
(Free University of Bozen-Bolzano)
Click to display the abstract
Abstract:
The more nuanced the declarative process constraints
discovered from an event log, the more likely they are
to capture meaningful business knowledge, thus fostering
the application of declarative process modeling in
practice. Branching the activation (source) or the
target of the constraints, that is, allowing more than
one event type to appear as the source or the target, is
a typical way to increase their expressivity. For the
discovery of Declare constraints, only the case of
branching the constraint target considering the
inclusive disjunction policy has been considered. In
this paper, we present CBDeclare, a comprehensive
approach to branched declarative process constraints,
contributing in two key dimensions. First, we define a
semantics of both source- and target-branched Declare
constraints considering different branching policies.
Second, we devise methods to discover the newly defined
Declare constraint types from an event log. Our solution
leverages the SIESTA framework’s scalable and
incremental infrastructure for event processing,
achieving significant performance gains in mining these
extended constraint when compared to the solutions for
target-branched constraint discovery available in the
literature.
Περίληψη:
Όσο πιο εκφραστικοί είναι οι δηλωτικοί (Declarative)
κανόνες διαδικασιών που εξάγονται από ένα αρχείο
συμβάντων (event log), τόσο πιθανότερο είναι να
αποτυπώνουν ουσιαστική επιχειρησιακή γνώση, ενισχύοντας
έτσι την πρακτική εφαρμογή της δηλωτικής μοντελοποίησης
διαδικασιών. Η διακλάδωση της ενεργοποίησης (πηγή) ή του
στόχου των κανόνων, δηλαδή η δυνατότητα περισσότερων από
έναν τύπων συμβάντων να λειτουργούν ως πηγή ή ως στόχος,
αποτελεί συνήθη προσέγγιση για την αύξηση της
εκφραστικότητάς τους. Ωστόσο, για την εξαγωγή κανόνων
Declare έχει εξεταστεί μέχρι σήμερα μόνο η περίπτωση
διακλάδωσης στον στόχο του κανόνα, και μάλιστα
αποκλειστικά υπό την πολιτική της συμπεριληπτικής
διάζευξης (inclusive disjunction). Στην παρούσα εργασία
παρουσιάζουμε το CBDeclare, μια ολοκληρωμένη προσέγγιση
για τους κλαδικούς δηλωτικούς κανόνες διαδικασιών,
εξετάζοντας δύο βασικές διαστάσεις. Πρώτον, ορίζουμε τη
σημασιολογία τόσο για διακλαδώσεις στην πηγή όσο και
στον στόχο, λαμβάνοντας υπόψη διαφορετικές πολιτικές
διακλάδωσης. Δεύτερον, αναπτύσσουμε μεθόδους για την
ανακάλυψη των νέων αυτών τύπων κανόνων Declare από
αρχεία συμβάντων. Η προτεινόμενη λύση αξιοποιεί την
επεκτάσιμη και κλιμακώσιμη υποδομή επεξεργασίας
συμβάντων SIESTA, επιτυγχάνοντας σημαντική απόδοση στην
εξόρυξη των διευρυμένων αυτών κανόνων σε σύγκριση με τις
υπάρχουσες λύσεις για κανόνες με διακλάδωση στον στόχο.
|
4:15 - 4:18pm |
Konstantin Krasovitskiy (University of Cyprus); Stelios
Christou (University of Cyprus); Demetris Zeinalipour
(University of Cyprus)*
Konstantin Krasovitskiy (University of Cyprus); Stelios
Christou (University of Cyprus); Demetris Zeinalipour
(University of Cyprus)*
Click to display the abstract
Abstract:
In this demonstration paper, we introduce LLM-MS, an
interactive multi-model search engine that dynamically
allocates tokens across multiple Large Language Models
(LLMs) for query processing. Our system supports two
demonstration modes: an interactive mode that allows for
real-time query input, and a fixed mode, which operates
on preloaded synthetic queries. LLM-MS features an
intuitive interface, with interactive menus and
adjustable parameters, enabling seamless switching
between the two modes. Additionally, real-time
visualization provides users with insights into the
system's internal processes. This demonstration
highlights dynamic model selection, real-time feedback,
and flexible configuration, showcasing the adaptability
and efficiency of LLM-MS.
Περίληψη:
Σε αυτήν την επίδειξη, παρουσιάζουμε το LLM-MS, μια
διαδραστική μηχανή αναζήτησης πολλαπλών μοντέλων που
κατανέμει δυναμικά τις νομισματικές μονάδες του χρήστη
σε πολλαπλά Μεγάλα Γλωσσικά Μοντέλα (ΜΓΜ) για την
επεξεργασία ερωτημάτων. Το σύστημά μας υποστηρίζει δύο
τρόπους επίδειξης: έναν διαδραστικό τρόπο που επιτρέπει
την εισαγωγή ερωτημάτων σε πραγματικό χρόνο και έναν
σταθερό τρόπο, ο οποίος λειτουργεί με προφορτωμένα
συνθετικά ερωτήματα. Το LLM-MS διαθέτει μια εύχρηστη
διεπαφή, με διαδραστικά μενού και ρυθμιζόμενες
παραμέτρους, που επιτρέπει την απρόσκοπτη εναλλαγή
μεταξύ των δύο λειτουργιών. Επιπλέον, η οπτικοποίηση σε
πραγματικό χρόνο παρέχει στους χρήστες πληροφορίες για
τις εσωτερικές διαδικασίες του συστήματος. Αυτή η
επίδειξη αναδεικνύει τη δυναμική επιλογή μοντέλου, την
ανατροφοδότηση σε πραγματικό χρόνο και την ευέλικτη
διαμόρφωση, επιδεικνύοντας την προσαρμοστικότητα και την
αποτελεσματικότητα του LLM-MS.
|
4:26 - 4:21pm |
Yannis Foufoulas (Athena Research Center)*; Theoni
Palaiologou (University of Athens); Alkis Simitsis (Athena
Research Center)
Yannis Foufoulas (Athena Research Center)*; Theoni
Palaiologou (University of Athens); Alkis Simitsis (Athena
Research Center)
Click to display the abstract
Abstract:
User-defined functions (UDFs) extend SQL with functional
capabilities. However, integrating UDFs efficiently into
a data engine is a challenge, mainly due to the mismatch
of the UDF execution and SQL processing environments.
Several techniques have been proposed to deal with this
challenge spanning a variety of logical and physical
optimizations, and architecture designs. These however
are not evident to the casual user, who would benefit
from knowing the pros and cons of the available
solutions. Towards this direction, we present UDFBench,
a benchmarking toolkit for running seamlessly UDF
queries (queries with UDFs) on a variety of SQL engines
and presenting to the user execution results accompanied
with highlights of the main reasons driving the query
performance. UDFBench comprises a set of queries and
UDFs of varying complexity based on a real-world
application and data. Our current implementation has
been deployed on four popular database engines with
different characteristics. Our pluggable design enables
extending UDFBench to additional systems and workloads.
(Demo Accepted at SIGMOD 2025)
Περίληψη:
Οι συναρτήσεις ορισμένες από τον χρήστη (User-defined
functions – UDFs) επεκτείνουν τη γλώσσα SQL με
λειτουργικές δυνατότητες. Ωστόσο, η αποδοτική ενσωμάτωση
των UDFs σε μια μηχανή δεδομένων αποτελεί πρόκληση,
κυρίως λόγω της αναντιστοιχίας μεταξύ του περιβάλλοντος
εκτέλεσης των UDFs και του περιβάλλοντος επεξεργασίας
της SQL. Έχουν προταθεί διάφορες τεχνικές για την
αντιμετώπιση αυτής της πρόκλησης, που καλύπτουν ένα ευρύ
φάσμα λογικών και φυσικών βελτιστοποιήσεων και
σχεδιασμών αρχιτεκτονικής. Ωστόσο, αυτές δεν είναι
προφανείς στον απλό χρήστη, ο οποίος θα επωφελείτο από
την κατανόηση των πλεονεκτημάτων και των μειονεκτημάτων
των διαθέσιμων λύσεων. Προς αυτήν την κατεύθυνση,
παρουσιάζουμε το UDFBench, ένα εργαλείο αξιολόγησης
επιδόσεων (benchmarking toolkit) για την απρόσκοπτη
εκτέλεση ερωτημάτων με UDFs σε διάφορες βάσεις δεδομένων
και την παρουσίαση των αποτελεσμάτων στον χρήστη,
συνοδευόμενα από επισημάνσεις των βασικών παραγόντων που
επηρεάζουν την απόδοση του ερωτήματος. Το UDFBench
περιλαμβάνει ένα σύνολο ερωτημάτων και UDFs
μεταβαλλόμενης πολυπλοκότητας, βασισμένων σε πραγματική
εφαρμογή και δεδομένα. Η τρέχουσα υλοποίηση έχει
αναπτυχθεί σε τέσσερις δημοφιλείς βάσεις δεδομένων με
διαφορετικά χαρακτηριστικά. Ο σχεδιασμός μας επιτρέπει
την εύκολη επέκταση του UDFBench σε επιπλέον συστήματα
και ερωτήματα.
|
4:21 - 4:24pm |
Aryan Esmailpour (University of Illinois Chicago); Sainyam
Galhotra (Cornell University); Rahul Raychaudhury (Duke
University); Stavros Sintos (University of Illinois
Chicago)*
Aryan Esmailpour (University of Illinois Chicago); Sainyam
Galhotra (Cornell University); Rahul Raychaudhury (Duke
University); Stavros Sintos (University of Illinois
Chicago)*
Click to display the abstract
Abstract:
Effective data discovery is a cornerstone of modern
data-driven decision-making. Yet, identifying datasets
with specific distributional characteristics—such as
percentiles or preference-based scores—remains
challenging. While recent proposals allow queries using
percentile predicates, much of the work in data
discovery remains heuristic and prone to bias. This
paper introduces the first theoretically grounded
framework that unifies data discovery in both
centralized and federated settings. Formally, let $\sets
= {\points_1,\ldots, \points_\setsize}$ be a collection
of $\setsize$ datasets, each $\points_i \subset \Re^d$,
where $d$ is constant. We study two problems:
percentile-aware indexing (\problemDI) and top-$k$-aware
indexing (\problemDIk). In the centralized setting, full
access to $\points_i$ is assumed. In the federated
setting, we only observe a synopsis
$\Synop_{\points_i}$—a compressed sketch that preserves
key geometric and statistical features. In \problemDI,
the task is to construct a data structure that, given a
query rectangle $\rect$ and interval $\interval$,
returns all indices $j$ such that $\frac{|\points_j \cap
\rect|}{|\points_j|} \in \interval$. In \problemDIk, the
task is to return all $j$ such that the $k$-th highest
inner product of $\points_j$ along a query vector
$\vector$ lies in $\interval$. We first prove
conditional lower bounds showing that near-linear data
structures with polylogarithmic query time are unlikely
for exact solutions in the centralized case. We then
propose approximate solutions for both \problemDI and
\problemDIk, in both settings. Our methods use
$\O(\setsize)$ space and preprocessing, and answer
queries in $\O(1 + \outt)$ time, where $\outt$ is the
output size. The returned set $J$ satisfies: (i) any
dataset matching the predicate is in $J$, and (ii) any
$j \in J$ satisfies the predicate up to additive error
$\eps + 2\delta$, where $\eps$ is an arbitrarily small
constant and $\delta$ is the error from the synopsis.
Περίληψη:
Η αποτελεσματική αναζήτηση δεδομένων αποτελεί θεμέλιο
της σύγχρονης λήψης αποφάσεων βάσει δεδομένων. Ωστόσο, ο
εντοπισμός συνόλων δεδομένων με συγκεκριμένα
χαρακτηριστικά κατανομής, όπως ποσοστιαίες τιμές ή
προτιμήσεις, παραμένει δύσκολος. Παρόλο που πρόσφατες
προσεγγίσεις επιτρέπουν στους χρήστες να κάνουν
αναζητήσεις βάσει ποσοστιαίων προτάσεων, μεγάλο μέρος
της έρευνας στην ανακάλυψη δεδομένων βασίζεται σε
ευριστικές μεθόδους, οι οποίες συχνά οδηγούν σε
μεροληπτικά αποτελέσματα. Η παρούσα εργασία παρουσιάζει
το πρώτο θεωρητικά τεκμηριωμένο πλαίσιο που ενοποιεί την
εύρεση δεδομένων τόσο σε κεντρικά όσο και σε
αποκεντρωμένα περιβάλλοντα. Πιο συγκεκριμένα, έστω
$\mathcal{P}={P_1,\ldots, P_N}$ ένα αποθετήριο με $N$
σύνολα δεδομένων, όπου κάθε $P_i\subset \mathbb{R}^d$,
με $d$ σταθερά. Μελετούμε το πρόβλημα δημιουργίας δομής
δεδομένων με επίγνωση ποσοστών (Ptile) και το πρόβλημα
δημιουργίας δομής δεδομένων με επίγνωση top-$k$ (Pref),
τόσο στο κεντρικό όσο και στο αποκεντρωμένο περιβάλλον.
Στο κεντρικό περιβάλλον υποθέτουμε άμεση πρόσβαση στα
σύνολα δεδομένων του $\mathcal{P}$. Στο αποκεντρωμένο
περιβάλλον, για κάθε $i \in [Ν]$, διαθέτουμε μία
περίληψη $\mathcal{S}_{P_i}$ που αποτελεί συμπιεσμένη
αναπαράσταση του $P_i$ και αποτυπώνει τη δομή του. Για
το πρόβλημα Ptile, ο στόχος είναι η κατασκευή μιας δομής
δεδομένων που, δοθέντος ενός ερωτήματος (ορθογώνιο $R$
και διάστημα $\theta$), επιστρέφει όλα τα ευρετήρια $J$
τέτοια ώστε $j\in J$ αν και μόνο αν $\frac{|P_j\cap
R|}{|P_j|} \in \theta$. Για το πρόβλημα Pref, ο στόχος
είναι η κατασκευή μιας δομής δεδομένων που, δοθέντος
ενός ερωτήματος (διάνυσμα $v$ και διάστημα $\theta$),
επιστρέφει όλα τα ευρετήρια $J$ τέτοια ώστε $j\in J$ αν
και μόνο αν $s_k(P_j,v)\in \theta$, όπου $s_k(P_j,v)$
είναι το εσωτερικό γινόμενο της $k$-οστής μεγαλύτερης
προβολής του $P_j$ πάνω στο $v$. Αρχικά παρουσιάζουμε
κατώτερα όρια για τα προβλήματα Ptile και Pref στο
κεντρικό περιβάλλον, δείχνοντας ότι δεν μπορούμε να
ελπίζουμε σε σχεδόν γραμμικές δομές δεδομένων με
πολυλογαριθμικό χρόνο απάντησης. Έπειτα επικεντρωνόμαστε
σε προσεγγιστικές δομές δεδομένων και για τα δύο
προβλήματα και στα δύο περιβάλλοντα. Παρουσιάζουμε δομές
δεδομένων χωρητικότητας $\tilde{O}(N)$ και χρόνου
προεπεξεργασίας $\tilde{O}(N)$, που απαντούν σε
ερωτήματα Ptile και Pref σε χρόνο $\tilde{O}(1+OUT)$,
όπου $OUT$ είναι το μέγεθος της εξόδου. Οι δομές
επιστρέφουν σύνολο ευρετηρίων $J$ τέτοιο ώστε: i) για
κάθε $P_i$ που ικανοποιεί το ερώτημα, $i\in J$, και ii)
αν $j\in J$, τότε το $P_j$ ικανοποιεί το ερώτημα με
πρόσθετο σφάλμα το πολύ $\varepsilon+2\delta$, όπου
$\varepsilon$ είναι αυθαίρετα μικρή σταθερά και $\delta$
είναι το σφάλμα της περίληψης.
|
4:24 - 4:27pm |
Georgios Grigoropoulos (Kpler)*; Alexandros Troupiotis -
Kapeliaris (Kpler); Ilias Chamatidis (Kpler); Evangelia
Filippou (Kpler); Konstantina Bereta (Kpler)
Georgios Grigoropoulos (Kpler)*; Alexandros Troupiotis -
Kapeliaris (Kpler); Ilias Chamatidis (Kpler); Evangelia
Filippou (Kpler); Konstantina Bereta (Kpler)
Click to display the abstract
Abstract:
Critical maritime events have significant social,
environmental and economic consequences. This paper
presents a suite of applications that utilize big data
streams to early forecast and automate mitigation
procedures of critical maritime events effectively. Key
innovations include an automated collision avoidance
system using real-time AIS data and a hazardous weather
rerouting solution that integrates fleet intelligence
based on historical vessel mobility patterns with
weather forecasts. These novel solutions aim to enhance
the efficiency of vessel traffic monitoring systems,
support autonomous vessel integration in the global
fleet, and minimize global supply chain disruptions
caused by maritime incidents.
Περίληψη:
Οι κρίσιμες καταστάσεις στον χώρο της ναυτιλίας
επιφέρουν σοβαρές κοινωνικές, περιβαλλοντικές και
οικονομικές επιπτώσεις. Η παρούσα εργασία παρουσιάζει
ένα σύνολο εφαρμογών που αξιοποιούν ροές μεγάλων
δεδομένων για την έγκαιρη πρόγνωση και την
αυτοματοποίηση διαδικασιών αποφυγής και μετριασμού
τέτοιων συμβάντων με υψηλή αποτελεσματικότητα. Οι
βασικές καινοτομίες περιλαμβάνουν ένα αυτοματοποιημένο
σύστημα αποφυγής συγκρούσεων μεταξύ πλοίων, βασισμένο σε
δεδομένα AIS σε πραγματικό χρόνο, καθώς και μία λύση
επαναδρομολόγησης πλοίων σε περιπτώσεις επικίνδυνων
καιρικών συνθηκών, η οποία ενσωματώνει πρότυπα
κινητικότητας πλοίων από ιστορικά δεδομένα και
μετεωρολογικές προγνώσεις. Οι καινοτόμες αυτές
προσεγγίσεις στοχεύουν στη βελτίωση της
αποτελεσματικότητας των συστημάτων παρακολούθησης
θαλάσσιας κυκλοφορίας, στην υποστήριξη της ενσωμάτωσης
αυτόνομων πλοίων στον παγκόσμιο στόλο και στη μείωση των
διαταραχών στην παγκόσμια εφοδιαστική αλυσίδα που
προκαλούνται από ναυτιλιακά συμβάντα.
|
4:27 - 4:30pm |
Pantelis Ypsilantis (Aristotle University Of
Thessaloniki); Theodoros Toliopoulos (Aristotle University
of Thessaloniki)*; Anastasios Gounaris (Aristotle
University Of Thessaloniki)
Pantelis Ypsilantis (Aristotle University Of
Thessaloniki); Theodoros Toliopoulos (Aristotle University
of Thessaloniki)*; Anastasios Gounaris (Aristotle
University Of Thessaloniki)
Click to display the abstract
Abstract:
We propose a distributed fabric over a set of autonomous
databases over an edge network that enables
decentralized querying, addressing privacy concerns and
enhancing performance. Employing SQLite instances per
edge device, Docker, Kafka, and the Spring Framework,
the system demonstrates efficient synchronization and
scalability in querying.
Περίληψη:
Προτείνουμε μια κατανεμημένη υποδομή πάνω από ένα σύνολο
αυτόνομων βάσεων δεδομένων σε ένα δίκτυο στα άκρα, η
οποία επιτρέπει αποκεντρωμένα ερωτήματα, με την
αντιμετώπιση ζητημάτων απορρήτου και την βελτίωση της
απόδοσης. Με χρήση ξεχωριστών SQLite βάσεων δεδομένων σε
κάθε συσκευή στα άκρα, Docker, Kafka και το Spring
Framework, το σύστημα επιδεικνύει αποδοτικό συγχρονισμό
και επεκτασιμότητα στην εκτέλεση ερωτημάτων.
|
4:30 - 4:33pm |
Andreas Doumouras (University of the Peloponnese);
Evangelos Mitikas (University of West Attica); Ermis
Doulos (University of the Peloponnese); Manos
Schoinoplokakis (University of the Peloponnese); Giannis
Nikolentzos (University of the Peloponnese); Christos
Tryfonopoulos (University of the Peloponnese)*; Spiros
Skiadopoulos (University of the Peloponnese); Costas
Vassilakis (University of the Peloponnese); Paraskevi
Raftopoulou (University of the Peloponnese)
Andreas Doumouras (University of the Peloponnese);
Evangelos Mitikas (University of West Attica); Ermis
Doulos (University of the Peloponnese); Manos
Schoinoplokakis (University of the Peloponnese); Giannis
Nikolentzos (University of the Peloponnese); Christos
Tryfonopoulos (University of the Peloponnese)*; Spiros
Skiadopoulos (University of the Peloponnese); Costas
Vassilakis (University of the Peloponnese); Paraskevi
Raftopoulou (University of the Peloponnese)
Click to display the abstract
Abstract:
This work presents PROVATO (PRecisiOn liVestock
monitoring with AI and IoT tOols), an edge AI and
IoT-powered architecture and platform for real-time
livestock monitoring. The system enables farmers to
track animal health and behaviour, ensuring scalable
data processing and AI inference at both the edge and
the cloud. This approach supports decision-making,
reduces resource waste, and improves animal welfare.
Περίληψη:
Η παρούσα εργασία παρουσιάζει το PROVATO (PRecisiOn
liVestock monitoring with AI and IoT tOols), μια
πλατφόρμα παρακολούθησης ζώων εκτροφής σε πραγματικό
χρόνο, βασισμένη σε τεχνολογίες edge-AI και IoT. Το
σύστημα συλλέγει και επεξεργάζεται δεδομένα από φορητούς
αισθητήρες, περιβαλλοντικές πηγές και εφαρμογές,
παρέχοντας στους κτηνοτρόφους χρήσιμες πληροφορίες και
ειδοποιήσεις για την υγεία και τη συμπεριφορά των ζώων.
Με επεκτάσιμη επεξεργασία και ανάλυση δεδομένων τόσο στο
άκρο του δικτύου (edge) όσο και στο υπολογιστικό νέφος
(cloud), το PROVATO ενισχύει τη διαδικασία λήψης
αποφάσεων, μειώνει τη σπατάλη πόρων και βελτιώνει την
ευζωία των εκτρεφόμενων ζώων. Αναπτυγμένο στην Αρκαδία,
μια περιοχή όπου ο αγροδιατροφικός τομέας και οι
τεχνολογίες πληροφορικής αποτελούν στρατηγικές
προτεραιότητες, το PROVATO προάγει την περιφερειακή
καινοτομία, υποστηρίζει την ηθική κτηνοτροφία και
προσφέρει πρακτικά οφέλη στους παραγωγούς, όπως αυξημένη
παραγωγικότητα και εισόδημα μέσω της υποβοηθούμενης από
την τεχνητή νοημοσύνη λήψης αποφάσεων.
|
4:33 - 4:36pm |
Styliani Kyrama (Aristotle University of Thessaloniki)*;
Anastasios Gounaris (Aristotle University of Thessaloniki)
Styliani Kyrama (Aristotle University of Thessaloniki)*;
Anastasios Gounaris (Aristotle University of Thessaloniki)
Click to display the abstract
Abstract:
LIMECEP combines in a novel way the three main
evaluation approaches: slack-based buffering
(pessimistic), speculative processing (optimistic), and
lazy evaluation, while also computing only maximal
matches in the presence of Kleene+ events. The proposed
framework provides robust and effective processing of
real-world input streams that may contain unordered and
duplicated events. Furthermore, our engine avoids
traditional NFA-based representations altogether and
employs an index-based internal model suitable for
resource-constrained environment. It minimizes redundant
computation through selective re-processing and
on-the-fly statistics to further guide adaptive
behavior. This unified design supports high accuracy,
low latency, and low resource usage, and outperforms
state-of-the-art paradigms, such as FlinkCEP.
Περίληψη:
"Το LIMECEP συνδυάζει με καινοτόμο τρόπο τις τρεις
κύριες προσεγγίσεις αξιολόγησης: προσωρινή αποθήκευση με
χρονική χαλαρότητα (απαισιόδοξη προσέγγιση), άμεση
επεξεργασία με εικασίες (αισιόδοξη), και ""οκνηρή""
αξιολόγηση (lazy evaluation), υπολογίζοντας ταυτόχρονα
μόνο τις μέγιστες αντιστοιχίσεις στην παρουσία
επαναλαμβανόμενων γεγονότων τύπου Kleene+. Το
προτεινόμενο πλαίσιο προσφέρει αξιόπιστη και
αποτελεσματική επεξεργασία ροών εισόδου, οι οποίες
ενδέχεται να περιλαμβάνουν γεγονότα που λαμβάνονται με
αλλαγμένη χρονική σειρά ή και διπλότυπα. Επιπλέον, η
μηχανή μας αποφεύγει πλήρως τις παραδοσιακές
αναπαραστάσεις με πεπερασμένα αυτόματα (NFA) και
χρησιμοποιεί ένα εσωτερικό μοντέλο βασισμένο σε
ευρετήρια, κατάλληλο για περιβάλλοντα με περιορισμένους
πόρους. Ελαχιστοποιεί τους υπολογισμούς μέσω επιλεκτικής
επανεπεξεργασίας και στατιστικών μετρήσεων σε πραγματικό
χρόνο που καθοδηγούν την προσαρμοστική της συμπεριφορά.
Αυτός ο ενοποιημένος σχεδιασμός υποστηρίζει υψηλή
ακρίβεια, χαμηλή καθυστέρηση και χαμηλή κατανάλωση
πόρων, ξεπερνώντας σύγχρονες προσεγγίσεις, όπως το
FlinkCEP."
|
4:36 - 4:39pm |
George Balanos (University of Ioannina)*
George Balanos (University of Ioannina)*
Click to display the abstract
Abstract:
Retrieval-Augmented Generation (RAG) systems combine
large language models (LLMs) with document retrieval to
enhance accuracy in domain-specific applications, but
they face significant challenges in transparency and
interpretability. This research focuses on improving
explainability through post-hoc perturbation-based
methods that analyze the impact of input modifications
on model outputs. Existing perturbation techniques are
computationally intensive. To address this, we propose
three selective perturbation strategies: (1) using a
Graph-of-Words (GOW) representation, where words are
treated as nodes and their co-occurrence relationships
form edges, (2) hierarchical perturbation selection,
which progressively narrows the scope from larger text
units (e.g., paragraphs) to smaller ones (e.g.,
sentences or words), and (3) targeting perturbations
based on part-of-speech (POS) tagging to focus on
syntactic structures. Our approach reduces computational
costs while maintaining explanation quality,
highlighting the need for more efficient and scalable
techniques to improve the interpretability of complex AI
systems without compromising performance.
Περίληψη:
Τα συστήματα Ανάκτησης-Ενισχυμένης Παραγωγής (RAG)
συνδυάζουν μεγάλα γλωσσικά μοντέλα (LLMs) με ανάκτηση
εγγράφων για την ενίσχυση της ακρίβειας σε εφαρμογές
ειδικών τομέων, όμως αντιμετωπίζουν σημαντικές
προκλήσεις ως προς τη διαφάνεια και την ερμηνευσιμότητα.
Η παρούσα έρευνα επικεντρώνεται στη βελτίωση της
εξηγησιμότητας μέσω post-hoc perturbation μεθόδων, οι
οποίες αναλύουν την επίδραση των τροποποιήσεων στην
εισόδου στις εξόδους του μοντέλου. Οι υπάρχουσες
τεχνικές διαταραχής είναι υπολογιστικά απαιτητικές. Για
την αντιμετώπιση αυτού του ζητήματος, προτείνουμε τρεις
επιλεκτικές στρατηγικές διαταραχής: (1) χρήση
αναπαράστασης Γράφου Λέξεων (Graph-of-Words, GOW), όπου
οι λέξεις θεωρούνται κόμβοι και οι σχέσεις συνεμφάνισης
σχηματίζουν ακμές, (2) ιεραρχική επιλογή διαταραχών, που
περιορίζει προοδευτικά το πεδίο από μεγαλύτερες μονάδες
κειμένου (π.χ. παραγράφους) σε μικρότερες (π.χ.
προτάσεις ή λέξεις), και (3) στόχευση των διαταραχών
βάσει σήμανσης μέρους του λόγου (part-of-speech, POS
tagging) για εστίαση σε συντακτικές δομές. Η προσέγγισή
μας μειώνει το υπολογιστικό κόστος διατηρώντας παράλληλα
την ποιότητα των εξηγήσεων, τονίζοντας την ανάγκη για
πιο αποδοτικές και επεκτάσιμες τεχνικές που βελτιώνουν
την ερμηνευσιμότητα πολύπλοκων συστημάτων τεχνητής
νοημοσύνης χωρίς να θυσιάζουν την απόδοση.
|
4:39 - 4:42pm |
"Thanasis Georgiadis (University of Ioannina)*; Achilleas
Michalopoulos (University of Ioannina); Dimitris
Dimitropoulos ( University of Ioannina); Dimitris
Tsitsigkos (Archimedes, AthenaRC); Nikos Mamoulis
(University of Ioannina)"
"Thanasis Georgiadis (University of Ioannina)*; Achilleas
Michalopoulos (University of Ioannina); Dimitris
Dimitropoulos ( University of Ioannina); Dimitris
Tsitsigkos (Archimedes, AthenaRC); Nikos Mamoulis
(University of Ioannina)"
Click to display the abstract
Abstract:
Presenting Hecatoncheir, a plug-and-play C/C++ library
for distributed and parallel management of big spatial
data, which does not depend on underlying engines such
as Spark. This way, Hecatoncheir makes best use of
resources, state-of-the-art algorithms for in-memory
index-based spatial query processing, and the efficient
C++ Boost Geometry for geometry comparisons. We
demonstrate the simplicity of installation and use of
Hecatoncheir with the help of our easy-to-use API (setup
takes only a couple of minutes) and its excellent
performance and scalability (evaluates spatial queries
orders of magnitude faster than Apache Sedona).
Περίληψη:
Παρουσιάζουμε τον Εκατόγχειρα, μια βιβλιοθήκη C/C++
τύπου plug-and-play για κατανεμημένη και παράλληλη
διαχείριση μεγάλου όγκου χωρικών δεδομένων, η οποία δεν
εξαρτάται από υποκείμενες μηχανές όπως το Spark. Με
αυτόν τον τρόπο, ο Εκατόγχειρας αξιοποιεί στο έπακρο
τους διαθέσιμους πόρους, σύγχρονους αλγορίθμους για
επεξεργασία χωρικών ερωτημάτων στη μνήμη με χρήση
ευρετηρίων, καθώς και την αποδοτική βιβλιοθήκη Boost
Geometry της C++ για γεωμετρικές συγκρίσεις.
Αναδεικνύουμε την απλότητα εγκατάστασης και χρήσης του
Εκατόγχειρα μέσω του φιλικού API του (η εγκατάσταση
διαρκεί μόλις λίγα λεπτά) και την εξαιρετική του απόδοση
και κλιμάκωση, εκτελώντας χωρικά ερωτήματα ταχύτερα κατά
τάξεις μεγέθους σε σχέση με το Apache Sedona.
|
4:42 - 4:45pm |
Evangelos Chasanis (Archimedes Unit, Athena Research
Center)*
Evangelos Chasanis (Archimedes Unit, Athena Research
Center)*
Click to display the abstract
Abstract:
Large Language Models (LLMs) have demonstrated strong
performance on natural language tasks, including
question answering (QA). However, in specialized domains
such as medicine, these models often suffer from factual
inaccuracies and lack transparency, as their responses
rely heavily on pre-trained knowledge without clear
grounding. To address these limitations, KG2Documents is
proposed, a Retrieval-Augmented Generation (RAG) system
that introduces structured and explainable reasoning by
integrating domain-specific knowledge graphs (KGs).
Constructed via prompting methods, the KG enables
semantic path computation based on identified biomedical
entities in user queries. These paths are transformed
into natural language pseudo-paragraphs, optimized for
model comprehension, and used to guide the retrieval of
relevant unstructured biomedical text from external
sources such as StatPearls. The LLM then fuses
KG-derived reasoning with retrieved content to generate
a coherent pseudo-document, forming the basis for the
final answer. Each answer includes both evidence from
external documents and explicit reasoning paths derived
from the KG, enhancing factual accuracy and
transparency. KG2Documents is evaluated on five MIRAGE
medical QA datasets—MMLU-Med, MedQA-US, MedMCQA,
PubMedQA*, and BioASQ-Y/N—using GPT-3.5 for generation.
Preliminary results show improved accuracy and
traceability compared to traditional RAG approaches.
Περίληψη:
Τα Μεγάλα Γλωσσικά Μοντέλα (ΜεΓΜ – Large Language
Models) έχουν επιδείξει υψηλές επιδόσεις σε εργασίες
φυσικής γλώσσας, όπως η Ερωταποκρισιμότητα (ΕΑ –
Question Answering). Ωστόσο, σε εξειδικευμένους τομείς
όπως η ιατρική, τα μοντέλα αυτά συχνά παρουσιάζουν
πραγματολογικές ανακρίβειες και έλλειψη διαφάνειας,
καθώς οι απαντήσεις τους βασίζονται κυρίως σε
προσχηματισμένη γνώση χωρίς σαφή τεκμηρίωση. Για την
αντιμετώπιση αυτών των περιορισμών, προτείνεται το
KG2Documents, ένα σύστημα Ανακτησιο-Ενισχυμένης
Παραγωγής (ΑΕΠ – Retrieval-Augmented Generation, RAG)
που εισάγει δομημένη και επεξηγήσιμη λογική μέσω της
ενσωμάτωσης εξειδικευμένων Γράφων Γνώσης (ΓΓ – Knowledge
Graphs). Ο ΓΓ κατασκευάζεται μεθοδολογικά μέσω
prompting, επιτρέποντας τον υπολογισμό σημασιολογικών
διαδρομών με βάση τις εντοπισμένες βιοϊατρικές οντότητες
στα ερωτήματα των χρηστών. Οι διαδρομές αυτές
μετατρέπονται σε ψευδο-παραγράφους φυσικής γλώσσας,
βελτιστοποιημένες για κατανόηση από το μοντέλο, και
χρησιμοποιούνται για την καθοδήγηση της ανάκτησης
σχετικού αδόμητου βιοϊατρικού περιεχομένου από
εξωτερικές πηγές, όπως το StatPearls. Στη συνέχεια, το
ΜεΓΜ συγχωνεύει τη λογική που προέρχεται από τον ΓΓ με
το ανακτηθέν περιεχόμενο, δημιουργώντας ένα συνεκτικό
ψευδο-έγγραφο που χρησιμεύει ως βάση για την τελική
απάντηση. Κάθε απάντηση περιλαμβάνει τόσο τεκμήρια από
εξωτερικά έγγραφα όσο και ρητή λογική που προκύπτει από
τον ΓΓ, ενισχύοντας έτσι την πραγματολογική ακρίβεια και
τη διαφάνεια. Το KG2Documents αξιολογείται σε πέντε
ιατρικά σύνολα δεδομένων του πλαισίου MIRAGE: MMLU-Med,
MedQA-US, MedMCQA, PubMedQA* και BioASQ-Y/N, με τη χρήση
του GPT-3.5 για την παραγωγή. Τα προκαταρκτικά
αποτελέσματα δείχνουν βελτιωμένη ακρίβεια και
ανιχνευσιμότητα σε σύγκριση με τις παραδοσιακές
προσεγγίσεις ΑΕΠ.
|
4:45 - 4:48pm |
Theodora Troizi (Athena Research Center)*; Ioannis
Foufoulas (Athena Research Center); Alkis Simitsis (Athena
Research Center)
Theodora Troizi (Athena Research Center)*; Ioannis
Foufoulas (Athena Research Center); Alkis Simitsis (Athena
Research Center)
Click to display the abstract
Abstract:
SQL engines are widely used for large-scale analytics,
but they can fall short when it comes to expressing
complex or custom computations. While user-defined
functions (UDFs) allow SQL to be extended with external
logic, making that integration efficient, especially
when involving hardware like GPUs, is far from
straightforward. In this work, we design a UDF pipeline
that combines low-level memory control with
GPU-accelerated aggregation logic. Computation is
offloaded through a native extension interface, with raw
input buffers passed to a GPU-based runtime for
processing. Our implementation supports both grouped and
ungrouped operations on columnar input. In our
experiments, we observed that CPU-based approaches
perform better for ungrouped queries due to lower
overhead, while GPU acceleration leads to significant
speedups, especially for grouped aggregations on large
datasets. Along the way, we ran into several challenges,
including the cost of moving data to the GPU, limited
support for complex aggregations, and a lack of
persistent GPU contexts across queries. These
observations highlight opportunities to improve how SQL
systems manage custom computation, particularly when
using accelerators like GPUs.
Περίληψη:
Οι μηχανές SQL χρησιμοποιούνται ευρέως για αναλύσεις σε
μεγάλη κλίμακα, αλλά δυσκολεύονται όταν απαιτούνται πιο
σύνθετοι ή προσαρμοσμένοι υπολογισμοί. Οι συναρτήσεις
που ορίζονται από τον χρήστη (UDFs) επεκτείνουν τις
δυνατότητες της SQL ενσωματώνοντας εξωτερική λογική,
όμως η αποδοτική υλοποίησή τους, ειδικά με χρήση
επιταχυντών όπως οι GPU, παραμένει πρόκληση. Στην
εργασία αυτή, παρουσιάζουμε μια υποδομή εκτέλεσης UDF
που συνδυάζει χαμηλού επιπέδου διαχείριση μνήμης με
επιταχυνόμενη εκτέλεση συγκεντρωτικών πράξεων στη GPU. Η
επεξεργασία μεταφέρεται σε εγγενές επίπεδο μέσω ειδικής
διεπαφής, όπου τα δεδομένα περνούν σε GPU για εκτέλεση.
Η υλοποίησή μας υποστηρίζει τόσο ερωτήματα με όσο και
χωρίς ομαδοποίηση, σε μορφή στηλοειδών δεδομένων. Τα
πειραματικά μας αποτελέσματα δείχνουν ότι οι υλοποιήσεις
σε CPU αποδίδουν καλύτερα για απλά (μη ομαδοποιημένα)
ερωτήματα λόγω μικρότερης επιβάρυνσης, ενώ οι GPU
προσφέρουν σημαντική επιτάχυνση σε περιπτώσεις
ομαδοποίησης και μεγάλου όγκου δεδομένων. Κατά την
ανάπτυξη, αντιμετωπίσαμε εμπόδια όπως το κόστος
μεταφοράς δεδομένων στη GPU, οι περιορισμένες
δυνατότητες για πολύπλοκες συγκεντρωτικές λειτουργίες
και η απουσία μηχανισμού διατήρησης GPU κατά την
εκτέλεση διαδοχικών ερωτημάτων. Αυτές οι παρατηρήσεις
δείχνουν σαφώς ότι υπάρχει περιθώριο για βελτίωση στον
τρόπο που οι SQL μηχανές διαχειρίζονται την εκτέλεση
προσαρμοσμένων υπολογισμών με χρήση επιταχυντών.
|
4:48 - 4:51pm |
Pavlos Spanoudakis (Athena Research Center)*; Ioannis
Foufoulas (Athena Research Center); Alkis Simitsis (Athena
Research Center)
Pavlos Spanoudakis (Athena Research Center)*; Ioannis
Foufoulas (Athena Research Center); Alkis Simitsis (Athena
Research Center)
Click to display the abstract
Abstract:
Modern data workflows increasingly rely on User-Defined
Functions (UDFs) to express logic that goes beyond
built-in operations - especially in tasks involving data
cleaning, transformation, or integration with machine
learning models. Benchmarking the UDF support in a
principled and systematic way remains a relatively
unexplored field for most data management systems,
including Python-based DataFrame runtimes. These systems
adopt diverse execution models, ranging from eager
evaluation to parallelism and lazy, query-optimized
pipelines. As a result, the behavior and performance of
UDFs can vary significantly depending on system
characteristics, query structure, and implementation
details. Understanding how UDFs behave across these
frameworks is important for both users writing efficient
pipelines and developers improving system performance.
Our framework introduces a unified execution interface,
dynamic UDF handling, and shared benchmarking logic,
allowing consistent comparison of scalar, aggregate, and
table UDFs across different backends, using a common set
of queries and datasets. Through this work, we can
observe the performance effects of UDF design choices,
data scale, and system-level execution strategies. This
reveals opportunities for optimization and guidance: how
UDF structure influences runtime efficiency, how users
might adjust implementations for better performance, and
which system-level features have the most impact. This
extension enables UDFBench to support a broader range of
systems and contributes towards more informed decisions
when building UDF-heavy pipelines.
Περίληψη:
Οι σύγχρονες ροές εργασίας δεδομένων βασίζονται όλο και
περισσότερο σε Συναρτήσεις Ορισμένες από τον Χρήστη
(User-Defined Functions, UDFs), οι οποίες επιτρέπουν την
υλοποίηση λογικής που ξεπερνά τις βασικές ενσωματωμένες
λειτουργίες, ιδιαίτερα σε εργασίες όπως καθαρισμός και
μετασχηματισμός δεδομένων, ή η ενσωμάτωση μοντέλων
μηχανικής μάθησης. Ωστόσο, η συστηματική και μεθοδική
αξιολόγηση της υποστήριξης UDF παραμένει σχετικά
ανεξερεύνητη, ειδικά στην περίπτωση των DataFrame που
βασίζονται στην Python. Αυτά τα συστήματα ακολουθούν
διαφορετικά μοντέλα εκτέλεσης: από άμεση (eager)
εκτέλεση, μέχρι παραλληλία και καθυστερημένη (lazy)
εκτέλεση με βελτιστοποιημένη ροή. Ως αποτέλεσμα, η
συμπεριφορά και η απόδοση των UDFs μπορεί να διαφέρει
σημαντικά, ανάλογα με τα χαρακτηριστικά του συστήματος,
τη δομή των ερωτημάτων και την υλοποίησή τους. Η
κατανόηση των διαφορών αυτών είναι κρίσιμη, τόσο για
τους χρήστες που επιδιώκουν αποδοτικές ροές εργασίας,
όσο και για τους προγραμματιστές που θέλουν να
βελτιώσουν την απόδοση των συστημάτων. Αναπτύξαμε μια
ενιαία διεπαφή εκτέλεσης ερωτημάτων (queries), με
δυναμική χρήση των UDF και κοινή λογική αξιολόγησης,
επιτρέποντας σύγκριση μεταξύ διαφορετικών τύπων
UDFs(scalar, aggregate και table) σε διαφορετικές
υλοποιήσεις, με χρήση ίδιων ερωτημάτων και συνόλων
δεδομένων. Στο πλαίσιο αυτό, μπορούμε να μελετήσουμε πώς
η σχεδίαση των UDFs, το μέγεθος των δεδομένων και οι
στρατηγικές εκτέλεσης σε επίπεδο συστήματος επηρεάζουν
την απόδοση. Αυτό αποκαλύπτει ευκαιρίες για
βελτιστοποίηση και καθοδήγηση: πώς η δομή μιας UDF
επηρεάζει τον χρόνο εκτέλεσης, πώς μπορούν οι χρήστες να
προσαρμόσουν τις υλοποιήσεις για καλύτερη απόδοση και
ποια χαρακτηριστικά των συστημάτων έχουν τη μεγαλύτερη
επίδραση. Αυτή η επέκταση του UDFBench, του επιτρέπει να
υποστηρίξει περισσότερα συστήματα και βοηθά στη λήψη
τεκμηριωμένων αποφάσεων κατά τη σχεδίαση ροών που
περιλαμβάνουν εκτενή χρήση UDFs.
|
4:51 - 4:54pm |
Georgios-Alexandros Kostas (University of Athens)*;
Ioannis Xiros (University of Athens); Zisimos Vakras
(University of Athens)
Georgios-Alexandros Kostas (University of Athens)*;
Ioannis Xiros (University of Athens); Zisimos Vakras
(University of Athens)
Click to display the abstract
Abstract:
The recent transition to in-memory databases has shifted
the challenges of join performance towards CPU
efficiency, cache locality and effective utilization of
the processor’s parallelism capabilities. In our
solution to the 2025 SIGMOD Programming contest - which
ranked among the contest’s finalists - we implement a
cache-optimized, hash-based join pipeline designed for
high performance across a range of hardware
configurations, fully utilizing available parallelism
capabilities. We target a zero-copy design with minimal
preprocessing of the paginated input data, introducing a
staged materialization approach, where each join emits
only the column needed by the next, deferring full
output materialization to the root join. Our
implementation leverages prior research in
join-optimized hash tables to incorporate a
cache-efficient, CRC-based hashing scheme that stores
all its entries in a single contiguous memory block,
while simultaneously allowing for effective
parallelization of the build and probe phases. To
efficiently utilize multithreading, our system features
a task queue that dynamically schedules work across
hardware threads, with tasks enabling interdependent
joins being prioritized to unlock downstream computation
earlier. We break down heavy operations into
fine-grained, self-contained tasks - each independently
processing their own data chunks - and introduce a
lock-free chunk-feeder mechanism to enable dynamic work
stealing, ensuring balanced workload distribution and
mitigating data skew. Each task produces paginated
output in dedicated per-thread buffers without requiring
synchronization. Intermediate results are immediately
forwarded in cache-hot chunks to downstream joins
through a lock-free pipeline that permits finer-grained
tasks by eliminating synchronization overhead. Through
the combination of these techniques, our design
outperforms the baseline solution by 630x and secures a
spot among the contest’s finalists.
Περίληψη:
Η πρόσφατη μετάβαση των βάσεων δεδομένων στην κύρια
μνήμη έχει μετατοπίσει τις προκλήσεις της απόδοσης
ζεύξεων (joins) προς τη βελτιστοποίηση της
αποτελεσματικότητας στη CPU, της τοπικότητας στη κρυφή
μνήμη (cache) και της αποτελεσματικής αξιοποίησης της
παραλληλίας. Στη λύση μας για τον Προγραμματιστικό
Διαγωνισμό SIGMOD 2025 - η οποία συγκαταλέχτηκε στους
φιναλίστ - υλοποιούμε μια σωλήνωση ζεύξεων (join
pipeline) βασισμένη στην κατακερματισμένη αναζήτηση,
βελτιστοποιημένη για την cache και σχεδιασμένη για
υψηλές επιδόσεις σε διαφορετικές αρχιτεκτονικές
υπολογιστών, αξιοποιώντας πλήρως τις διαθέσιμες
δυνατότητες παραλληλισμού. Στοχεύουμε σε σχεδίαση χωρίς
αντιγραφή δεδομένων (zero copy) με ελάχιστη
προεπεξεργασία και εισάγουμε μια τεχνική που περιορίζει
την αποθήκευση ενδιάμεσων αποτελεσμάτων
(materialization), παράγοντας μόνο τη στήλη που
απαιτείται για την επόμενη ζεύξη και αναβάλλοντας την
πλήρη υλοποίηση του τελικού αποτελέσματος μέχρι το τέλος
της διαδικασίας. Η λύση μας αξιοποιεί προηγούμενη
έρευνα, εφαρμόζοντας ένα αποδοτικό ως προς την cache
σχήμα κατακερματισμού που τοποθετεί όλες τις εγγραφές σε
συνεχόμενες θέσεις μνήμης, επιτρέποντας ταυτόχρονα την
αποδοτική παραλληλοποίηση των φάσεων κατασκευής και
αναζήτησης. Για την αποδοτική αξιοποίηση της
πολυνημάτωσης, το σύστημά μας περιλαμβάνει μια ουρά
εργασιών που χρονοπρογραμματίζει δυναμικά τις εργασίες
σε όλα τα νήματα του επεξεργαστή, δίνοντας προτεραιότητα
σε εξαρτώμενες ζεύξεις, ώστε να καταστεί εφικτή νωρίτερα
η επεξεργασία επόμενων συνενώσεων. Διασπάμε βαριές
εργασίες σε μικρότερες που επεξεργάζονται τμηματικά τα
δεδομένα και εισάγουμε έναν μηχανισμό χωρίς κλειδώματα
(lock free) για τη διανομή τους, επιτρέποντας δυναμικό
διαμοιρασμό των εργασιών (job stealing) για εξισορρόπηση
του φόρτου και αντιμετώπιση της ανομοιομορφίας των
δεδομένων. Κάθε εργασία παράγει σελιδοποιημένη έξοδο σε
αποκλειστικές θέσεις μνήμης ανά νήμα, χωρίς ανάγκη
συγχρονισμού. Τα ενδιάμεσα αποτελέσματα προωθούνται
άμεσα στις επόμενες ζεύξεις σε κομμάτια που είναι ακόμα
ζεστά στη cache μέσω μιας lock-free σωλήνωσης, η οποία
επιτρέπει την επεξεργασία μικρότερων εργασιών χωρίς
επιβαρύνσεις συγχρονισμού. Ο συνδυασμός αυτών των
τεχνικών μάς επέτρεψε να ξεπεράσουμε τη βασική λύση κατά
630 φορές και να διακριθούμε ως φιναλίστ του
διαγωνισμού.
|
5:00 - 6:00pm |
Session 4b: "Demo, Research Poster & Student Poster
Presentations"
|
9:00-10:30pm |
Social Dinner
|