What we work on

Research

Everything we build is a data system. Our research runs in two directions — making data systems work for AI, and inventing data systems for quantum computing.

Data Systems for AI

AI in Data Lakes

We bring machine learning and data lakes together: integrating scattered, heterogeneous data into ML-ready training sets, discovering and selecting models from large model zoos, serving large language models straight from a database, and generating synthetic data across organisational silos without sharing raw records.

Projects

Model Lake

Amalur

Amalur explores the convergence of data integration and machine learning — automating how scattered training data across silos is integrated for downstream models. It is the foundation of the group’s Model Lake vision, where heterogeneous data and rich model zoos meet in one place.

IEEE TKDE 2024 Data integrationMachine learning

Code

Synthetic data

SiloFuse

SiloFuse generates cross-silo synthetic tabular data using latent diffusion models, so organisations can share realistic data without ever exposing raw, feature-partitioned records.

IEEE ICDE 2024 DiffusionPrivacy

Code

Time series

WaveStitch

WaveStitch performs flexible and fast conditional time-series generation with diffusion models, stitching together realistic signals under user-specified constraints.

ACM SIGMOD 2025 DiffusionGenerative

Code

LLM serving

TranSQL / Database-as-Runtime

TranSQL serves large language models with relational queries — compiling model inference to SQL so that LLMs can run inside a database engine, even on low-resource hardware.

ACM SIGMOD 2025 Best demo runner-up LLM servingSQL

Code

Selected publications

Harpoon: Generalised Manifold Guidance for Conditional Tabular Diffusion

Aditya Shankar,Yuandou Wang,Rihan Hai,Lydia Y. Chen

arXiv 2026 arXiv

Accelerating machine learning queries with linear algebra query processing

Wenbo Sun,Asterios Katsifodimos,Rihan Hai

Springer DAPD 2025 DOI arXiv

Database as Runtime: Compiling LLMs to SQL for In-database Model Serving

Wenbo Sun,Ziyu Li,Rihan Hai

ACM SIGMOD 2025 Best-Demo runner-up DOI

Database is All You Need: Serving LLMs with Relational Queries

Wenbo Sun,Ziyu Li,Vaishnav Srinidhi,Rihan Hai

EDBT 2025 DOI

Ilargi: A GPU Compatible Factorized ML Model Training Framework

Wenbo Sun,Rihan Hai

Springer WISE 2025 DOI arXiv

IMLP: An Energy-Efficient Continual Learning Method for Tabular Data Streams

Yuandou Wang,Filip Gunnarsson,Rihan Hai

arXiv 2025 arXiv

Share Secrets for Privacy: Confidential Forecasting with Vertical Federated Learning

Aditya Shankar,Jérémie Decouchant,Dimitra Gkorou,Rihan Hai,Lydia Y. Chen

ARES 2025 DOI

TranSQL +: Serving Large Language Models with SQL on Low-Resource Hardware

Wenbo Sun,Qiming Guo,Wenlu Wang,Rihan Hai

ACM SIGMOD 2025 DOI

WaveStitch: Flexible and Fast Conditional Time Series Generation With Diffusion Models

Aditya Shankar,Lydia Y. Chen,Arie van Deursen,Rihan Hai

ACM SIGMOD 2025 DOI arXiv

Amalur: The Convergence of Data Integration and Machine Learning

Ziyu Li,Wenbo Sun,Danning Zhan,Yan Kang,Lydia Y. Chen,Alessandro Bozzon,Rihan Hai

IEEE TKDE 2024 DOI

AutoFeat: Transitive Feature Discovery over Join Paths

Andra Ionescu,Kiril Vasilev,Florena Buse,Rihan Hai,Asterios Katsifodimos

IEEE ICDE 2024 DOI

CEBench: A Benchmarking Toolkit for the Cost-Effectiveness of LLM Pipelines

Wenbo Sun,Jiaqi Wang,Qiming Guo,Ziyu Li,Wenlu Wang,Rihan Hai

arXiv 2024 arXiv

Cross-Source ML Model Training

Wenbo Sun,Rihan Hai

IEEE ICDE 2024 DOI

Human-in-the-Loop Feature Discovery for Tabular Data

Andra Ionescu,Zeger Mouw,Efthimia Aivaloglou,Rihan Hai,Asterios Katsifodimos

ACM CIKM 2024 DOI

LLM-PQA: LLM-enhanced Prediction Query Answering

Ziyu Li,Wenjie Zhao,Asterios Katsifodimos,Rihan Hai

ACM CIKM 2024 DOI arXiv

Model Selection with Model Zoo via Graph Learning

Ziyu Li,Hilco van der Wilk,Danning Zhan,Megha Khosla,Alessandro Bozzon,Rihan Hai

IEEE ICDE 2024 DOI arXiv

SiloFuse: Cross-silo Synthetic Data Generation with Latent Tabular Diffusion Models

Aditya Shankar,Hans Brouwer,Rihan Hai,Lydia Y. Chen

IEEE ICDE 2024 arXiv

Will Sharing Metadata Leak Privacy?

Danning Zhan,Rihan Hai

IEEE ICDEW 2024 DOI

Amalur: Data Integration Meets Machine Learning

Rihan Hai,Christos Koutras,Andra Ionescu,Ziyu Li,Wenbo Sun,Jessie van Schijndel,Yan Kang,Asterios Katsifodimos

IEEE ICDE 2023 DOI

Data Lakes: A Survey of Functions and Systems

Rihan Hai,Christos Koutras,Christoph Quix,Matthias Jarke

IEEE TKDE 2023 DOI

Macaroni: Crawling and Enriching Metadata from Public Model Zoos

Ziyu Li,Henk Kant,Rihan Hai,Asterios Katsifodimos,Alessandro Bozzon

Springer ICWE 2023 DOI

Metadata Representations for Queryable Repositories of Machine Learning Models

Ziyu Li,Henk Kant,Rihan Hai,Asterios Katsifodimos,Marco Brambilla,Alessandro Bozzon

IEEE Access 2023 DOI

Optimizing ML Inference Queries Under Constraints

Ziyu Li,Mariette Schönfeld,Wenbo Sun,Marios Fragkoulis,Rihan Hai,Alessandro Bozzon,Asterios Katsifodimos

Springer ICWE 2023 DOI

Amalur: Next-generation Data Integration in Data Lakes

Rihan Hai,Christos Koutras,Andra Ionescu,Asterios Katsifodimos

CIDR 2022 PDF

Data Systems for Quantum Computing

Quantum Data Management

We reinvent data management for the quantum era — simulating quantum circuits inside a relational database, compiling database queries to quantum primitives, and charting how data should be stored, queried, and managed on noisy intermediate-scale (NISQ) quantum processors.