Emmanuelle Bourigault

Research Engineer Multimodal AI

Email GitHub LinkedIn Scholar PyPI

About

I am a Research Engineer building multimodal AI and agent systems, with prior large-scale medical/multimodal benchmark experience. My work spans scientific AI, VLM post-training (SFT, DPO, RLHF-style preference optimisation), VLM/RAG evaluation, diffusion models, and geometry-aware learning, with industry experience across GE HealthCare, Novartis, and QuantCo.

I hold a PhD from the University of Oxford (Visual Geometry Group), where I published at top venues and built production-quality codebases for multimodal learning and generative models.

Experience

Jan 2026 – Present

AI Research Engineer — Agent Evaluation, Safety and Multimodal Reliability

Building open-source evaluation and safety infrastructure for tool-using multimodal and voice agents, including trace-level VLM reasoning evaluation, voice-agent critical-entity robustness, and policy-gated action validation.

May 2025 – Sep 2025

AI Engineer — Multimodal ML

QuantCo · London, UK

Building multimodal ML pipelines for production decision-support systems
Designing evaluation and regression-testing infrastructure for model releases

Oct 2021 – Dec 2025

PhD Researcher

University of Oxford · Oxford, UK

Built distributed training workflows for diffusion and vision-transformer models on multi-GPU clusters
Processed and curated datasets at scale (1B+ labelled masks, 48K+ source datasets)
Published 6 papers at ICCV, MICCAI, CVPR, and BMVC.

Oct 2021 – Jan 2022

ML Engineer Intern

Novartis · Oxford, UK

Built multimodal learning pipelines for medical imaging data
Worked across data engineering, model training, and evaluation

Sep 2020 – Sep 2021

AI Software Engineer

GE HealthCare · Oxford, UK

Developed ML-powered features for clinical imaging products
Integrated models into production software with CI/CD and testing

Jun 2020 – Sep 2020

AI Engineer Intern

Netdevices · Paris, France

Prototyped deep learning pipelines for healthcare applications

Open-Source & Tooling

mmeval-vrag

Pip-installable Python package for evaluating multimodal RAG systems. Measures retrieval quality, hallucination rate, answer faithfulness, and cross-modal alignment. Supports checkpoint comparison and automated regression testing for CI integration.

pip install mmeval-vrag

PyPI → GitHub →

WMW — World Models in Words

Framework for auditing the physical state-transition commitments of vision-language models. Instead of scoring only the answer, it elicits a typed reasoning trace, verifies it with a hybrid checker, and surfaces hidden inconsistency. Includes WMW-TRACEBANK: 200 validated traces across 17 physics families plus 3,200 preference pairs.

VLM Evaluation Faithfulness DPO

GitHub →

Technical Skills

Languages & Core: Python (proficient), C++ (intermediate), Bash, Git

ML Frameworks: PyTorch, JAX, Hugging Face Transformers, vLLM, ONNX

Infrastructure: Docker, Kubernetes, AWS (EC2/S3/SageMaker), FastAPI, CI/CD, distributed training (multi-node GPU)

Data & Retrieval: FAISS, Pinecone, Chroma, PostgreSQL, large-scale data filtering, synthetic data generation, DICOM

Post-Training: SFT, DPO, RLHF-style preference optimisation, PEFT/LoRA/QLoRA, reward-model evaluation

Evaluation: Hallucination detection, retrieval faithfulness, visual grounding, cross-modal alignment, regression testing, benchmark design

Projects

UKBOB: Billion-Scale 3D Segmentation Pipeline

End-to-end pipeline generating 1B+ labelled masks across 48K+ datasets for generalizable 3D segmentation. Semi-supervised learning with automated quality control.

PyTorch Distributed Training Large-Scale Data

Project → Code →

FrEVL: Parameter-Efficient VLM Adaptation

Vision-language adaptation using frozen CLIP/BLIP embeddings. Strong multimodal performance with significantly fewer trainable parameters. Designed for fast iteration and low compute cost.

CLIP BLIP Efficient Fine-Tuning

Code →

Agentic RAG System

Retrieval-augmented generation system with grounding diagnostics, retrieval quality metrics, and evaluation of multimodal outputs. Built for decision-support use cases.

RAG FastAPI Vector DB

Code →

X-Diffusion: 3D Volume Generation

Cross-sectional diffusion model generating complete 3D volumes from sparse inputs. Production-oriented codebase with reproducible training and inference pipelines.

Diffusion Models 3D PyTorch

Project → Code →

MVDiff: Multi-View Diffusion for 3D Reconstruction

Scalable multi-view generation pipeline for 3D object reconstruction from single images with flexible viewpoint conditioning.

Diffusion Multi-View 3D Recon

Code →

2D→3D Shape Estimation (ViT)

Vision Transformer pipeline estimating 3D shape from single 2D images with clinically relevant evaluation and geometric reasoning.

ViT 3D Recon Medical

Project → Code →

Publications

2026

World Models in Words: Auditing Physical State-Transition Commitments in Vision-Language Models

Emmanuelle Bourigault

Under review

Paper Code

2025

UKBOB: One Billion Labeled Masks for Generalizable 3D Segmentation

Emmanuelle Bourigault, Amir Jamaludin, Abdullah Hamdi

ICCV 2025

Paper Project Code

2025

FrEVL: Leveraging Frozen Pretrained Embeddings for Efficient Vision-Language Understanding Spotlight

Emmanuelle Bourigault, Pauline Bourigault

ICCV Safe and Trustworthy Multimodal AI Systems Workshop 2025

Paper Code

2025

X-Diffusion: Generating 3D Volumes From a Single Image Oral

Emmanuelle Bourigault, Abdullah Hamdi, Amir Jamaludin

ICCV Generative AI Workshop 2025

Paper Project Code

2024

Estimating 3D Shape from 2D Images Using Vision Transformers Oral

Emmanuelle Bourigault, Amir Jamaludin, Andrew Zisserman

MICCAI 2024

Paper Project Code

2024

Multi-Modal Information Bottleneck Attribution with Cross-Attention Guidance

Pauline Bourigault, Emmanuelle Bourigault, Danilo Mantic

BMVC 2024

Paper

2024

MVDiff: Scalable Multi-View Diffusion for 3D Reconstruction

Emmanuelle Bourigault, Pauline Bourigault

CVPR Generative Models for Computer Vision Workshop 2024

Paper Code

Education

2021 – 2025

PhD in Multimodal AI & Computer Vision

University of Oxford — Visual Geometry Group

Advisor: Prof. Andrew Zisserman

2019 – 2020

MSc in Computational Neuroscience

Imperial College London

2016 – 2019

BSc in Mathematics & Statistics

University College London (UCL)