Compresr API

Add context compression to your LLM pipelines

Compresr API pricing by compression model
Model	Description	Price
latte_v1 Query-specific compression — preserves tokens relevant to your question. Enables aggressive compression (up to 200x) for RAG, search, and Q&A pipelines.	Query-specific compression — preserves tokens relevant to your question. Enables aggressive compression (up to 200x) for RAG, search, and Q&A pipelines.	$0.10/ 1M tokens
latte_v2Fast Faster query-specific compression. Up to 5x faster than latte_v1 at the same compression quality.	Faster query-specific compression. Up to 5x faster than latte_v1 at the same compression quality.	$0.10/ 1M tokens

Need on-prem or a custom plan?

Run Compresr inside your VPC with volume pricing, dedicated support, and domain-tuned models.