Monitoring & Observability

Production-grade monitoring and observability are essential for maintaining reliability, performance, and security. This guide covers the complete observability stack including metrics, traces, logs, and alerts.

The MCP Server uses a dual observability stack: OpenTelemetry for infrastructure metrics and traces, plus LangSmith for LLM-specific observability.

Observability Stack

Metrics

Prometheus + Grafana

Resource utilization
Request rates
Error rates
Custom business metrics

Distributed Tracing

Jaeger + OpenTelemetry

Request flow visualization
Latency breakdown
Service dependencies
Performance bottlenecks

Logging

Structured JSON Logging

Centralized log aggregation
Correlation IDs
Error tracking
Audit trails

LLM Observability

LangSmith

Prompt tracking
Token usage
Model performance
Chain visualization

Monitoring Topics

Explore detailed guides for each monitoring component:

Prometheus Metrics

Set up Prometheus for metrics collection, custom business metrics, and application monitoring

Distributed Tracing

Configure Jaeger and OpenTelemetry for distributed tracing and performance analysis

Structured Logging

Implement structured JSON logging with correlation IDs and centralized aggregation

LangSmith Integration

Track LLM performance, prompts, and chain execution with LangSmith

Grafana Dashboards

Create comprehensive dashboards for metrics visualization and alerting

Alerting & SLOs

Configure Alertmanager, define SLOs, and set up health checks

Quick Start

For a rapid setup, follow this recommended order:

Prometheus Metrics - Start with metrics collection

Distributed Tracing - Add tracing for request flow

Structured Logging - Implement centralized logging

Grafana Dashboards - Visualize metrics and traces

Alerting & SLOs - Set up alerts and health checks

LangSmith Integration - Add LLM-specific observability

Monitoring & Observability

Monitoring & Observability

Observability Stack

Metrics

Distributed Tracing

Logging

LLM Observability

Monitoring Topics

Prometheus Metrics

Distributed Tracing

Structured Logging

LangSmith Integration

Grafana Dashboards

Alerting & SLOs

Quick Start

Next Steps

Scaling

Disaster Recovery

Alerting

Security Best Practices

​Monitoring & Observability

​Observability Stack

Metrics

Distributed Tracing

Logging

LLM Observability

​Monitoring Topics

Prometheus Metrics

Distributed Tracing

Structured Logging

LangSmith Integration

Grafana Dashboards

Alerting & SLOs

​Quick Start

​Next Steps

Scaling

Disaster Recovery

Alerting

Security Best Practices

Monitoring & Observability

Observability Stack

Monitoring Topics

Quick Start

Next Steps