Monitoring & Observability

Production-grade monitoring and observability are essential for maintaining reliability, performance, and security. This guide covers the complete observability stack including metrics, traces, logs, and alerts.

The MCP Server uses a dual observability stack: OpenTelemetry for infrastructure metrics and traces, plus LangSmith for LLM-specific observability.

Observability Stack

Metrics

Prometheus + Grafana

Resource utilization
Request rates
Error rates
Custom business metrics

Distributed Tracing

Jaeger + OpenTelemetry

Request flow visualization
Latency breakdown
Service dependencies
Performance bottlenecks

Logging

Structured JSON Logging

Centralized log aggregation
Correlation IDs
Error tracking
Audit trails

LLM Observability

LangSmith

Prompt tracking
Token usage
Model performance
Chain visualization

Monitoring Topics

Explore detailed guides for each monitoring component:

Prometheus Metrics

Set up Prometheus for metrics collection, custom business metrics, and application monitoring

Distributed Tracing

Configure Jaeger and OpenTelemetry for distributed tracing and performance analysis

Structured Logging

Implement structured JSON logging with correlation IDs and centralized aggregation

LangSmith Integration

Track LLM performance, prompts, and chain execution with LangSmith

Grafana Dashboards

Create comprehensive dashboards for metrics visualization and alerting

Alerting & SLOs

Configure Alertmanager, define SLOs, and set up health checks

Quick Start

For a rapid setup, follow this recommended order:

Prometheus Metrics - Start with metrics collection
Distributed Tracing - Add tracing for request flow
Structured Logging - Implement centralized logging
Grafana Dashboards - Visualize metrics and traces
Alerting & SLOs - Set up alerts and health checks
LangSmith Integration - Add LLM-specific observability

Next Steps

Scaling

Auto-scaling configuration

Disaster Recovery

Backup and recovery

Alerting

Alert configuration with Alertmanager

Security Best Practices

Security hardening guide

Ready to Start: Choose a monitoring component above to begin your observability setup!

Getting Started

Deployment Options

LangGraph Platform

Kubernetes - GKE

Kubernetes - EKS & AKS

Kubernetes - Best Practices

Infrastructure as Code

Monitoring & Observability

Advanced Deployment

Configuration

Operations

Monitoring & Observability

Monitoring & Observability

Observability Stack

Metrics

Distributed Tracing

Logging

LLM Observability

Monitoring Topics

Prometheus Metrics

Distributed Tracing

Structured Logging

LangSmith Integration

Grafana Dashboards

Alerting & SLOs

Quick Start

Next Steps

Scaling

Disaster Recovery

Alerting

Security Best Practices

Getting Started

Deployment Options

LangGraph Platform

Kubernetes - GKE

Kubernetes - EKS & AKS

Kubernetes - Best Practices

Infrastructure as Code

Monitoring & Observability

Advanced Deployment

Configuration

Operations

​Monitoring & Observability

​Observability Stack

Metrics

Distributed Tracing

Logging

LLM Observability

​Monitoring Topics

Prometheus Metrics

Distributed Tracing

Structured Logging

LangSmith Integration

Grafana Dashboards

Alerting & SLOs

​Quick Start

​Next Steps

Scaling

Disaster Recovery

Alerting

Security Best Practices

Monitoring & Observability

Observability Stack

Monitoring Topics

Quick Start

Next Steps