Aller au contenu principal
1WayDev
IA & LLM

RAG en pratique : pgvector vs Pinecone, comment choisir

Trois ans de RAG en production, deux stacks possibles, une matrice de décision. Le verdict honnête côté coût et opérabilité.

Karim Bouaziz·Tech Lead IA··7 min

Choisir entre pgvector et Pinecone (ou Qdrant, ou Weaviate) est la décision qui revient le plus souvent quand on démarre un RAG. Voici notre grille.

pgvector — le défaut intelligent

Si vous avez déjà Postgres en prod (et vous l'avez probablement), pgvector vous évite un nouveau composant. Pas de nouveau service à monitorer, pas de nouvelle dépendance, pas de nouvelle facture. Performant jusqu'à 1 à 5 millions de vecteurs sur une instance correcte.

Sur le module Recrutement de Gerhom, notre suite SaaS, on stocke 200 000 candidats avec leurs embeddings 1536-d dans pgvector. Latence p95 < 80 ms sur une RDS db.t4g.medium. Coût : ~70 €/mois.

Pinecone — quand pgvector ne suffit plus

Au-delà de 5 à 10 millions de vecteurs, pgvector commence à ramer. Pinecone (ou Qdrant) prend le relais. Latence ultra-faible (< 30 ms), scaling automatique, gestion native du multi-tenancy.

Inconvénient : coût et complexité. À partir de 70 $/mois minimum pour un serverless, plus si vous montez en volume. Et un nouveau composant à monitorer.

Notre matrice de décision

  • < 1M vecteurs : pgvector, sans hésiter.
  • 1M à 10M vecteurs : pgvector si vous tolérez 100 ms de latence, sinon Qdrant.
  • > 10M vecteurs ou multi-tenancy fort : Pinecone ou Qdrant Cloud.
  • Besoin de filtres complexes (date, tenant, statut) : pgvector gagne — vous bénéficiez de tout le SQL.

Le reranking, important quel que soit le choix

Quelle que soit la base vectorielle, la recherche par embeddings seule donne des résultats moyens. Le reranking (Cohere Rerank ou un modèle local cross-encoder) fait passer la précision de 60-70 % à 85-90 %. C'est 2 lignes de code et 10 ms de latence. À toujours activer.

Conclusion

Démarrez en pgvector. Migrez vers Pinecone ou Qdrant quand vous mesurez un vrai goulet d'étranglement. Ne payez pas pour un service spécialisé avant d'en avoir besoin.

Vous avez un projet en lien avec cet article ?

30 minutes pour qu'on en discute concrètement.