Embeddings, Similarity, and Vector Storage

Lecture 8.2

The most common RAG implementation, treated as one specific approach
Embeddings as semantic representation
Geometric intuition: similar meanings → similar vectors
Using embedding APIs (Voyage, OpenAI)
Cosine similarity: a normalized dot product
Vector databases (ChromaDB, FAISS): what they add (persistence, indexing, scale, metadata filtering)
When dict-based storage suffices vs. when to use a vector database
Chunking subsection: why chunk, the three common strategies (fixed, sentence/paragraph, semantic), use library defaults until you have a reason not to
When this approach fits: large unstructured corpus where semantic similarity matters

Additional Resources