DocKnowledge: AI Document Intelligence

// Solving the RAG retrieval precision gap

The Challenge

Most enterprises have massive silos of PDF/TXT technical documents. Traditional keyword search is insufficient for complex reasoning, while basic vector-based RAG often misses nuances or hallucinates due to poor context retrieval.

Research Insight

Standard vector search often fails to capture "long-range" dependencies in multi-column PDFs. By implementing Sentence Window Retrieval and Reciprocal Rank Fusion (RRF), we can significantly boost retrieval precision.

The Solution: Hybrid RAG Architecture

Parse (Docling) → Embed (384-dim) → Hybrid Vector + BM25 → RRF Fusion → LLM Reasoning (Gemini)

Hybrid Search: Combines dense vector embeddings with sparse BM25 keyword matching.
Context Fusing: Uses RRF to rank and merge results from multiple search strategies.
Citation Engine: Automatic page-level and paragraph-level attribution for 100% verifiability.

Impact Metrics

20%

Higher Retrieval Precision

< 3s

Average Query Latency

100%

Citation Accuracy

View Live Demo View GitHub