Skip to content

文档预处理

  • 格式转换(PDF、OCR)与清理(异常字符处理)19。
  • 分块策略:按Token数、段落结构或重叠分块(推荐256-1024 Token)312。

向量化与存储

  • 嵌入模型选择(如text2vec、BGE系列)112。
  • 向量数据库选型:FAISS(高性能)、Milvus(企业级)、Elasticsearch(混合搜索)