Skip to content
首页
Search
K
Main Navigation
🏡专栏列表
主题
菜单
回到顶部
目录
文档预处理
格式转换(PDF、OCR)与清理(异常字符处理)19。
分块策略
:按Token数、段落结构或重叠分块(推荐256-1024 Token)312。
向量化与存储
嵌入模型选择(如text2vec、BGE系列)112。
向量数据库选型:FAISS(高性能)、Milvus(企业级)、Elasticsearch(混合搜索)