主题
Jlama 是一个专为 Java 开发者设计的现代化大语言模型(LLM)推理引擎,旨在将 LLM 能力无缝集成到 Java 应用中
文档: https://deepwiki.com/tjake/Jlama
特点
- 需 Java 21+ 环境及 Native 库适配
- 可与Langchain4j深度集成
- 可利用向量API来实现更快的推理速度
模型支持
- Gemma & Gemma 2 Models
- Llama & Llama2 & Llama3 Models
- Mistral & Mixtral Models
- Qwen2 Models
- IBM Granite Models
- GPT-2 Models
- BERT Models
- BPE Tokenizers
- WordPiece Tokenizers
功能实现
- 分页注意力
- 专家混合模型
- 工具调用
- 生成嵌入
- 分类器支持
- Huggingface SafeTensors 模型和分词器格式
- 支持 F32、F16、BF16 类型
- 支持 Q8、Q4 模型量化
- 快速 GEMM 操作
- 分布式推理