Jlama | 实战匠坊

Jlama 是一个专为 Java 开发者设计的现代化大语言模型（LLM）推理引擎，旨在将 LLM 能力无缝集成到 Java 应用中

特点

需 Java 21+ 环境及 Native 库适配
可与Langchain4j深度集成
可利用向量API来实现更快的推理速度

模型支持

Gemma & Gemma 2 Models
Llama & Llama2 & Llama3 Models
Mistral & Mixtral Models
Qwen2 Models
IBM Granite Models
GPT-2 Models
BERT Models
BPE Tokenizers
WordPiece Tokenizers

功能实现

分页注意力
专家混合模型
工具调用
生成嵌入
分类器支持
Huggingface SafeTensors 模型和分词器格式
支持 F32、F16、BF16 类型
支持 Q8、Q4 模型量化
快速 GEMM 操作
分布式推理