Skip to content

Jlama 是一个专为 Java 开发者设计的现代化大语言模型(LLM)推理引擎,旨在将 LLM 能力无缝集成到 Java 应用中

文档: https://deepwiki.com/tjake/Jlama

特点

  • 需 Java 21+ 环境及 Native 库适配
  • 可与Langchain4j深度集成
  • 可利用向量API来实现更快的推理速度

模型支持

  • Gemma & Gemma 2 Models
  • Llama & Llama2 & Llama3 Models
  • Mistral & Mixtral Models
  • Qwen2 Models
  • IBM Granite Models
  • GPT-2 Models
  • BERT Models
  • BPE Tokenizers
  • WordPiece Tokenizers

功能实现

  • 分页注意力
  • 专家混合模型
  • 工具调用
  • 生成嵌入
  • 分类器支持
  • Huggingface SafeTensors 模型和分词器格式
  • 支持 F32、F16、BF16 类型
  • 支持 Q8、Q4 模型量化
  • 快速 GEMM 操作
  • 分布式推理