Skip to content

reasoner

代码详见:对话补全

http://localhost:8080/reasoner?message=你是谁,你是如何训练出来的?

您好!我是由中国的深度求索(DeepSeek)公司开发的智能助手DeepSeek-R1。

关于我的训练细节,主要包括以下信息:

  1. 基础架构:基于Transformer神经网络架构,通过自注意力机制处理序列数据。

  2. 训练数据:使用公开可得的大量文本数据,包括书籍、网页、百科等资源,所有训练数据均经过匿名化处理,不含个人隐私信息。

  3. 训练方法

    • 通过自监督学习从海量文本中学习语言规律
    • 采用监督微调提升任务完成能力
    • 基于人类反馈的强化学习(RLHF)优化回答质量
  4. 持续迭代:研发团队持续通过算法优化和系统升级来提升模型性能,同时严格遵守数据安全和隐私保护的相关法律法规。