Skip to content

国内大模型

项目地址:https://github.com/HqWu-HITCS/Awesome-Chinese-LLM

整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主,包括底座模型,垂直领域微调及应用,数据集与教程等。

通义千问

通义万相:https://t.zsxq.com/cyxtp

Qwen-Agent:https://t.zsxq.com/zEozR

生成创意海报:https://t.zsxq.com/wYgax

DeepSeek

1、开源周分享了7款开源项目https://t.zsxq.com/vyPjg,包含

2、满血版DeepSeekR1

3、王炸组合

DeepSeek + kimi = 一键生成PPT

DeepSeek + 剪映 = 批量生成短视频

DeepSeek + 即梦 = 生成设计海报

DeepSeek + Notion = 生成文本笔记库

DeepSeek + Cline = 辅助编程

DeepSeek + Coze = 搭建AI智能体

DeepSeek + 即梦 + 混元 = 生成3D模型

DeepSeek + Excel = 自动生成数据分析报告

DeepSeek + Photoshop = 智能合成营销素材图,智能修图批处理

DeepSeek + Premiere = 影视解说配音自动化,智能剧本分镜生成

DeepSeek + Unity = 游戏剧情脚本实时生成

DeepSeek + Maya = 自动绑定角色骨骼

DeepSeek + 飞书 = 会议纪要智能整理

DeepSeek + Blender = 三维场景概念设计,自动生成动画分镜

DeepSeek + 问卷星 = 用户调研报告可视化

DeepSeek + Maya = 动画角色表情库生成

DeepSeek + GitHub = 代码审查自动化

DeepSeek + 钉钉 = 智能日报周报生成

DeepSeek + 幕布 = 思维导图一键转化,思维导图智能扩展

DeepSeek + 墨刀 = 产品原型交互文案填充

DeepSeek + 印象笔记 = 知识图谱自动构建

DeepSeek + 小鹅通 = 在线课程逐字稿优化

DeepSeek + 腾讯文档 = 合同模板智能批注

DeepSeek + Anki = 外语记忆卡片批量生产

DeepSeek + FL Studio = 短视频配乐智能生成

4、进阶技巧

问完问题后加个后缀,比如"如果采用这个方式会发生什么样的后果"。这样,DeepSeek 就能根据回答内容自动分析后续可能出现的结果并做出预测,还会给出解决方案,甚至能推理出一些你意想不到的细节,帮你避开潜在风险

我想在情人节给对象送一个贵重礼物,如果采用这个方式会发生什么样的后果

  • 开启批判家模式

先让它评判你的一些想法。它的评判往往鞭辟入里,能精准指出方案或想法中的问题与缺点,然后针对这些不足给出不同的建议和修改方式,常常能一语点醒梦中人,让你发现自己忽略的要点。

我想用中台的方式做一个线下手机英雄啊

  • 开启人格分裂模式

让它扮演不同角色讨论一个问题,经过激烈辩论后得出的结果会更全面、更科学,甚至无需人为修改就能直接使用。

  • 开启阴阳怪气模式

只需在提示词后说些阴阳怪气的话,它就能模仿你的风格,毒舌又会玩梗。

  • 在提问的时候可以加上回答时标注真实程度(置信信度),

置信度越高回答越真实,置信度越低结果越偏向虚幻。有时候光凭回答难以判断是否足够可信,因为系统每次回答都显得很自信,但加上置信度标注就能判断回答更真实还是更虚幻。

shell
DeepSeek是最好用的模型吗,并告诉我0-1的置信度
  • 直接让 DeepSeek 说通俗易懂的大白话

这样更便于理解。通常模型输出的内容复杂晦涩、冗长繁琐且拐弯抹角,让人阅读不便。但要求说人话后,它就能给出言简意赅的回答,迅速抓住重点,减轻阅读负担。

  • 拆解问题

让它把问题拆分成几个小环节逐步输出结果,最后串联成总体回答。

这样能判别出问题环节所在,可再次优化具体环节来提升最终回答质量。

  • 提前给 DeepSeek 做个决定

这样它会更深入思考,仔细分析决定的利弊,从而给出更全面客观的答案。如果直接提问,得到的回答可能就没那么精细。

  • 让它模仿不同人的语言风格

比如用罗永浩或马斯克的风格等,它会依据指定风格输出相应话术。

  • 要求剔除所有废话

只保留能切实落地的关键建议。添加此要求后,它会删除看似正确却无实质内容的话语,仅输出有内涵、有建议、有价值的部分,提升阅读效率。

  • 明确问题类型+具体细节:我想学习Python数据分析,目前会基础语法,请推荐3个适合初学者的Pandas实战项目,并说明每个项目能练习什么技能?

  • 复杂问题分步骤提问

请分三步解释:区块链技术如何保障交易安全?第一步先说明哈希函数的作用,第二步讲分布式账本,最后解释共识机制。

  • 提供具体的背景信息/上下文

比如: 知识水平/使用场景/特殊要求

我在准备留学申请(申请美国计算机硕士,GPA3.6),请对比推荐信找课程教授还是实习主管更合适?需要考虑哪些因素?

  • 指定回答形式

请用对比表格形式展示微波炉vs空气炸锅的加热原理、适用场景和能耗区别

  • 角色设定

  • 遇到不理想回答时补充信息,追问

刚才关于光伏发电的解答太专业了,能否用生活化的比喻再解释一次?

比如:

能否举个现实中的例子? 如果是[某种特殊情况]应该怎么处理? 你提到的XX概念能否用更简单的方式解释?

  • 反向提问,引导我思考

5、DeepSeek-V3的创新点

(1)超大规模专家网络:DeepSeek-V3包含数千个专家网络,每个专家针对特定任务或特定输入特征进行了优化,从而实现了极高的表达能力。

(2)动态专家分配:通过高效的路由网络,DeepSeek-V3能够根据输入的特性动态选择合适的专家,从而在不同任务中展现出极高的适应性。

(3)高效的稀疏激活:在每次计算中,DeepSeek-V3仅激活少量(如2~4个)专家网络,大幅减少了实际计算量和显存消耗。

(4)分布式训练优化:DeepSeek-V3将不同的专家网络分布到多个计算节点,通过高效的通信策略实现了分布式环境下的快速训练,全过程训练成本如表2-1所示,包括预训练,扩展训练及后训练等步骤。

智普AI

官网

开发文档

百川

由百川智能开发的一个开源可商用的大规模预训练语言模型

Baichuan-7B

地址:https://github.com/baichuan-inc/Baichuan-7B

基于Transformer结构,在大约1.2万亿tokens上训练的70亿参数模型,支持中英双语,上下文窗口长度为4096。在标准的中文和英文权威benchmark(C-EVAL/MMLU)上均取得同尺寸最好的效果。

Baichuan-13B

https://github.com/baichuan-inc/baichuan-13B

Baichuan-13B 是由百川智能继 Baichuan-7B 之后开发的包含 130 亿参数的开源可商用的大规模语言模型,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。该项目发布包含有预训练 (Baichuan-13B-Base) 和对齐 (Baichuan-13B-Chat) 两个版本。

Baichuan2

地址:https://github.com/baichuan-inc/Baichuan2

采用 2.6 万亿 Tokens 的高质量语料训练,在多个权威的中文、英文和多语言的通用、领域 benchmark上取得同尺寸最佳的效果,发布包含有7B、13B的Base和经过PPO训练的Chat版本,并提供了Chat版本的4bits量化。

商汤-InternLM

InternLM

商汤科技、上海AI实验室联合香港中文大学、复旦大学和上海交通大学发布千亿级参数大语言模型“书生·浦语”(InternLM)。

InternLM

地址:https://github.com/InternLM/InternLM-techreport

据悉,“书生·浦语”具有1040亿参数,基于“包含1.6万亿token的多语种高质量数据集”训练而成。

InternLM2

https://github.com/InternLM/InternLM

InternLM2 在数理、代码、对话、创作等各方面能力都获得了长足进步,综合性能达到开源模型的领先水平。

InternLM2 包含两种模型规格:7B 和 20B。7B 为轻量级的研究和应用提供了一个轻便但性能不俗的模型,20B 模型的综合性能更为强劲,可以有效支持更加复杂的实用场景

智象未来

视觉多模态基础模型及应用的生成式人工智能

HiDream.ai千象API文档

图片生成领域的DeepSeek

X-Grok

Grok-2

Grok-2 是 Grok 的升级版,它是一个基于 GPT-4 的模型,可以生成更高质量的文本。

Grok-2 的训练数据包括了大量的文本数据,包括书籍、网页、论文等。

Grok-2 的训练数据还包括了大量的代码数据,包括 Python、JavaScript、HTML、CSS 等。

Grok-3

包含标准版和mini版,均支持推理模式。该模型基于20万GPU集群训练,

在数学推理(AIME 2024)、科学事实(GPQA)及编程(LCB)评测中全面领先,

非推理模式下Grok-3数学得分超GPT-4o 50%,

推理模式下Grok-3 mini成为当前最强模型。

Chatbot Arena评测显示其Elo评分突破1400分,创历史新高。

模型通过延长推理时间和token量处理复杂任务,算力基础设施扩展迅猛(10万至20万GPU仅用90天),印证大规模算力投入对AI性能提升的关键作用。

目前Grok-3推理版仍处测试阶段,mini版推理模型已训练完成。

Meta-Llama

Meta发布的Llama系列大模型有几个重要的版本

Llama 3.1

  • 参数规模:提供了8B、70B和405B三种不同大小的模型。
  • 性能:据称,405B版本在常识、可操作性、数学技能以及多语言翻译等方面能够与GPT-4、GPT-4o、Claude 3.5 Sonnet等顶尖闭源模型相媲美。
  • 上下文窗口:支持长达128K Tokens的上下文窗口。
  • 训练数据量:基于大约15万亿个Tokens进行训练。
  • 开源许可:允许开发者免费修改和使用这些模型,无需与Meta共享个人数据。

Llama 3.3

  • 参数规模:拥有700亿参数,虽然比Llama 3.1的4050亿参数少很多,但性能几乎不逊色。
  • 资源需求降低:推理过程中的GPU内存需求最低仅为4GB,而Llama 3.1则需要高达1944GB。
  • 经济效益:显著降低了硬件成本,为企业节省了大量资金。
  • 灵活部署与合规许可:使用Llama 3.3 Community License Agreement授权,要求注明来源,并对内容生成和用途进行严格限制。
  • 技术创新:支持多语言推理与生成,采用了分组查询注意力技术(GQA)以提升推理性能,并通过人类反馈强化学习与微调来平衡性能与安全性。

Google-Gemma

由谷歌(Google)研发的AI大模型系列。

Gemma3

gemma3

它继承了前代Gemma模型的特点,并在多个方面进行了显著的改进和优化。

  1. 多模态支持:Gemma 3不仅能够处理文本数据,还能够支持图像输入,这使得它能够进行复杂的多模态任务,如图文混合推理。

  2. 长上下文窗口:Gemma 3支持高达128K tokens的上下文窗口,这意味着它可以处理更长篇幅的文本内容,比如长篇法律文档、编程代码等,为需要大规模上下文理解的应用场景提供了强大的技术支持。

  3. 单GPU运行:尽管拥有庞大的参数量(有1B、4B、12B和27B参数版本),Gemma 3的设计允许其在单个GPU或TPU上运行,大大降低了部署成本,提高了灵活性。

  4. 多语言支持:Gemma 3支持超过140种语言,可以开箱即用支持35种以上的语言,极大地增强了全球化应用的开发潜力。

  5. 性能优越:Gemma 3在多项基准测试中表现优异,在LMArena竞技场中的ELO分数排名靠前,显示出其在推理任务中的卓越能力。特别是在处理长上下文和多模态任务时,Gemma 3的表现尤为突出。

  6. 开源特性:Gemma 3是一个开源模型,这为开发者和研究人员提供了一个高效、开放的解决方案,可以在各种应用场景中探索和利用先进的AI能力。

  7. 安全性和工具集成:Gemma 3还配备了严格的安全协议,并支持多种开发工具的无缝集成,帮助开发者快速构建高效的AI应用。

OpenAI-GPT

OpenAI的GPT系列

FastGPT

FastGPT 是一个基于大型语言模型(LLM)的开源知识库问答系统,旨在帮助用户快速构建和管理个性化的AI知识库。

它提供了开箱即用的数据处理、模型调用等能力,并且可以通过 Flow 模块实现可视化的工作流编排,从而让用户能够轻松地开发复杂的问答场景

核心功能

  1. 专属 AI 客服:通过导入文档或问答对进行训练,AI 能够根据特定文档内容以交互式对话的方式回答用户的问题。这可以用于客户服务自动化,帮助企业快速响应用户的查询和问题。

  2. 可视化工作流设计:基于Flow模块,用户能轻松设计复杂的工作流,将不同的功能模块组合起来,实现自动化和智能化的处理流程。例如,可以创建包括查询数据库、查询库存、预约实验室等在内的多种业务流程。

  3. 自动数据预处理:支持导入多种格式的文档,如Word、PDF、Excel、Markdown等,还能同步整个网站的数据。导入后,FastGPT会自动进行文本预处理、向量化和问答分割,提高数据处理效率并节省手动训练时间。

  4. 多模型兼容性:FastGPT不仅限于使用单一类型的大型语言模型,还可以接入其他LLM模型,满足不同场景的需求。这意味着它可以灵活适应各种企业级应用。

  5. API集成:提供与OpenAI官方接口对接的API,可以直接接入现有的GPT应用,并可轻松集成到企业微信、公众号、飞书等平台,实现更广泛的应用场景。

  6. 安全性与隐私保护:FastGPT还强调了其对企业级安全的支持,提供私有化部署方案,确保数据全程加密,并支持敏感词过滤等功能。

应用场景

客户服务:作为在线客服机器人,自动回答客户的购物咨询,提升客户满意度。

企业内部知识管理:员工可以基于问答快速获取操作流程、项目信息等,提升工作效率。

教育领域:提供针对性的学习建议,辅助学生更好地掌握知识。

医疗健康:回答关于健康饮食、运动指导、疾病预防等问题,帮助用户提高健康意识。

旅游行业:为游客提供旅游目的地的信息查询服务,帮助规划行程。

硅基流动

使用手册

使用以下邀请码注册,可免费获得 2000 万 Tokens

dkw6cJeo

基本概念

大模型训练过程

  1. 数据收集:首先,需要大量的标记数据,这些数据包含了目标物体的实例,每个实例都被精确地框定出来。例如,对于人脸识别,数据集可能包含大量带有面部边界框的图片。

  2. 数据预处理:清洗和格式化数据,使其适合输入到神经网络中。这可能包括调整图像大小、归一化像素值、随机翻转和裁剪等增强技术,以增加模型的泛化能力。

  3. 模型选择:选择适合目标检测或追踪任务的模型架构。这可能是预训练的模型,如YOLO(You Only Look Once)、SSD(Single Shot MultiBox Detector)、Faster R-CNN或Mask R-CNN等。

  4. 训练过程:使用收集的数据和选择的模型架构进行训练。在训练过程中,模型会尝试学习如何预测输入图像中的目标位置和类别。

  5. 优化与调参:通过调整超参数(如学习率、批大小、正则化强度等)和优化器(如SGD、Adam等),以提高模型的性能。

  6. 验证与测试:在独立的验证集和测试集上评估模型的性能,确保其在未见过的数据上也能表现良好。

  7. 微调与迁移学习:如果需要,可以使用更小规模的特定数据集进行微调,以适应特定的应用场景。

大模型基本原理

大模型,尤其是AI领域的深度学习大模型,如BERT、GPT、Turing NLG等,其基本原理主要基于神经网络,特别是Transformer架构的模型。

这些模型的核心是通过大量的数据训练,学习到语言的内在规律和模式,从而能够理解和生成人类语言。

  1. 深度学习:深度学习是机器学习的一个分支,它试图模仿人脑的工作原理,通过多层非线性处理单元(神经元)对数据进行建模。每一层神经网络都可以学习到数据的不同特征,从简单的到复杂的。

  2. Transformer架构:Transformer是Google在2017年提出的序列到序列模型,它改变了传统的RNN(循环神经网络)和LSTM(长短时记忆网络)在处理长序列信息时的效率问题。Transformer使用自注意力(Self-Attention)机制,使得模型可以并行处理整个序列,大大提高了计算效率。

  3. 预训练与微调:大模型通常首先在大规模无标注文本数据上进行预训练,学习语言的一般性知识。这个过程类似于人类儿童在没有明确指导的情况下通过大量阅读来理解语言。然后,针对特定任务(如问答、翻译、情感分析等),在有标签的数据上进行微调,使模型适应特定的任务需求。

  4. 海量数据:大模型需要大量的训练数据来学习语言模式和上下文信息。这些数据通常来自互联网,包括网页、书籍、新闻等各种文本资源。

  5. 参数量巨大:大模型往往包含数亿甚至数十亿的参数,这使得它们能够学习到更复杂的语言结构和模式,但也需要强大的计算资源进行训练和部署。

Transformer

参考论文

查看更多:https://t.zsxq.com/zWi03

MoE架构

通过动态路由机制,在每次推理或训练中仅激活部分专家网络,实现了参数量与计算效率的有机结合,从而在大规模模型中实现参数规模的扩展,而不会显著增加计算开销

动态路由

主要任务是根据输入数据的特性,选择合适的专家网络进行计算

(1)输入特征分析:根据输入数据的特征,通过路由网络(通常为一个小型神经网络)生成每个专家的激活概率

(2)专家选择:根据激活概率,选取一部分专家网络参与当前输入的计算。

(3)专家计算:被激活的专家网络对输入数据进行处理,生成特定的输出结果。

(4)结果聚合:将多个专家网络的输出结果按照权重进行聚合,生成最终的输出。

推理模型与非推理模型

推理大模型: 能够在传统的大语言模型基础上,强化推理、逻辑分析和决策能力的模型。它们通常具备额外的技术,比如强化学习、神经符号推理、元学习等,来增强其推理和问题解决能力。

DeepSeek-R1,GPT-o3在逻辑推理、数学推理和实时问题解决方面表现突出。

非推理大模型: 适用于大多数任务,非推理大模型一般侧重于语言生成、上下文理解和自然语言处理,而不强调深度推理能力。此类模型通常通过对大量文本数据的训练,掌握语言规律并能够生成合适的内容,但缺乏像推理模型那样复杂的推理和决策能力。

GPT-3、GPT-4(OpenAI),BERT(Google),主要用于语言生成、语言理解、文本分类、翻译等任务

提示语策略差异

推理模型:

1、提示语更简洁,只需明确任务目标和需求(因其已内化推理逻辑);

2、无需逐步指导,模型自动生成结构化推理过程(若强行拆解步骤,反而可能限制其能力)

3、不要对推理模型使用“启发式”提示(如角色扮演),可能干扰其逻辑主线

要什么直接说

通用模型:

1、需显式引导推理步骤(如通过CoT提示),否则可能跳过关键逻辑。

2、依赖提示语补偿能力短板(如要求分步思考、提供示例)

3、不要对通用模型“过度信任”(如直接询问复杂推理问题,需分步验证结果)

缺什么补什么

模型微调

微调流程: https://t.zsxq.com/k9Ft4

LLaMA-Factory: 微调大模型