LLM大模型 - 从0认识RAG
在讨论RAG技术之前,我们先看在开发大语言模型(LLM)应用时会遇到的典型场景问题。比如,当设计一个 LLM 问答应用,当模型回答用户的特定领域问题时,尽管大模型再厉害,也没办法提供准确的答案,而且大模型的训练数据也不可能总是最新的,模型无法及时提供最新的答案,这种现象在 LLM 应用中较为常见。
除此之外,还有其他的诸多问题。总结为以下几个问题:
- 领域知识缺乏: 大模型的知识来源于训练数据,而训练数据来自于互联网上的爬虫获取到的内容,无法覆盖特定领域的高度专业化的内部知识。
- 信息过时: 模型的训练周期长、花费大,模型一旦完成训练,就难以获取和处理新信息。
- 幻觉问题: 模型都是基于概率生成文本,有时会输出看似合理但实际错误的答案。
- 数据安全性: 在关键领域,如保密单位,企业内部,需要保证数据的安全。