🧠 一、基础知识准备
- 数学基础(非常关键) 线性代数:矩阵运算、特征值/向量、张量。
概率与统计:贝叶斯定理、高斯分布、熵、KL散度。
微积分:偏导数、链式法则,尤其是用于反向传播。
优化算法:梯度下降、Adam 等。
- Python 语言 虽然你是 Java 程序员,但 LLM 生态主要用 Python。建议你:
掌握基本语法(如列表、字典、函数、类)
熟悉 NumPy、Pandas、Matplotlib(用于数据处理和可视化)
学习 PyTorch 或 TensorFlow(重点是 PyTorch,LLM 更常用)
🤖 二、机器学习 & 深度学习基础
推荐学习内容:
监督学习 vs 非监督学习
损失函数与优化器
前向传播和反向传播机制
常见模型:逻辑回归、神经网络、CNN、RNN 等
推荐课程:
吴恩达《机器学习》 (Coursera)
《Deep Learning Specialization》(吴恩达深度学习专精)
《Dive into Deep Learning》(动手学深度学习)—— PyTorch 版推荐
🧩 三、自然语言处理(NLP)基础
学习内容包括:
文本预处理(分词、词性标注)
向量化方法:词袋模型、TF-IDF、Word2Vec、GloVe
注意力机制(Attention)和 Transformer 架构
BERT、GPT 等预训练语言模型
推荐资料:
《Speech and Language Processing》(Stanford NLP 课本)
Stanford CS224n 课程(NLP with Deep Learning)
🏗️ 四、LLM 架构与原理
必学内容:
Transformer 结构(编码器-解码器、Self-Attention、Multi-Head Attention、位置编码等)
语言模型原理(自回归 vs 自编码模型)
训练流程(预训练 -> 微调 -> 推理)
大模型训练挑战(分布式训练、内存优化)
重要模型:
GPT 系列(GPT-2、GPT-3、GPT-4)
BERT、T5、LLaMA、Mistral、Claude 等开源模型