Introduction to ChatGPT & Machine Learning

Machine Learning 2023 Spring By Hung-Yi Lee #1

Posted Oct 20, 2025 Updated Oct 20, 2025

By Mas W.

3 min read

ChatGPT概览

ChatGPT是一个巨大的语言模型（类似函数），作用是猜测下一个词汇（或token）并输出。
GPT: Generative Pretrained Transformer

GPT到ChatGPT是从自监督学习到监督学习的成果。自监督学习过程被称为预训练，训练出的模型称作基石模型。例如，从“世界第一高峰是喜马拉雅山”中训练出能够在“世界第一高峰是”后面猜出“喜马拉雅山”的训练过程。

Multi-BERT在多种语言上做预训练后，只需要教某一个语言的某个任务，就可以自动学会其它语言的同样任务。

机器学习的目标是找一个函数，使得它对于给定的输入，能够给出期望的输出。

找出候选函数的集合，深度学习中的神经网络结构（如CNN，RNN，Transformer等）就是不同的候选函数集合。通常以\(\mathcal{H}\)来表示。

Deep Learning(CNN, Transformer), Decision Tree, etc.

函数的输出和标准答案之间的差距大小，可以用来评价函数好坏。一般以Loss function来定义函数评价函数。（传入一个函数，输出这个函数的好坏）函数分为训练和测试两个过程（拟合、过拟合、欠拟合）。

Supervised Learning, Semi-supervised Learning, RL, etc.

通过一些数学手段找出最好的函数。通过枚举的方式不现实。通过设置超参数(Batch Size, Learning Rate, Initialization…)来获得某组模型下最理想的函数。

Gradient Descent(Adam, AdamW, …), Generic Algorithm, etc.

This post is licensed under CC BY 4.0 by the author.