端侧模型从概念上来区分,又可以简单分为大语言模型和特定领域模型。
大语言模型
其中大语言模型(Large Language Model,LLM)就是我们熟知的 ChatGPT、DeepSeek、Grok 这类模型,它们功能强大,但对设备的性能要求很高,以 DeepSeek 为例,即使是最小的 1.5B 版本模型,也至少需要 RTX 3060 + 级别的显卡才能带得动,并且模型本身的大小已经达到 1.1GB,并不适合部署在前端项目中。
特定领域模型
所以,最终留给我们的选项就是利用一些特定领域模型来赋能前端,它们可以用来处理某些特定领域的问题。例如,利用视觉(CNN、MobileNet)模型实现图像分类、人脸检测,或者利用自然语言模型(NLP)实现问答机器人、文本恶意检测等。
这些模型等特征是尺寸较小,并且对设备性能要求不高,非常适合直接部署在前端并实现一些 AI 交互。
所以,接下来我们就来看看,如何从 0 到 1 训练一个图像分类模型(Doodle Classifier based on CNN) ,并将模型集成至前端页面,实现一个经典你画我猜小游戏 - 端侧 AI 版。




