LightViT | Lightweight Vision Transformer

项目概述

这里建议简要说明你的研究动机：为什么需要轻量化 Vision Transformer、现有方法存在什么问题、你的模型解决了哪些痛点。

设计一个在保持较高分类准确率的同时，显著降低参数量与计算量的轻量化 Vision Transformer。

你可以在这里写 2~3 条贡献，例如高效模块设计、训练策略改进、部署友好的模型结构等。

适用于边缘设备图像分类、资源受限环境推理、移动端视觉任务等场景。

用简洁语言说明模型结构。建议分成输入嵌入、主干模块、轻量化模块、分类头四部分。

这里写你的模型主流程，例如：Patch Embedding → Efficient Transformer Blocks → Global Pooling → Linear Classifier。

这里写你的关键设计，例如减少注意力复杂度、改进 FFN、引入卷积先验、分层下采样等。

把你最想展示的数据放在最上面，这样访问者一眼就能看懂你的模型价值。

78.6%

Top-1 Accuracy

5.2M

Parameters

0.9G

FLOPs

这里放你和其他轻量化模型的对比。你后续只需要把表格里的示例数据替换成自己的真实结果。

Model	Params	FLOPs	Top-1 Acc	Notes
MobileNetV3	5.4M	0.22G	75.2%	轻量 CNN 基线
EfficientFormer	12.1M	1.3G	79.2%	高效 Transformer
MobileViT	5.6M	2.0G	78.4%	移动端友好
LightViT (Ours)	5.2M	0.9G	78.6%	更优精度/效率平衡

这里可以替换成混淆矩阵、训练曲线、注意力可视化、类别示例图等内容。

实验图像 / 曲线图占位

建议用一段话总结各个模块的贡献，例如模块 A 带来多少准确率提升，模块 B 如何降低 FLOPs。

你可以把毕设过程写成时间线，页面会更像正式的科研项目主页。

阶段 1

完成相关文献调研，明确轻量化 ViT 的研究问题与对比基线。

阶段 2

设计模型结构并完成 ImageNet-1k 或其他数据集上的训练实验。

阶段 3

完成消融实验、可视化分析与论文撰写，整理项目页与代码仓库。