bjt 用 R torch 从零构建的 JEPA (Joint Embedding Predictive Architecture) 带思维链的大语言模型,含 BPE 分词器训练、预训练、SFT 微调、推理全流程,总计约 700 行主脚本代码,单卡 RTX 4090 可跑,训练成本约 4 块钱。 效果预览: 预训练的续写 SFT 之后的问答 项目地址: https://github.com/sunbjt/Rtomic