- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

告别深夜批改：用Qwen3-VL大模型打造会“理解”的作文阅卷助手

架构师李哲发表于 2025/12/17 10:36:47 2025/12/17

【摘要】基于Qwen3-VL打造作文阅卷助手，通过对300篇高中作文进行LoRA微调，将教师从繁重批改中解放，更通过即时、客观的反馈助力学生写作能力提升，展现了垂直领域大模型应用的实用价值与高效落地路径。

深夜十一点，李老师揉了揉发酸的眼睛，面前还有三十多篇作文等待批改。

这是无数语文教师的日常写照——繁重的批改负担、难以完全统一的标准、反馈到达学生手中时已失去时效性。

而在AI技术日新月异的今天，我们能否让机器真正“理解”一篇作文的优劣？

答案是肯定的。基于Qwen3-VL-30B-A3B-Instruct大模型，我们成功打造了一款能够深度理解中文作文的智能阅卷助手，让作文批改走向自动化、标准化、即时化。

在这个项目中，我们对同一篇《知之·行之·思之》进行评分，两者都能读懂文章、给出评价，但风格和“老师味儿”差异非常明显：

基线模型更偏向概括性、理论化的评析风格。虽然也提及“结构严谨、论证充分”，但表述较为笼统，未针对具体内容展开细析，整体语言偏向正式，结构较为平铺直叙，更像一个概括性的“评审意见”。

微调后模型则呈现出清晰、结构化的语文教师批改风格。评语严格遵循“总评—分项分析—总结”的结构，从“结构”“立意”“语言”三个维度展开，每部分都结合原文内容进行具体说明，并引用文中实例（如“春暖花开”“秋高气爽”的比喻），语言自然流畅，建议具体，贴近教学实际。

下面这张表就是两者在关键维度上的对比，可以非常直观地看到差别：

对比维度	基线模型效果	微调后模型效果
分形式	百分制，给出具体分数（如58分）	百分制，给出具体分数（如95分）
评语结构	整体概括为主，结构较松散，分点不明确	结构清晰，常按“结构—立意—语言”等维度展开，层次分明
语言风格	语言正式、概括，偏向书面评审	语言自然、具体，贴近教师日常用语，有亲和力
关注重点	侧重整体印象与理论判断，较少展开细节	注重结合原文内容进行细部分析，举例说明，指向明确
学生阅读门槛	表述抽象，对学生的直接指导性较弱	表述具体，学生能清楚理解优点与可改进之处
教学适配度	适用于需要快速总体评价的场景	适用于日常批改、反馈指导，符合实际教学互动习惯

传统自动化作文评分系统多基于规则和浅层特征，而大模型带来了根本性变革——它不再只是“检查”，而是真正“理解”。我们选用的Qwen3-VL-30B-A3B-Instruct模型，通过300篇精选高中作文数据的指令在LLaMA-Factory Online上进行微调，深度对齐了中文作文的评分标准。模型不仅能评估语言表达的规范性，更能理解文章的逻辑结构、思想深度和情感价值——这些正是优秀作文的灵魂所在。

实战路径：从数据到智能的蜕变

数据准备和清洗

本项目选用了面向中国高中阶段的中文作文数据集：AES-Dataset。这个数据集小而精，聚焦高中场景。

● 学生群体：全部来自中国高中生，话题接近高考/模拟考作文

● 文体类型：以议论文、记叙文为主，需要一定逻辑推理与表达能力

● 数据规模：共300篇精选作文样本，编号从A-0001至A-0300

虽然数量不大，却非常适合做：小样本微调、LoRA/QLoRA轻量化实验、验证教育垂直领域精调的“效果上限”。

数据结构：标准化设计，方便工程介入

● 元数据文件 scores.txt：记录作文ID、标题、人工评分

● 作文文本 /essays 文件夹：每篇作文一个txt文件，天然保留文章结构信息

不同于常规文本处理，我们将作文转化为图片格式输入模型。这一看似额外的步骤实则暗含深意：它完整保留了作文的版面结构、修改痕迹、书写特色，让模型能够像人类教师一样“看到”作文的全貌。

高效微调全流程

在LLaMA-Factory Online平台上，我们采用LoRA微调方法，仅用单张H800A GPU、45分钟就完成了模型训练，显著降低了计算成本。关键配置参数如下：

开始进行模型训练，通过任务中心可以查看任务的详细信息、超参数、训练追踪和日志。

通过Loss曲线可以看出训练有效且逐步收敛，但存在一定波动，可通过调整训练策略（如增大 batch_size、微调学习率）进一步优化稳定性。

效果验证：不只是打分更是理解

模型训练完成后，我们进行模型评估，评估结果令人振奋：

● ROUGE-1/ROUGE-2指标表现不错：说明生成内容在 “字词、短语层面” 与参考文本的覆盖度、匹配度较高

● BLEU-4处于中等水平：意味着生成文本与参考文本的长短语重合度还有提升空间

我们进行模型对话，模型生成的评语不再模板化，而是针对每篇作文的特点提供个性化反馈。

在实际对话测试中，模型展现了令人惊喜的“教学敏感度”。它生成的评语不再模板化，而是针对每篇作文的特点提供个性化反馈——既肯定优点，也指出不足，其给出的得分与作文的实际质量匹配度较高。这样的反馈，已经接近资深教师的指导水平。

未来已来：智能阅卷的可实现性

基于Qwen3-VL大模型的智能阅卷助手，正悄然改变着一线教学的真实场景。它让教师得以从深夜的案头批改中抽身，将心力转向更具创造性的教学设计；它让学生的作文在提交后便能即刻获得结构清晰、建议具体的专业点评，将漫长的反馈周期转化为即时的成长对话。这一切，都依托于LLaMA-Factory Online平台所提供的“高效微调”与“即时对话”能力——复杂的大模型技术，由此变得简单、可用、可落地。

这不仅仅是一个评分工具。它更是一个开始，一个以技术弥合教育资源差异、以智能放大教师专业价值的起点。未来，在LLaMA-Factory Online的持续迭代与赋能下，它可以从“评分”走向“诊断”与“个性化辅导”，更重要的是，随着数据的不断积累，模型将越来越“懂”教育，越来越“理解”每一篇文字背后的思考与情感，成为助力师生共同成长的可信赖伙伴。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

告别深夜批改：用Qwen3-VL大模型打造会“理解”的作文阅卷助手