2026/1/8 1:29:40
网站建设
项目流程
云南科技公司网站,北京 网站建设 SEO,培训网站 建,做网站 图片需要多大的许跃蓬1,2 徐柴迪3 郭晋军1 姜云桥4 王仕嘉1 刘垚1,2,5#xff08;1. 华东师范大学数据科学与工程学院#xff0c;上海 200062#xff1b;2. 先进计算与智能工程国家级重点实验室#xff0c;江苏 无锡 214000#xff1b;3. 上海孔棣科技有限公司#xff0c;上海 2012041. 华东师范大学数据科学与工程学院上海 2000622. 先进计算与智能工程国家级重点实验室江苏 无锡 2140003. 上海孔棣科技有限公司上海 2012044. 摩尔线程智能科技成都有限公司四川 成都 6100315. 软硬件协同设计技术与应用教育部工程研究中心华东师范大学上海 200062摘 要 随着人工智能技术的迅速发展大语言模型在许多领域取得了显著成功但在教育领域的应用仍面临多模态数据处理困难、回答准确性不足以及信息载体单一等问题。为解决这些问题提出了一种视觉教育大模型VELM。VELM基于多模态公开教育数据集及专用教育数据集进行训练并结合模型优化技术不仅提升了模型在教育场景中的回复质量而且实现了计算资源的优化与降低。同时使用了RAG技术确保生成内容的准确性和丰富度。在部署与应用方面VELM通过Dify平台实现了灵活的多端部署支持微信小程序、Web云端平台以及本地化部署3种形式满足了不同教育场景中的多样化需求。评测实验表明VELM在标准评测数据集如Mathvista、OCRBench和MMMU等上的准确性显著优于MiniCPM-V、DeepSeek-VL、Yi-VL等开源大模型在专用教育评测数据集上VELM的准确性相较于基础模型Qwen2-VL提升了9.78%。关键词 大语言模型; 多模态; 智慧教育; RAG技术DOI:10.11959/j.issn.2096-0271.2025056引用格式许跃蓬, 徐柴迪, 郭晋军, 等. 面向教育场景的视觉大模型优化与应用[J]. 大数据, 2025, 11(5): 67-85.XU Y P, XU C D, GUO J J, et al. Optimization and application of vision-based large models in educational scenarios[J]. BIG DATA RESEARCH, 2025, 11(5): 67-85.0 引言随着人工智能技术的不断发展大语言模型large language modelLLM逐渐涌现并重塑着人们的工作和生活。然而其在教育领域的应用仍面临诸多挑战。首先教育数据通常是多模态的包括文本、图像、音频、视频等而传统大语言模型往往无法有效处理这些多模态数据难以提供全面的学习支持。其次传统大语言模型通常需要人工设计提示或指令Prompt难以适应教育场景中多样化、自动化的任务需求例如复杂推理题的分析等这在一定程度上限制了其准确性和实用性。为了解决上述问题本文提出了一种视觉教育大模型visual education large modelVELM。VELM的一个重要优势是其对多模态数据的处理能力较强。相比于只能处理文本数据的传统大模型VELM能够同时处理文本、图像等多模态输入提供更全面的学习支持。VELM还通过对大规模教育数据集的微调与优化提高了模型在教育场景中的适应性与性能。利用量化、剪枝等模型优化技术VELM在保证高效推理的同时大幅降低了计算资源的消耗使其能够在资源有限的教育环境中得到更广泛的应用。与此同时VELM还结合检索增强生成retrieval-augmented generationRAG技术生成更适合教育场景的提示词。通过这种方式VELM可以更精准地处理逻辑推理、分析和解答问题解决传统大模型在教育任务中的“幻觉”问题并且提高模型对复杂任务的适应性。本文主要贡献如下1多模态教育数据集构建通过整合开源数据集、原始教材和自制教育数据集构建了一个适用于多模态教育场景的高质量数据集为视觉教育大模型的优化与应用提供了基础。2基于多模态数据集的模型微调与优化使用多模态教育数据集对模型进行微调并且结合量化、剪枝、FlashAttention等技术有效降低了模型计算开销提高了模型的性能确保模型在离线环境下也可高效运行。3基于RAG技术的智能化部署RAG技术帮助模型实现了高效的信息检索增强了其在实际教学任务中的智能化应用能力并且实现了在微信小程序、Web云端和本地化部署等多种场景的应用。1 相关工作1.1 视觉大模型近年来视觉大模型vision large modelVLM在人工智能领域取得了飞速发展越来越多的科技公司和研究机构推出了具有代表性的视觉大模型进一步推动了视觉任务的性能提升和应用拓展。其中OpenAI推出的多模态模型GPT-4是一款具备强大视觉和语言处理能力的模型。它不仅能够理解和生成自然语言还支持对图像的分析和描述在视觉问答、图像生成和图文结合任务等方面展现了卓越的性能。此外阿里巴巴达摩院推出的Qwen-VL模型将视觉与语言的能力进行了有机融合。Qwen-VL能够处理复杂的图文任务如图像中的物体检测、描述生成以及图文问答等并在大规模多模态数据的训练中展现了卓越的视觉理解与生成能力。清华大学和面壁智能联合发布的MiniCPM-V模型则代表了视觉大模型轻量化的探索方向。作为一款面向视觉任务的轻量级多模态预训练模型MiniCPM-V在保持较小参数规模的前提下依然能够在视觉与跨模态任务中取得良好的性能。它通过创新的预训练策略和模型结构设计实现了对视觉与语言信息的有效融合具备处理图像分类、目标检测、图文匹配等多种任务的能力。1.2 PEFT微调技术参数高效微调parameter-efficient fine-tuningPEFT是一种针对大规模预训练模型的先进微调策略。其主要目标在于通过调整极少量模型参数实现优异的性能表现同时显著削减训练成本及存储需求。PEFT的核心策略聚焦于对模型的一小部分参数进行精细化调整而非全盘更新从而有效降低训练过程中的计算负担及存储空间需求。PEFT技术的主流实现路径如下。1Adapter此策略在预训练模型的每一层级中嵌入小巧的适配器模块。训练阶段仅针对这些适配器模块的参数进行优化而维持原模型参数的稳定性。此举大幅缩减了待更新参数的数量同时借助适配器模块实现了对特定任务的灵活适配。2LoRA (low-rank adaptation)该方法将模型中的部分权重矩阵分解为两个低秩矩阵进而在微调阶段仅针对这些低秩矩阵进行调整避免了对原始模型完整权重的全面修改。该方法在确保模型性能的同时显著减少了待更新参数的规模。3Prefix Tuning该方法在输入序列的前端附加一段可训练的前缀并在训练过程中仅针对该前缀的参数进行优化而保持预训练模型其余部分的参数固定不变。通过精细调整前缀内容模型能够迅速适应新任务的需求。4Prompt Tuning Prompt Tuning与Prefix Tuning类似但其仅在输入中添加少量可训练的提示词并在训练阶段专注于这些提示词参数的优化而不涉及模型其他部分的调整。1.3 RAG技术RAG是一种优化大型语言模型输出的方法使其能够在生成响应之前引用训练数据之外的权威知识库。LLM使用海量数据进行训练拥有数十亿个参数能够执行诸如回答问题、翻译语言和完成句子等任务。RAG 在 LLM强大功能的基础上访问特定领域或组织的内部知识库而不用重新训练模型进一步提升了其输出的相关性、准确性和实用性。这是一种经济高效的改进方法适用于各种情境。RAG 包含3个主要过程检索、增强和生成。1检索根据用户的查询内容从外部知识库获取相关信息。具体而言将用户的查询嵌入模型并转换为向量以便与向量数据库中存储的相关知识进行比对。通过相似性搜索找出与查询最匹配的前K个数据。2增强将用户的查询内容和检索到的相关知识一起嵌入一个预设的提示词模板中。3生成将经过检索增强的提示词内容输入大型语言模型以生成所需的输出。1.4 Dify平台随着LLM的快速发展如何高效地将这些模型应用于实际场景成了一项巨大挑战。尽管LLM展现出了强大的生成能力但将其部署到生产环境中仍然存在诸多挑战包括复杂的系统集成、资源管理和持续维护等。为了应对这些问题研究者开发了Dify平台。Dify平台融合了后端即服务backend as a serviceBaaS和大语言模型操作large language model operationLLMOp的理念旨在提供一个一站式解决方案使开发者能够快速搭建生产级的生成式AI应用。Dify支持多种大型语言模型如 Llama、QWen、Baichuan、ChatGPT等并与多个模型供应商合作确保开发者可以根据具体需求选择最适合的模型。此外Dify 还提供了一系列工具和服务包括模型部署、性能监控、自动化更新等从而显著降低了开发和维护的成本与复杂性。Dify的出现不仅有助于加速生成式AI应用的落地也为未来的LLM开发提供了解决方案。2 数据集收集与构建在教育场景中数据集的质量和丰富性是训练大模型的关键特别是在处理涉及多模态信息如文本、图像和视频和教育领域特定任务的模型中数据集的作用尤为重要。数据集来源主要分为3个部分开源的教育数据集、原始教材资料以及自制数据集。其中自制数据集是本研究的创新点之一通过收集大量教育资料构建数据集进一步增强了模型的适应性。自制数据集流程如图1所示。图1 自制数据集流程2.1 开源的教育数据集本研究使用了来自多个开源平台的数据集这些数据集涵盖了教育领域中的常见任务如阅读理解、知识问答等。这些数据集也包含了来自多个学科的纯文本数据集和多模态数据集。例如来自OpenData的Eedi数据集提供了包含两个学年2018年9月—2020年5月学生对Eedi数学问题的回答主要用于提高模型的数学能力。ChemData700K汇集了9项化学核心任务730K个高质量问答的化学能力指令微调数据集。此外OCR-VQA数据集提供了超过20万张图像和相关的问答QA对主要用于提高模型的视觉能力。这些开源数据集为视觉大模型提供了广泛的基础训练数据使其能够具备较强的图文理解与处理能力。然而开源数据集的局限在于内容的通用性它们并未完全针对特定的教育场景设计因此在实际应用中特别是面向不同年级和学科的教育任务时还需要通过其他手段进一步增强模型的能力。这也是本研究中结合原始教材和自制数据集的必要性所在。2.2 原始教材数据为了进一步提高模型回答的正确率本研究使用了大量的原始教材数据作为RAG技术的知识库来源。教材不仅包含丰富的课程知识还涵盖了多学科、多年级的教学内容这使得它在教育领域的问答和内容生成任务中具有强大的支持作用。这些数据集包含从教材中提取的文本内容涵盖了各个学科的知识点、定义、定理和例题等。本研究从教材中提取了总计超过50 000页的文本数据。原始教材数据的来源如下。1与华东师范大学出版社合作获取了经过授权的教材电子版这些教材涵盖了从小学到高中的各个年级和学科。2从2个在线教育资源平台国家中小学智慧教育平台、华东师范大学大夏学堂收集了公开可用的教材数据。这2个平台由教育机构或政府部门运营确保了数据的质量和合法性。3本研究还使用笔者团队自主编写的教材字数为100.1万字目前教材使用人数已超过3万人。RAG技术将视觉大模型与检索系统结合起来使模型不仅依赖于内部参数生成内容还可以动态地从外部知识库中获取相关信息为模型提供准确且全面的知识支持。具体而言模型在回答学生的学习问题时能够先从教材中检索出相关的章节、段落或知识点然后基于检索到的信息生成准确的回答。这种方法尤其适用于处理复杂的教育任务例如解释科学概念、推导数学公式或提供历史事件的背景信息。这不仅提高了模型回答的准确性也保证了生成内容的可信度。2.3 自制数据集自制数据集是本研究的核心贡献之一。为了解决现有开源数据集在某些教育任务中数据局限的问题本研究构建了一个专门的教育数据集。这个数据集的构建流程涉及数据获取、预处理、自动化问答生成等多个步骤最终形成了一个高质量的问答QA对数据集用于训练和评估视觉大模型。训练数据集任务列表见表1。表1 训练数据集任务列表数据集构建流程如下。1数据获取本研究首先爬取了大量公开的试卷数据。这些试卷通常以PDF格式提供包含大量的选择题、判断题和简答题覆盖了多个学科的考试内容。共收集了约2 000份试卷。平台上的数据确保了自制数据集的真实性。2PDF文件处理和图像分割爬取到的试卷通常是扫描的PDF文档。为了便于进一步处理首先将PDF文件转变为图片进行保存之后采用目标检测方法自动检测和分割试卷中的题目、题号、选项等关键信息将其从图片中框取出来。共处理了超过6 000张图像。图片框取结果示例如图2所示。图2 图片框取结果示例3文字识别针对分割后的试卷题目信息本研究使用了通用OCR理论general OCR theoryGOT技术进行文字识别将试卷中的题目和文本信息转换为可编辑的TXT格式转换后的文本数据主要以“题号题目”的形式进行存储。共成功识别并转换了约50 000道题目。4生成QA对数据集通过调用ChatGPT-4o模型本研究为每个题目生成了对应的答案并将这些题目和答案组合成标准化的QA对。该过程不仅满足了数据集的格式并且提高了数据集的质量。最终生成的QA对数据集包含约50 000个高质量的QA对。3 视觉教育大模型设计3.1 视觉教育大模型架构设计本研究基于Qwen-VL-7B设计了VELM以应对教育场景中的多模态数据处理和复杂推理任务。VELM整体架构如图3所示。首先通过3种不同的教育数据集对模型进行了微调使其能够适应多样化的教育需求。为了进一步提高模型微调的效率还采用了量化和FlashAttention等优化技术对模型进行压缩和加速使其在资源受限的环境中仍能高效运行。在推理阶段结合RAG技术模型在回答时能够实时从外部知识库中检索相关的背景信息确保生成的答案不仅准确而且具有逻辑性和可靠的知识支持。最终通过Dify平台部署使VELM可以灵活地适应各种特定的教育任务场景如个性化辅导、智能题目生成以及多模态问答等任务。此外还提供了3种应用方式分别是小程序端、Web云端和本地化部署方式。图3 VELM整体架构3.2 算法流程概述本节详细介绍模型的算法流程包括输入输出的设计以及如何通过RAG技术将输入数据与Query结合生成增强Prompt从而提升模型的推理性能和输出质量。模型的输入由多模态数据构成涵盖文本和图像两种类型。文本输入通常包括用户提出的问题描述或学习材料例如任务指令、参考文献等内容用于明确模型需要解决的目标。对于多模态场景图像输入作为文本的补充可以是教育领域的图表、流程图或其他相关的图片信息。模型的输出则是针对输入问题的详细答案能够根据用户需求提供逻辑清晰、内容准确的回答尤其在整合多模态信息的场景下表现尤为突出。在处理输入数据的过程中充分利用了检索增强生成技术将用户的Query与外部资料相结合以生成增强版Prompt。具体而言模型首先通过向量化技术将用户的Query转换为向量表示并在向量数据库中匹配检索最相关的资料。检索到的资料通常较多因此需要进一步进行Rerank操作即根据与Query的相关性和资料的质量对检索结果重新排序以确保最优质、最相关的资料能够被优先选取。经过筛选的资料随后与预设的Prompt模板结合形成具有明确上下文的提示输入。Prompt的设计是RAG技术的关键它能够有效将Query与检索到的资料整合确保模型对任务语境的深度理解。本研究采用的模板如下“请根据以下相关资料来清晰准确地回答问题假如与你的知识有所冲突以相关资料的内容为准。相关资料{result}Query{query}”。通过这种结合方式生成的增强Query更具语义完整性和上下文关联性。增强后的Query最终被输入预训练语言模型如VELM中进行推理从而生成高质量的答案输出。RAG技术流程示意图如图4所示。图4 RAG技术流程示意图3.3 模型微调与优化本研究采用LLama-Factory框架对Base模型Qwen2-VL-7B进行了微调。LLama-Factory是一款高效的训练和微调工具适用于处理大规模语言模型和多模态任务。本研究使用前文所提到的两类数据集对其进行微调一部分是开源的多模态教育数据集涵盖了文本、图像及问答数据另一部分是本文的自制教育数据集针对小众的学科进行生成使模型获得更广泛的知识。数据集的多样性确保模型能够在多个教育任务中实现高效的推理与生成QLoRA训练过程如算法1所示。本研究的微调方法选择QLoRA方法。该方法通过低秩适配矩阵优化参数调节减少了训练所需的资源量并提升了模型的调优效率。为了进一步提升训练的效率和减少资源消耗本研究采用了混合精度训练FP16技术这不仅减少了显存占用还加快了模型的训练速度。在推理优化方面本研究采用了Flash-Attention技术。该技术优化了Transformer架构中的自注意力机制大幅提升了训练和推理阶段的计算效率减少了内存访问瓶颈确保了在处理大规模输入时的高效计算。通过Flash-Attention技术VELM在面对大量复杂的教育推理任务时表现出了更快的响应速度。在模型优化方面本研究使用了量化和剪枝技术。首先通过量化将浮点运算从FP32降为FP16甚至INT8这显著减少了模型的存储和计算开销同时尽量保证模型的精度不受显著影响。此外剪枝技术通过识别并移除模型中不必要的神经元和连接将模型的参数数量压缩到更小的规模。经过这些优化VELM在离线环境中也能保持高效运行特别适用于资源有限的教育场景如远程教育设备或断网情况下的部署。3.4 部署与应用为了确保VELM在各种实际教育场景中的高效应用本研究将VELM部署到了Dify平台。Dify平台是一个集成BaaS和LLMOps的工具能够简化大语言模型的部署、管理和持续优化流程。借助Dify平台的强大支持不仅实现了VELM在云端和本地的无缝部署还大大简化了VELM的管理、监控与更新为用户提供稳定、高效的使用体验。当用户使用VELM进行学习辅导或问题解答时会通过RAG技术提升生成答案的准确性和信息丰富度。具体流程是当用户输入问题后系统会从预先构建的外部教育知识库中进行检索找到与用户问题相关的数据。这些检索到的内容会被转换为参考信息并与用户输入一起作为输入数据输送到VELM模型中进行推理。通过这种方式VELM不仅依赖于自身的内部知识还能够实时获取并利用最新的外部信息大幅提升答案的准确性和知识的全面性。此外本研究还针对不同的使用场景特别设计了灵活多样的部署与访问方式。VELM可以通过以下3种方式为用户提供服务。1小程序VELM在小程序端的部署主要面向移动端用户特别是学生群体。学生可以随时随地通过手机或平板电脑轻松访问VELM进行问题提问或是拍照问答获得个性化的即时学习指导。小程序的设计简洁直观用户只需输入问题或图片VELM就会通过RAG进行检索并提供精准的答案。该方案操作灵活且便捷适用于碎片化学习和日常作业辅导极大提升了学习的便利性和互动性。2Web云端VELM的Web云端部署主要面向教师、教育工作者以及研究人员。用户可以通过浏览器访问VELM进行批量的教育资源生成、复杂问题解答以及知识点解析等任务。Web云端的界面更加专业化支持更高复杂度的任务处理如智能试题生成、多模态教材分析等。教师可以利用这一平台快速生成针对性练习题或通过VELM进行多模态数据如图文、视频的辅助教学帮助学生更好地理解复杂的学习内容。3本地化部署除了直接的用户端应用VELM还可以通过本地化部署来使用。用户可以在下载VELM模型后将其部署到本地将VELM的智能推理能力集成到其他教育平台、应用或学习管理系统中。这种灵活的部署方式允许教育科技公司或学校定制自己的智能辅导系统或基于VELM的强大功能开发创新型教育产品。4 实验结果与分析4.1 实验设置本研究实验在拥有两张NVIDIA GeForce RTX 4090显卡的服务器上进行。针对实验中使用的Qwen2-VL-7B模型基于LLama-Factory框架进行了微调优化。在超参数的选择上经过多次实验调优最终确定批大小batch size为64以确保在计算资源允许的情况下能够有效提升训练速度。同时将学习率learning rate设置为5×10⁻⁴这一设置在初步实验中表现出良好的收敛性能够有效平衡模型的训练速度与精度。此外训练周期epoch设置为5轮次综合考虑了训练时间与模型性能之间的平衡以避免过拟合现象的发生。数据集包括前文所说的自定义数据集和开源的教育数据集。为了确保数据质量和模型的泛化能力所有数据在输入模型之前均进行了标准化处理。实验设置见表2。表2 实验设置4.2 模型评测本次模型评测包括在专用教育评测数据集与标准评测数据集上的表现。1专用教育评测数据集该数据集是为了评估模型的学科内容理解和多模态识别能力而设计的。其中共包含生物、化学、历史、科学、数学等7个不同学科包含了多种任务不同任务的评价指标也有所不同。专用教育评测数据集学科题目占比如图5所示。图5 专用教育评测数据集学科题目占比2标准评测数据集在模型性能评估中标准评测数据集为模型的基本效果提供了重要的参考。这些数据集通常由业界广泛认可涵盖多种任务并提供统一的评估指标。常见的标准评测数据集包括MMMU、OCRBench和MathVista。MMMU用于评估多模态语言理解能力涵盖阅读理解、文本生成等多种任务为模型提供多角度的评测。OCRBench针对大规模多模态大模型large multimodal modelsLMMs的全面光学字符识别optical character recognitionOCR评估基准旨在评估模型在处理各种文本相关视觉任务中的能力。它包含 29 个数据集是目前最全面的 OCR 评估基准之一。MathVista用于评估大型语言模型和大规模多模态模型在视觉上下文中的数学推理能力。这个基准测试解决了评估这些模型在结合数学推理和视觉理解任务中表现的不足。专用教育评测数据集任务列表与标准评测数据集部分任务列表见表3。表3 评测数据集任务列表4.3 实验方案为了全面评估模型的性能在专用教育评测数据集和标准评测数据集上进行了对比实验。自定义数据集包含约30 000条样本任务类型涵盖单选题、多选题、简答题等标准评测数据集使用了公开的任务数据集确保模型在通用任务中的表现得到充分验证。对比实验中的模型包括VELM、Qwen2-VL-7BBase模型、Yi-VL-6B、Deepspeek-VL-7B以及MiniCPM-Llama3-V 2.5模型。Qwen2-VL-7B是一个适用于图像描述生成、图像问答、对图像内容进行推理和解释等任务的视觉模型。Yi-VL6B是零一万物Yi系列模型家族发布的多模态大模型拥有较强的视觉理解能力。DeepSpeek-VL是幻方量化旗下深度求索公司研发的模型系列对代码、数学问题的理解能力较强。MiniCPM- Llama3.5V是面壁智能公司与清华大学共同开发的面向图文理解的端侧多模态大模型系列。该系列模型接受图像和文本输入并提供高质量的文本输出它们分别代表了多模态任务和中文语言生成任务的不同基线。实验重点评估生成文本的相似性、回答的准确度以及图片理解等多模态处理能力。实验分为两轮第一轮在自定义数据集上进行测试模型在复杂教育场景任务中的表现第二轮在标准评测数据集上进行评估其在通用多模态任务中的适应性与泛化能力。最后汇总各项指标全面评估模型的实际应用效果。4.4 实验结果1专用教育评测数据集在专用教育评测数据集任务中VELM 模型在多方面表现优异相比于Base模型得分提升了9.78%。它在理解和回答特定学科内容方面展现出了显著的优势能够提供高质量的回答充分证明了其在教育场景中的高适应性。此外在选择题的处理上它具备较强的准确性能够选出正确答案显著降低了漏选和误选的可能。相较于其他模型VELM 在处理图像理解任务时也具备了极高的准确性能够有效提取和理解图像中的文本信息表现出良好的多模态理解能力。2开源的教育数据集在OCR-Bench数据集和涉及复杂数学推理的MathVista任务中VELM的表现均略逊于最优模型其相较于Base模型的表现仅下降了2%和3%。尽管这一差距不大但反映出VELM在处理这些特定任务时的表现略显不足。一个可能的原因是 VELM的参数规模相对较小其能够学习到的知识容量有限这使得当模型针对某一能力如教育场景下的回答能力进行优化时往往会导致其他能力不足如跨场景的文字识别和多步数学推理从而引发性能的轻微下降。这种能力间的此消彼长现象源于模型规模限制对知识存储与泛化能力的约束。尽管如此VELM的整体表现仍然接近最优未来还需针对模型规模与知识分配策略之间的关联进行优化以提升其在复杂任务中的表现。在MMMU任务中VELM的整体表现相较于Base模型有所提升尤其是在多学科背景的任务中展现出更高的稳定性。具体而言VELM不仅能够适应不同领域的知识需求还能够灵活应对多样化的回答场景。例如在跨学科的推理任务中VELM可以准确捕捉到问题的上下文和细节提供清晰且准确的回答。此外VELM的优势还体现在其对多类型问题的兼容性上针对文本理解与生成任务、图像识别与理解任务、多模态问答任务等它都能提供稳定的输出。总体来说VELM作为通用教育大模型在不同任务中的表现显示了它具备较强的跨领域适应能力和推理深度特别是在需要多模态信息整合和复杂逻辑推理的场景下。模型实验结果见表4。其中加粗的为最佳结果加下划线的为次佳结果。在不同评测集上的得分对比如图6所示。表4 模型实验结果图6 模型得分对比4.5 部署与展示1网页端为了更方便地展示和应用VELM模型本研究通过 Dify平台将其部署在网页端。Dify平台提供了高效的模型部署工具能够轻松集成和管理多模态模型。利用Gradio框架构建交互式界面用户可以在浏览器中进行多模态输入如文本、图像并实时查看模型的输出结果。网页端展示界面简洁直观允许用户上传自定义知识库并且可以根据知识库的内容自动生成QA对。QA对自动生成展示如图7所示。与此同时在网页端还可以实现文本与图像在线问答。图像生成问答展示如图8所示。图7 QA对自动生成展示图8 图像生成问答展示2小程序端为了拓展模型的实际应用场景本研究设计并部署了“水杉码园智能助教”小程序用户可以通过微信等平台直接访问这一智能助手实现多模态交互如文本问答和图像识别等功能。具体而言小程序提供了简洁易用的界面帮助用户快速访问不同功能模块。在首页界面顶部展示了用户欢迎信息并设有一个搜索框方便用户输入问题以获取答案。同时小程序分为多个功能区域例如“水杉助教”和“论文助手”模块分别对应日常问题解答和学术支持的需求。小程序还提供了“魔法咒语”部分列出了常见问题的快捷入口用户可以快速找到“如何有效记笔记”“大学生职业规划”等常见问题的解决方案。此外界面下方还设有“灵感创意”板块内含诸如“考试复习” “知心朋友”之类的推荐功能帮助用户高效地制订学习计划或者在学习过程中获得激励和支持。整个小程序的设计目标在于提升用户的交互体验让用户能够随时随地通过手机获得高效的智能问答服务。小程序端的首页及问答页面展示如图9所示。图9 小程序端的首页及问答页面展示5 结束语本研究通过设计和实现VELM为智能教育领域中的多模态数据处理、复杂推理任务和个性化教学提供了新的解决方案。在模型的设计过程中本文以Qwen2-VL-7B为基础模型结合了RAG技术确保模型在面对教育领域中多样化、复杂化的任务时能够给出准确的解答。此外借助LLama-Factory平台的高效训练框架本文对模型进行了微调利用量化、剪枝等优化技术显著提升了模型的推理效率和部署灵活性确保VELM能够适应在线和离线的多种应用场景。在模型的部署和应用方面VELM通过Dify平台进行了灵活的多端部署支持小程序、Web云端和本地化部署3种形式满足了不同用户群体的需求。无论是面向学生的个性化学习辅导还是为教师提供智能试题生成与教学资源分析VELM都展现了强大的实际应用价值。尽管本研究取得了一些成果但也存在一定的局限性。例如在特定的教育任务中模型的性能可能受到模型规模大小、任务复杂性和多模态数据噪声的限制。此外由于算力的限制本文无法在更大的模型规模上来进行实验。未来的工作将集中于进一步扩展VELM的功能优化其在实际场景中的应用效果并结合更多的教育数据集来提升模型的通用性和准确性。本文也将对VELM在不同教育场景中的实际表现进行深入分析以便为后续的研究和应用提供更全面的数据支持。作者简介许跃蓬男华东师范大学数据科学与工程学院硕士生主要研究方向为智能教育、大模型性能优化。徐柴迪男现就职于上海孔棣科技有限公司主要研究方向为文本生成、高性能计算。郭晋军男华东师范大学数据科学与工程学院硕士生主要研究方向为智能教育、大模型性能优化。姜云桥男现就职于摩尔线程智能科技有限公司主要研究方向为并行计算、高性能计算。王仕嘉男华东师范大学数据科学与工程学院工程师主要研究方向为智能教育等。刘垚男博士华东师范大学数据科学与工程学院副教授主要研究方向为并行计算、智能计算等。联系我们:Tel:010-53879208010-53859533E-mail:bdrbjxintong.com.cnhttp://www.j-bigdataresearch.com.cn/转载、合作010-53878078大数据期刊《大数据Big Data ResearchBDR》双月刊是由中华人民共和国工业和信息化部主管人民邮电出版社主办中国计算机学会大数据专家委员会学术指导北京信通传媒有限责任公司出版的期刊已成功入选中国科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊以及信息通信领域高质量科技期刊分级目录、计算领域高质量科技期刊分级目录并多次被评为国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。关注《大数据》期刊微信公众号获取更多内容