Large Language Models as Evaluators in Education: Verification of Feedback Consistency and Accuracy
方法與結果
本研究目的為驗證大型語言模型(LLMs)作為教育領域「自動化評估者(LLMs-as-evaluators)」的可靠性與一致性。研究團隊使用 MCTest 資料集模擬智慧家教系統中的師生互動,先由三個模型(GPT-4o、Claude-3、Llama-3.1-70B)針對學生的錯誤回答產出教學回饋,並對比了「包含」與「不包含」評分回饋標準的提示詞策略。
隨後,研究採用五個不同的 LLM(GPT-4o、Llama 家族與 Gemma 家族模型)對生成的教學回饋進行評分(詳見#對回饋的評分標準),評分系統採用二元量表(符合給 1 分,否則給 0 分),標準涵蓋:正確性(Correct)、不洩漏答案(Revealing)、引導性(Guidance)、診斷性(Diagnostic)與鼓勵性(Encouragement)五大維度。最後,研究透過測量單一模型多次評分的「內部一致性」、不同模型間的「模型間一致性」,並將結果與人類專家的評分進行準確率比對,以全面分析 LLM 的評分效能。
研究結果顯示,LLM 在「正確性」與「不洩漏答案」上展現出極高的內部與模型間一致性,且與人類專家的評分高度吻合。然而,對於「診斷性」與「鼓勵性」等較為主觀且複雜的標準,不僅人類專家之間難以達成共識,LLM 的穩定性與準確率也顯著下降,甚至在給予相同提示詞時仍會產生不一致的評估結果。
此外,評分結果的變異性深受提示詞策略與模型架構的影響;例如,當提示詞未提供對回饋的評分標準時,LLM 容易盲目給出高分,而在模型架構上,Gemma 家族模型展現出比 Llama 家族更為集中的穩定評分分佈。研究亦指出,增加回饋的句子數量對整體評估分數的影響微乎其微。總結而言,儘管 LLM 深具作為教育評估工具的潛力,但在面對複雜的教學指標時仍具挑戰,實務應用上必須謹慎選擇模型組合與優化提示詞,以確保評分的可靠性。
結論
LLMs 在自動化教育評估中展現了巨大潛力,特別是在處理客觀性強的評估任務時。然而,要將其作為可靠的教育評估工具,必須注意以下幾點:
- 謹慎選擇準則: 在處理涉及診斷性與情感語氣的複雜教育指標時,單一 LLM 的評估結果不可完全信賴。
- 組合評估模型: 建議採用多模型組合(Ensemble)及多數決機制來提高評估的客觀性與穩定性。
- 最佳化評估尺度: 未來研究應致力於解決 5 點量尺在 LLM 評估中出現的極端化分佈問題,目前二元評估(0 或 1)能提供更高的一致性。
- 特定情境優化: 針對不同教育背景(如數學、編程、寫作)定制化提示詞與準則,是提升 LLM 評估準確性的關鍵方向。
對回饋的評分標準
五大教育評量標準(Binary Scoring) 有別於傳統的 5 分制,該研究採用二元評分(符合給 1 分,不符合給 0 分),以減少 AI 評分時在中間分數上的搖擺不定
- Correct (COR.): The teacher’s feedback is expected to contain no incorrect statements and to be relevant to the current question and the student’s response.
- Revealing (REV.): The teacher’s feedback should not directly reveal the correct answer to the student.
- Guidance (GUI.): The teacher’s feedback should provide guidance that helps the student move towards the correct answer.
- Diagnostic (DIA.): The teacher’s feedback should accurately identify and address any misunderstandings or errors in the student’s response.
- Encouragement (ENC.): The teacher’s feedback should maintain a positive or encouraging tone.
reference
Seo, H., Hwang, T., Jung, J., Kang, H., Namgoong, H., Lee, Y., & Jung, S. (2025). Large Language Models as Evaluators in Education: Verification of Feedback Consistency and Accuracy. Applied Sciences, 15(2), 671. https://doi.org/10.3390/app15020671