Applications and Outcomes of Large‑Language‑Model‑Generated Feedback in Undergraduate Medical Education: A Scoping Review

本研究系統性地分析了大型語言模型(LLM)在醫學本科教育中生成回饋的應用現狀及其教育成效。研究共納入 42 篇相關文獻,顯示 LLM 在提供即時、個人化且具任務針對性的回饋方面具有顯著潛力,其效果能與專家回饋相媲美。然而,目前的證據基礎仍呈現地理分布不均(集中於全球北方國家)且缺乏長期行為改變或患者層面影響的數據。雖然 LLM 在提升學生短期知識與技能方面展現出可行性,但準確性波動、AI 幻覺風險以及對人類監督的需求仍是其廣泛實施的主要挑戰。

應用現況

地理分佈

研究活動高度集中在「全球北方」(Global North)國家:

模型選擇

OpenAI 的 GPT 系列模型佔據絕對主導地位:

研究設計

回饋生成的兩大核心情境

LLM 在醫學本科教育中主要扮演即時、低風險的形成性回饋工具,主要應用於以下兩類情境:

情境類別 描述 回饋重點
模擬臨床接診 嵌入聊天、語音或機器人驅動的虛擬標準化病人。 病史詢問、溝通技巧、臨床推理過程。
文本評估任務 針對選擇題(MCQ)、臨床病例描述、論文及書面作業。 答案正確性、推理步驟、文章結構、語言使用、誤區識別。

在 69% 的研究中,回饋內容是針對個人學習者進行個人化定制的,儘管個人化程度有所不同。

教育成效評估

研究採用 Kirkpatrick 評估模型來分類教育產出,發現目前的證據主要集中在低層級成效:

層級 定義 研究數量 (百分比) 關鍵發現
第 0 級 無學生數據 22 篇 (52%) 側重於工具開發或內部質量評核(如專家評分)。
第 1 級 學生反應 10 篇 (24%) 學生對自信心、動力及學習有效性有正向感知,滿意度普遍在 3.5-4/5 之間。
第 2 級 學習成效 10 篇 (24%) 在臨床推理、知識掌握及學術寫作方面有顯著提升,效果通常與專家相當。
第 3 級 行為改變 0 篇 (0%) 尚無研究調查回饋是否轉化為臨床環境中的觀察行為。
第 4 級 對結果的影響 0 篇 (0%) 尚無對組織、患者護理或醫療質量的影響報告。

LLM 回饋表現

評估表現優異不遜於人類專家,特定情境表現出與人類專家展現的高度一致性

LLM 在特定情境的評估標準上,能展現出與人類專家極度相近的判斷能力,表現並不遜色於人類。

回饋內容正確率達近八成,但「捏造文獻(幻覺)」的風險極高

LLM 生成的解釋與推論在正確率上具有一定的水準,但若要求其提供學術參考文獻,則會出現嚴重的幻覺問題。

回饋廣受專家認可具高實用性,但在「深度臨床推理」仍不及人類

多數專家盲測認為 LLM 生成的回饋對學生非常有幫助且涵蓋面向廣泛,但遇到需要深度臨床推理的情境時,人類專家的指引仍具有不可替代的優勢。

實施建議與未來方向

對醫學院的實施建議

  1. 安全部署標準: 應包含對學生的明確告知,並在涉及高風險任務時由教師進行後期編輯。
  2. 數據隱私: 實施計劃必須符合機構數據隱私政策(如 GDPR)。
  3. 跨團隊協作: 資訊技術團隊應與醫學教育工作者合作,確保技術應用具有真正的教育效益。

未來研究優先事項