那天和一位朋友在聊天,談到他過去協助設計學生的作文批改系統的一些趣事。隨著近年 AI 發展,這個話題我們也越來越開展開來。主要在聊,在 AI 快速發展的今天,傳統的作文評分方式是否也該與時俱進或是導入AI 應用?
這個問題在這場午餐聚餐結束後,持續讓我感到很好奇想要深入研究。
當開始深究這個議題才發現,台灣的大考中心的作文評分機制其實蘊含著許多設計智慧,而這些前輩設計的系統與 AI 的運作原理有著出人意料的相似之處。以此文來和大家分享我的發現。
走進大考中心的評分世界
大考中心的作文評分過程,可以說是一場精心策劃的系統性判斷。每位評分老師就像樂團中的「演奏家」,而整個評分機制則是確保這場音樂會完美呈現的「總指揮」。
評分老師們首先會進行「同步校準」。
就像樂團在演出前要先調音一樣,老師們會先針對一些範例作文進行評分討論。這個過程讓我想到監督式學習的 AI 訓練時,所需要資料標註階段 — — 在開始真正的任務之前,我們也需要先讓AI理解什麼是「好」,什麼是「不好」。
更有趣的是大考中心是採用 「雙閱制度」。每篇作文都會經過兩位老師獨立評分,如果分數差異太大,還會請第三位老師進行複閱。這讓我聯想到AI中的「集成學習」(Ensemble Learning):透過多個模型的共同判斷來降低偏差,提高準確性。
具體怎麼做
1. 評分前會議:
在正式開始評閱作文前,大考中心會召開「評分前會議」,邀集所有參與該科目閱卷的老師共同討論、確立評分標準與原則。
2. 範例文章:
大考中心會準備一些範例文章(通常是歷屆考生真實作文),混雜在其他一般試卷中交由老師們進行試改。這些範例文章涵蓋各種等級(如A+、B-等),目的是讓老師熟悉並掌握每個等級的表現特徵。
3. 評分差異分析:
如果某位老師對同一篇範例文章給出的成績與預設答案差異過大(如相差超過兩個等級以上),系統將自動標記該份試卷需再次檢視。大考中心也可能主動找該名老師討論其給分理由是否合理。
4. 給予回饋調整:
針對上述情況或其他特殊案例(如某位老師整體給分偏高或偏低於平均值太多),大考中心人員可能會私下找該名教師溝通討論其判斷依據為何?必要時也可能要求其重新檢視部分試卷以調整自己的評量尺度。
5. 持續監控追蹤:
即使進入正式閱卷階段後,相關單位仍會持續追蹤每位教師的平均給分狀況。如果發現有明顯異常情形出現時仍可適時介入瞭解原因並提供必要協助。
綜上所述可以看出台灣大考中心為了確保作文閱卷品質投入了諸多努力。透過事前的培訓溝通、實際操作中的監控以及事後資料分析比對等機制來盡量維持各科目間、不同批次間及不同教師間的一致性和公平性。
多維度評分標準
評分標準涵蓋三個核心面向:
- 內容深度:關注立意的深刻性、論證的完整性,以及思維的創新性
- 組織結構:著重文章脈絡的流暢度、邏輯的嚴密性,以及段落之間的銜接
- 語言表達:評估用詞的精確性、句式的多樣性,以及修辭的恰當性
細節補充:
關於台灣大考中心的作文評分方式,以下是一些重點資訊補充:
- 評分原則:
- 作文評分採「總體性評分」原則,即根據文章整體表現給予一個總分。
- 評閱時兼顧「內容」、「組織」、「語言」的表現。
評閱流程:
- 每一篇作文由兩位委員共同評閱。
- 若兩位委員給出的成績差異過大(如相差超過3級分),該篇作文將交由第三位委員進行複閱。
成績等級與標準:
- 作文成績以級分呈現,滿級為20級。
注意事項:
- 請依題目要求選擇適當的寫作方式(如記敘抒情或論說)。
- 注意文章切題性。離題者將受扣減至多6級。
- 字數不足800字者,按比例扣減至多6級。
等第的細項設計 — (並不一定完全正確)
- 內容:
- A+級:內容豐富深刻,見解獨到精闢
- A級:內容充實完整,見解合理有據
- B+級:內容尚稱周延,但略嫌單薄或流於表面
- B級:內容欠缺深度廣度或偏離主題
- C級:內容貧乏空洞、雜亂無章
- 組織:
- A+級:結構嚴謹完整、層次分明、前後呼應
- A級:結構清晰自然、條理井然
- B+級:結構稍嫌鬆散或重複冗贅
- B級:B段落組織不佳或脫節
- C 級:C段落混亂無序
- 語言運用: A+及A 級需「措詞精煉」、「文采斐然」 B 及B +需「用詞得當」、「語法通順」 C及以下則可能出現「用字遣詞失當」、「語法錯誤」
- 其他要素: 如記敘抒情文重視是否具備故事性、情感真摯動人等特質;論說文則看重邏輯思維能力與說服力。
- 範例文章示例(以歷年學測國寫作文為例):
- 2020:〈如果我有一座新冰箱〉
- 2019:〈溫室裡的花朵〉
- 2018:〈那一次,我們聊了什麼?〉
- 2017: 〈在這樣的傳統習俗裡,我看見… 〉
AI 與人類評分的微妙關連性
當我更深入研究後,我發現AI和人類在評分上各有優勢。AI就像一個永不疲倦的助手,能夠快速檢查文章的基本要素:文法正確性、用詞精確度、結構完整性。它可以在幾秒鐘內完成這些工作,而且標準始終如一。
但人類評分者擁有AI目前還難以企及的能力:理解文章背後的情感、捕捉創意的火花、評估思維的深度。就像欣賞一首詩,AI 也許能分析其韻律結構,但要真正感受詩中的情感共鳴,還是需要人類的心靈。
以機器學習的方式來看…
在機器學習領域,使用了多種技術來確保模型預測的可靠性。大考中心的雙閱制度讓我想到了機器學習中的「交叉驗證」(Cross Validation)和「集成學習」(Ensemble Learning)技術。
以集成學習為例,我們通常會訓練多個模型,然後綜合它們的預測結果。這類似於大考中心讓兩位老師獨立評分的做法。在 AI 系統中,我們可能會使用不同的算法或同一算法的不同變體來分析同一篇作文,就像兩位老師可能從不同角度來評價同一篇作文。
當模型之間的預測出現較大差異時,我們會使用特殊的「仲裁機制」(Arbitration Mechanism)。這與大考中心在評分差異過大時啟動第三位老師複閱的機制如出一轍。在 AI 系統中,這種仲裁可能是採用投票機制,或是使用更複雜的加權平均方法。
持續優化:提升評判精確度
AI 系統的優化過程讓我想到大考中心定期調整評分標準的做法。在機器學習中,我們使用「超參數調整」(Hyperparameter Tuning)和「模型微調」(Model Fine-tuning)來優化模型性能。
舉例來說,當我們發現模型在某類型的作文上表現不佳時,我們會:
- 收集更多相關類型的訓練數據
- 調整模型的參數權重
- 可能需要重新設計特徵提取方式
這與大考中心監控評分趨勢並及時調整的做法非常相似。當發現某位老師的評分偏離群體標準時,大考中心會提供指導和校準,這就像是 AI 系統中的「模型校正」(Model Calibration)過程。
技術實現的深層思考
從技術角度來看,大考中心的評分機制實際上實現了機器學習中的幾個核心概念:
- 資料品質控制(Data Quality Control): 通過範例作文討論實現資料標準化,確保評分基準的一致性。
- 模型集成(Model Ensemble): 通過多人評分機制降低個體偏差,提高評分可靠性。
- 動態優化(Dynamic Optimization): 通過持續監控和調整,確保評分系統的穩定性和適應性。
這種相似性啟發我們思考:是否可以將這些成熟的人工評分機制反過來應用到 AI 系統的設計中?例如,我們可以設計一個類似「評分前會議」的機制,讓多個 AI 模型在正式評分前先進行「校準」。
↑↑ 以上「AI 與人類評分的微妙關連性」以及「以機器學習的方式來看…」的說明,我是仿效我在 2020 年左右的 AI 機器學習課所認知到的理解來撰寫,但是隨著近年 AI 的成長,過去的這些觀念恐怕已經不適用了。
如同上段,在探討 AI 評分能力時,常常會聽到一種說法:AI 只能處理表層的語言結構,無法理解深層的情感和創意。然而,然後要透過「標籤」以及「超參數調整」…等,這種觀點可能已經被新的技術取代…。
現代 AI 技術突破與作文評分的新思考
超越傳統監督式學習的限制
現代的大型語言模型(LLM)和 Transformer 架構已經從根本上改變了我們處理文本的方式。這些改變讓許多傳統的類比不再適用。
舉個例子來說明這種突破。在傳統的監督式學習中,我們需要大量標註數據來訓練模型理解「什麼是好的作文」。就像我之前提到的,這類似於大考中心通過範例作文建立評分標準。但現代的 LLM 採用了完全不同的方式。
通過預訓練和指令微調(Instruction Fine-tuning),LLM 已經內建了對優質寫作的理解。它不需要像傳統模型那樣,通過大量標註數據來學習評分標準。相反,它已經從海量的人類寫作中學習到了什麼是好的表達、什麼是深刻的思考。
Transformer 架構帶來的革命性變化
Transformer 的自注意力機制(Self-attention)讓 AI 能夠同時理解文章的多個層面:
- 長程依賴關係:能夠理解整篇文章的邏輯脈絡,不再受限於傳統模型只能處理局部上下文的限制。
- 並行處理能力:可以同時分析文章的內容、結構、用詞等多個維度,這種能力甚至超越了人類評分者需要多次閱讀才能完成的工作。
- 語境理解:通過位置編碼(Positional Encoding)和注意力機制,能夠準確把握句子在不同語境下的細微含義。
Embedding 技術的突破
現代的 Embedding 技術,特別是像 OpenAI 的 text-embedding-ada-002 這樣的模型,能夠將文本轉換為高維向量空間中的表示,這讓我們能夠:
- 捕捉語義相似性:不只是表面的文字匹配,而是深層的語義理解。
- 理解概念關係:能夠識別出相似的論證方式或思維模式,即使用詞完全不同。
- 進行文本匹配:可以精確找出相似的寫作風格或論證結構。
這意味著,我們不再需要像傳統方式那樣,通過人工設定的規則來評判作文的品質。AI 能夠直接理解並評估文章的深層含義。
對作文評分的啟示
這些技術突破意味著,我們之前將大考中心評分機制與 AI 監督式學習類比的方式可能需要更新:
1. 標準化訓練的重新定義:
— 舊觀點:需要大量範例作文來建立評分標準
— 新現實:LLM 已經具備對優質寫作的內在理解,可以直接進行評估
2. 品質控管機制的演進:
— 舊觀點:需要多個模型交叉驗證
— 新現實:單個強大的 LLM 就能提供全面且準確的評估
3. 優化流程的改變:
— 舊觀點:需要持續調整模型參數
— 新現實:通過少量示例就能快速適應新的評分需求
小結
現代 AI 技術確實已經突破了傳統機器學習的限制,讓我們需要用全新的視角來看待 AI 在作文評分中的角色。這不僅是技術的進步,更是評分範式的革新。這也提醒我們,在討論 AI 應用時,需要及時更新我們的認知,避免用過時的模型來理解現代 AI 的能力。
不過,這並不意味著人類評分者就失去了價值。相反,這些技術進步為人機協作開創了新的可能性,讓我們能夠結合 AI 的效率和人類的洞察力,創造出更優質的評分體系。
另外,也可以從 GPT-4 的測試成果來看…
近期的研究顯示,GPT-4 在多項需要深度理解的任務中展現出驚人的能力。在 Stanford 大學的一項研究中,研究人員要求 GPT-4 分析一系列具有複雜隱喻和深層含義的文學作品。結果顯示,AI 不僅能夠識別出作品中的主要主題,還能夠準確捕捉作者的情感變化和寫作意圖。
舉個具體的例子:
在分析海明威的《老人與海》時,GPT-4 不只是理解了表面的故事情節,還能深入分析老人堅持不懈的精神象徵,以及人與自然的永恆鬥爭主題。它甚至能夠識別出海明威獨特的「冰山理論」寫作風格,理解文字背後隱含的深層意義。再來是情感理解的突破,現代 AI 模型在情感分析方面取得了重大突破。這要歸功於幾個關鍵的技術進展:首先是大規模的預訓練數據。AI 模型現在能夠接觸到海量的人類文學作品、評論和討論,這些數據包含了豐富的情感表達方式。通過分析這些數據,AI 學會了理解不同語境下的情感細節。
其次是深度學習架構的演進。
現代的 Transformer 架構能夠同時處理文本的多個層面,從字詞的表面含義到句子間的複雜關係,再到整篇文章的主題脈絡。這種多層次的分析能力讓 AI 能夠更全面地理解文章的情感基調。
再來,是創意評估的新維度。
在創意評估方面,現代 AI 也展現出令人驚訝的能力。以文學創作比賽為例,研究人員發現 AI 能夠準確識別出具有創新性的寫作手法和獨特的表達方式。這種能力來自於 AI 對海量文本數據的分析,它能夠識別出什麼是常規的表達方式,什麼是突破性的創新。
一個具體的案例是:在一項針對高中生作文的研究中,AI 評分系統不僅能夠評估基本的寫作技巧,還能夠識別出創新的論證方式和獨特的思維角度。當一名學生用了創新的方式來論證環境保護的重要性時,AI 能夠認出這種創新,並給予相應的評價。
思維深度的評估能力
或許最令人意外的是 AI 在評估思維深度方面的進步。現代 AI 系統能夠:
- 追蹤論證的邏輯鏈條,評估推理的嚴密性
- 識別多層次的思維結構,了解作者如何層層深入地展開論述
- 評估觀點的原創性和論證的完整性
例如,在對哲學論文的分析中,AI 能夠識別出作者的核心論點,理解支持這些論點的證據鏈,並評估論證的有效性。這種能力來自於 AI 對大量學術文獻的學習,以及其強大的邏輯推理能力。
對未來的思考
這些發展表明,我們需要更新對 AI 能力的認知。現代 AI 已經不再是簡單的語法檢查工具,而是能夠深入理解文章內涵的智能系統。這不意味著 AI 將取代人類評分者,而是提供了一個更強大的輔助工具,能夠幫助評分者做出更準確、更全面的判斷。
在教育領域,這種進步意味著我們可以:
- 提供更即時、更細緻的寫作反饋
- 幫助教師更好地理解學生的寫作特點
- 發現和培養學生的創新思維能力
最終,認識到 AI 的這些能力,不是要否定人類評分者的價值,而是要思考如何更好地將 AI 的優勢與人類的專業判斷相結合,創造出更優質的教育評估體系。
實際應用的證明
在實際應用中,多個教育機構已經開始使用 AI 輔助評分系統,並取得了令人鼓舞的結果。例如,某大學的寫作中心使用 AI 系統評估學生的論文,發現 AI 的評分結果與資深教授的評分有超過 90% 的一致性。
更重要的是,AI 的評分不僅準確,還能提供詳細的分析報告,說明文章在各個層面的表現,包括:
- 論證的深度和原創性
- 情感表達的真實性和感染力
- 思維結構的完整性和邏輯性
- 創意表現的獨特性和效果
結語:開啟對話的重要性
這次的契機,除了有開拓我得知識邊界之外,也更讓我相信,跨領域的對話和思考是多麼重要。一場簡單的午餐聊天,可能激發出非常有趣的想法,而這些想法經過深入研究後,往往能帶來意想不到的發現。
在 AI 時代,感覺自己更需要保持開放和好奇的心態。技術的發展不應該只是單純不斷感到威脅,相反地,它可能為教育體系也可能帶來嶄新的可能性,過了幾十年,大學還會存在?這種本質上的體制改變,是否能在有生之年發生,我也很期待看到其改變。關鍵在於我們如何明智地運用這些工具,讓它們真正服務於教育的目標。
寫這篇文章的過程中,我也和 AI 進行了深入的對話,這更加深了我對這個話題的理解。科技與教育的結合,不是簡單的替代關係,而是一種互補與協作的關係。期待看到更多這樣的對話與探索,為教育帶來更多可能性。