Hi:歡迎來到中國論文網     

所有論文科目分類

中國論文網 > 免費論文 > 哲學論文 > 邏輯學 >

批判性思維測試研究

作者:2017-06-03 14:35文章來源:未知

  不斷提倡批判性思維應該是20世紀教育的首要目標(如約翰·杜威(John Dewey)1910年的著作《我們如何思考》、1961年教育政策委員會的《美國教育的核心目標》),但人們所做的實際工作并不多。好在自20世紀80年代初開始,批判性思維教學受到了廣泛重視相應地,曾經一度被忽視的批判性思維測試也得到些許關注。筆者認為,目前關于批判性思維測試的研究雖有亮點,但由于之前對這方面的忽視,其整體上仍不完善。更明確地說,從目前我們具備的知識來看,批判性思維測試盡管不易,但是可行。以下為筆者的兩個分論點:測試的難度和可行性因測試的目的和形式而異;②我們稍有不慎便會陷入誤區。

  為論證這些觀點,筆者將從分析測試目的入手,指明誤區,列舉并評價現有的測試(沒有哪個測試可以滿足所有目的),最后就如何設計測試提出建議,并針對幾個主要測試形式展開討論。首先,我們必須對批判性思維的定義加以重視,因為我們要測試批判性思維,就必須清楚了解它到底是什么。

  1 批判性思維的定義

  本杰明·布魯姆(Benjamin Bloom)所提出的教育目標的3個層次(分析、概括、評價)通常被視為批判性思維的一種定義,有時也會補充另外兩個層次(理解和應用)。這一定義不錯,但仍存在問題。

  正如布魯姆的理論所言,這些層次之間并非呈階梯性,而是相互依賴的。比如,概括和評價需要分析能力,分析也需要概括和評價能力(Ennis,1981)。

  更為重要的一點是這3(5)層次在概念上均過于模糊,因此無法為批判性思維測試的設計和評判提供指導作用。以分析能力為例,到底怎樣才能測試一個人的分析能力呢?如果我們考慮下列這些被分析的事物,困難就顯而易見了:分析中東的政治局勢,分析一種化學物質,分析一個字,分析一個論斷,分析籃球比賽中對手的弱點。這些事物從測試角度來看有何共同之處呢?恐怕唯一的共同之處就是模糊的分析原則。

  筆者曾將批判性思維定義為對某一觀點的正確評價(Ennis,1962)。如果不對這一定義加以闡述,那么它則與布魯姆的分類體系一樣含糊不清。然而,即便加以闡述,仍難免會漏掉批判性思維的創造性方面,如設想多種替代可能性,構建假說和定義,設計實驗方案。筆者現在認為,當代的批判性思維概念包含這些方面。所以說,正確評價這一定義較之標準用法更為狹窄,妨礙了批判性思維倡導者之間的順暢交流。

  以下定義在目前看來似乎更為適用,也能最大限度地減少交流中的困擾:批判性思維是理性的、反思性的思考,旨在幫助我們決定自己相信什么或者做什么。盡管如此,這一定義仍與布魯姆的分類體系一樣模糊,也需要進一步闡述。下文是對筆者之前提議并論證過的觀點的概述(Ennis,1987,1981)。

  在對自己應該信什么和做什么進行理性、反思性的思考時,我們大致需要實施以下行為(并將這些行為聯系起來)

  評判信息來源的可靠性;

  識別結論、理由和假設;

  評判論證的質量,包括推理、假設和證據的合理性;

  形成并捍衛對于某個議題的立場;

  提出合理的、明確的問題;

  制定實驗大綱,并對實驗細則進行評判;

  根據語境,用恰當的方法定義術語;

  思想開放;

  見多識廣;

  果斷而審慎地提出結論。

  以上所列的相互關聯的能力與習性為批判性思維測試提供了明確導向。與全面闡述相比,該列表只是一個縮略框架,簡潔實用。它既可作為批判性思維整體教程的一組目標,也可作為某一專業課程或其他教學項目的目標之一,并為批判性思維測試提供了參數表(參數表規劃試題范圍及每一題項所占的比重)。

  對批判性思維概念的具體闡述有助于人們評判現有測試的全面性,甚至判斷該測試能否考量一個人的批判性思維。筆者認為當前絕大多數批判性思維測試的主要問題在于缺乏全面性。例如,這些測試幾乎無法測量包括思想開放在內的批判性思維要素,有些試題甚至無法測試對信息來源可靠性的判斷能力。如果沒有合理的批判性思維的定義,就很難甚至無法對測試的質量做出準確評價。

  另外兩個人們熟知的批判性思維定義分別是約翰·麥克匹克(John McPeck)反思性懷疑”(1981)和理查德·保羅(Richard Paul)強意義上的批判性思維者的定義(1987)。保羅的定義與我們這里所提出的定義相似,只是更加強調對個人所持的假設的意識和換位思考的重要性。這兩種定義都無法為批判性思維測試的設計提供充分的理論支撐,而且,麥克匹克的定義是否定性的,但批判性思維必須超越懷疑論。

  2 批判性思維測試的目的和誤區

  2.1 目的

  選擇、批評或設計批判性思維測試時,不僅需要一個準確合理的定義,還需要明確的測試目的。測試的目的可能有多種,而沒有一種測試可以同時滿足所有目的。以下對測試的7個主要目的進行闡述和評論。

  (1)診斷學生的批判性思維水平。若要探尋批判性思維教育的重點,就必須從了解學生當前的批判性思維水平開始。從這一角度來看,批判性思維測試的意義在于其有助于發現學生的批判性思維能力具體強在哪里,弱在何處(例如,識別假設的能力)。

  (2)給予學生批判性思維能力方面的反饋。如果清楚自己的強項和弱項,學生就有更明確的努力方向。

  (3)激勵學生更好地進行批判性思考??荚嚱洺1挥米骷钍侄?,也的確能夠激勵學生學習測試所涉及的內容。如果不將批判性思維納入考試或評估范圍,就很可能被學生所忽視(Smith,1991;Shepard,1991)。

  (4)為教師提供關于批判性思維教學效果的參考。教師可通過測試來獲取學生對批判性思維教學方面的反饋信息。

  (5)針對批判性思維教育中出現的問題展開研究。如果不將各種方法進行仔細對比,則無法解決批判性思維教學及課程組織方面的難題。要加以對比,就需要進行測試。

  (6)為決定學生是否可以進入某一教學項目提供參考。批判性思維能力測試已經廣泛用于醫學、護理、法學等專業,以及研究生院的入學考試。這個辦法看似不錯,但是目前已有的測試能否有效選拔優秀的批判性思考者尚無定論,在這方面的研究工作也有待進行。

  (7)提供信息,使學校擔負起培養學生批判性思維能力的責任。與其他考試一樣,批判性思維測試的目的在于給學校和教師施壓,使他們重視批判性思維的培養并對學生的考試結果負責。第6個和第7個目的通常被認定為關系重大”(high-stakes)考試,意思是測試的結果會決定資格的獲得。美國大學入學考試中的科學推理部分,醫學院校新版入學考試的大部分試題,大學理事會高級分班考試,愛荷華教育發展考試,美國研究生入學考試的分析和邏輯推理試題,以及法學院水平考試,這些都是關系重大的批判性思維考試。

  2.2 誤區

  在追求上述目的時,教師需要警惕以下8個誤區。

  (1)將考試分數作為衡量標準,并將其視為課堂教學的結果。其實,影響批判性思維能力的因素有很多,包括周圍環境的影響。當下普遍存在的追責意識往往使我們陷入這一誤區。

  (2)在沒有對照組的情況下進行前測和后測。缺乏對照組會使得前測和后測的結果缺乏可靠性,這是因為除了學習,學生還會參與許多活動,而這些活動可能對測試結果產生影響。

  (3)在前測和后測中使用同一試題會將學生的注意力引向測試的題項。由于測試的是批判性思維,如果使用同一套試題,而僅對形式進行(所謂的)修改,在此前提下對前測、后測結果進行比較會更加糟糕。因為形式的更改就意味著試題的更改,如此一來,前測、后測之間不一定具備可比性。鑒于具體細節在很大程度上會影響測試結果,其可比性本身就值得懷疑。

  (4)大多數批判性思維測試并不全面,尤其是那些易于使用的測試和多項選擇試題。這些測試通常遺漏了批判性思維中的許多重要因素。

  (5)使用(尤其是)多項選擇試題的另一個問題在于,出題者與應試者之間存在背景、信仰和理念上的差異。因為批判性思考者往往會結合情境進行考慮,而對于情境的不同理解有時會導致對試題的不同但合理的解答(Norris & Ennis,1989)。

  (6)期望在短期內產生顯著效果。學會批判性的思考需要花費很長一段時間,并且需要許多不同情況下的反思性實踐及案例。

  (7)關系重大的測試目的往往會干擾測試的有效性。部分原因是這些目的會鼓勵速成班,這些速成班只教會學生如何在考試中表現出色,而并非幫助他們具備所測試的批判性思維能力。這樣一來,學生學到的只是應試技巧。

  由于關系重大,試題的設計者也會避開有風險的題項,這些題項很可能因答案的不確定性而被質疑,這在某種程度上也影響了試題的有效性。面對這種壓力,出題者便將試題設計為多項選擇的演繹邏輯問題。也就是說,所有題項都是由前提推導出結論(這樣就降低了測試的全面性及內容的有效性),因為演繹邏輯題的標準答案是最保險的。

  (8)資源短缺(表現為拮據的測試經費和重負荷的教師)往往導致各種妥協,從而影響了測試的有效性。由于測試所需的費用和/或教師所需的改卷時間,以及為測試批判性思維而舉行的考試,使許多批判性思維測試依賴于多項選擇試題,這種測試的有效性低于簡答題、小論文和效能測試。

  3 已公開發表的批判性思維試題

  雖然許多考試都包含了批判性思維(包括上述關系重大的測試),但是真正將批判性思維(或批判性思維的某一方面)作為首要內容的測試卻少之又少,更沒有適用于4年級以下學生的測試。題量的缺乏令人沮喪不已,我們需要更多適用于不同場合和目的的批判性思維試題。在表1和表2中,筆者試著列出所有公開發表的側重批判性思維的測試,并根據所測的是批判性思維的一個還是多個維度將它們分組??傮w來說,論文式測試比其他測試更為全面。

  還可以根據測試內容是否涉及專業學科知識來進行分組。專業性批判性思維測試考量在學科領域內的批判性思維能力,而一般性的批判性思維測試通常采用應試者所熟悉的各種不同領域的內容。美國國家教育研究院的一個委員會建議設計專業性的高階(higher order)思維測試(TheNation’s Report Card,1987,p.54)。一個人若要對某一學科領域有充分的理解,必須有能力就該學科內容進行全面深入的思考。

  遺憾的是,筆者并未發現專業的批判性思維測試(旨在測試某一學科領域內批判性思維能力的測試),盡管有些測試的某些題項(比如,美國大學入學考試的科學推理部分)符合這一標準。因此,在測試列表中沒有根據專業領域進行分組。表中所列全部屬于一般性測試。

  美國國家學術委員會也主張忽略一般性的高階思維測試。這是個錯誤決定。我們需要包括一般性測試來檢驗批判性思維教育能否應用到日常生活中,無論這種教育是融入專業教學,還是作為一門獨立課程或單元,或是以二者相結合的方式進行的。

  筆者也參與了列表中一些測試的設計,因此在介紹及討論這一列表時存在明顯的利益沖突。筆者盡量不讓這種沖突影響評價的客觀性,但仍然要推薦ArterSalmon設計的《高階思維技能測試:使用說明》(1987),該書覆蓋面很廣;另外《批判性思維評估》(Norris & Ennis,1989)一書對批判性思維測試的問題、前景及方法進行了廣泛探討。

  由于有關測試的統計信息可能有誤導性,人們一定要對試題內容的有效性做出自己的判斷。任何人如果要使用任何一種測試,都必須先親自做一下試題并評分。這是了解試題內容有效性的最佳方式。不應只關注設計者和出版社對測試的命名,也應考慮以下問題:

  該測試是否基于一個合理的批判性思維概念?

  基于這一概念,其測試范圍是否全面?

  該試題對學生是否適用?

  這些問題看似理所當然,卻常常被忽略。上述表1和表2兩表中所列測試均可在各種程度上滿足之前所詳述的前5個目的(關系重大的測試目的除外)。把它們用在關系重大的測試中會有兩大問題:第一,試題不保密,應試者可以提前復制;第二,大多數關系重大的測試都無法保證試題的全面性,因而無法保證測試結果的有效性。關于第二個問題,筆者將詳盡闡述。

  如前所述,現有的多項選擇試題無法直接有效地測試批判性思維的許多重要方面,如思想開放、重視理據、審慎決斷等。關于這一問題,許多人認為批判性思維各種元素之間是相互關聯的,即便某些元素無法直接進行測試也不要緊。例如,思想開放與判斷消息來源的可靠性以及識別假設的能力高度相關,而這些都能很好地反映出其他幾方面的能力。

  然而,當參加關系重大的考試時,應試者往往會根據可能涉及的內容進行提前準備。即使這些內容可能在關系不大的考試中與批判性思維的其他方面高度相關,但是刻意備考會降低這種相關性,從而導致考試結果的有效性大打折扣。其弊端在于,人們將在關系不大的測試中獲取的相關性數據視為在關系重大的測試中相關性的代表。

  批判性思維論文的測試范圍相對較廣,因此有可能彌補關系重大的測試的種種弊端,但它并非萬全之策。此外,這種測試在管理和評分上投入的時間和/或金錢高于多項選擇測試。這一問題在關系重大的測試中尤為突出。我們目前尚未開發出適用于低成本的關系重大測試,這方面有待于進一步研究和發展。

  列表中的多項選擇測試在不同程度上可滿足前5個關系不大的測試目標:診斷、反饋、激勵、影響教學及研究。不過,仍有必要區別對待。例如,出于診斷目的所進行的測試只能展現被試者在試題涉及的批判性思維方面的優缺點。測試內容越不全面,診斷結果也會越片面。

  為保證測試的全面性,除非多項選擇試題設計得非常合理,否則我們有必要采用開放式的評估技術。在開放式測試大量增加以前,如果不使用已公開發表的論文測試或使用部分開放式試題,如大學預修考試(Advanced Placement,AP),則需要我們自行設計試題。

  4 自行設計測試

  自行設計測試時,最好能保持一定程度的開放性,這是因為設計一個合理的多項選擇測試費時費力,而且需要進行一系列的修訂、試用和再修訂。NorrisEnnis(1989)就如何設計多項選擇的批判性思維題項提出了一系列建議,筆者在此暫不做介紹,原因是開放式測試最好由使用者自己設計,使其更加全面。NorrisEnnis也曾提出有關開放式測試的建議,它們也是本文中的討論基礎。

  多項選擇測試在設計及修訂過程中需要做大量的工作。而對開放式測試來說,問題設計完畢,隨即又面臨評分閱卷帶來的巨大工作量。比較有效的解決辦法是針對批判性思維的某一方面給出一個多選題項,并要求應試者對所選答案予以簡短的書面論證。

  如前例所示,開放式試題的結構性可強可弱,既可以設計成結構式的問題,也可以采取自然觀察的方式進行。試題的結構性越強,前期的準備工作量越大,就越能更好地保證試題的信效度。試題的結構性越弱,觀察期間以及觀察之后所需的投入越大??碱}和方式雖然更為貼近現實生活,但不能確保測試的全面性。以下部分將介紹教師可以自行設計的幾種開放性批判性思維測試。

  4.1 帶有書面論證的多項選擇測試

  目前,我們正通過伊利諾伊批判性思維項目與伊利諾伊重點學校聯盟合作探索帶有書面論證的多選式測試的使用情況。我們從《康奈爾批判性思維測試(第十級)》中篩選出20道題,要求學生在每道題的答案后都簡要寫出理由。以下例題考查學生判斷消息來源可靠性的能力,場景是探索一個新發現的星球:哪一個更可信?圈出一個。

  A.醫務人員在進一步調查后說:這個水可以安全飲用。

  B.其他幾人是軍人,其中一人說:這個水不安全。

  C.AB同樣可信。

  你的理由:

  這種考試方式的優點之一是,它能夠測試批判性思維的各個具體方面(包括現有的多選測試中無法有效測試的一個方面:審慎提出合理結論)。另一個優點是,如果學生的答案不同于標準答案,但論證充分合理,則可得滿分。如筆者在前面提到過的,有時候有些答案與標準答案不同,但也是有理有據的,畢竟應試者和出題者所持的世界觀不盡相同。我們發現,如果評分標準設計嚴密,并且評卷人對批判性思維的概念一致認可,則交叉改卷的結果會保持高度一致。筆者建議用這種方式來自行設計試題。它既快捷又全面,不僅包容設計欠嚴密的多選題項,而且允許學生在對背景及問題的理解上存在差異。

  4.2 批判性思維論文測試

  在自行設計批判性思維論文測試時,不同的方法適用于不同的目的。

  (1)結構性強。用于測試批判性思維的議論文可能在結構性程度上存在顯著差異。恩尼斯威爾批判性思維作文測試(Ennis-Weir Critical Thinking Essay Test)是結構性很高的論文測試。它提供了一篇議論性文章(給編輯的一封信),并將文中段落編號,幾乎每段都有錯誤。要求學生對每個段落及整篇文章進行評價,并陳述理由。

  評分標準會給出考生對段落和文章所做的每項評價的分值。評卷人必須擅長批判性思維,這樣才能準確處理那些與標準答案不同的答案。學生的答案若與標準答案截然不同,但是論證合理充分,亦可得滿分。熟練的評卷人評閱一篇文章大約需要6分鐘。

  (2)中等結構。給出一篇議論文,并要求針對文章的論點及論據展開論辯而不特別限定論文的組織框架。美國大學預修考試使用的就是這種方法。

  既可以整體打分(就整篇論文給出一個分數),也可以分項打分(根據每項標準分別給出分數)。整體打分速度快,成本低。一篇兩頁的文章,熟練的評卷人大概需要12分鐘。分項打分提供的信息更多,也更能滿足多個目的。一篇兩頁的文章,熟練的評卷人大概需要36分鐘,這取決于評分標準的詳略程度。

  (3)最簡結構。就一個問題進行回答或就一個議題進行陳述。伊利諾伊批判性思維作文競賽所使用的就是這種方法(Powers,1989)。在某一年的考試中,學生必須就音樂電視的規范化管理表明自己的立場并陳述理由,學生對這一話題非常感興趣。最簡結構使學生有更多的自由,但無法為教師提供準確的診斷信息,但這對于作文比賽并不成問題。同樣,整體打分或分項打分都可以。

  在伊利諾伊州我們也使用同樣的模式設計出伊利諾伊批判性思維論文試題,對伊利諾伊州教育委員會的評分標準進行改進,制定了6個維度的分析性評分體系,以確保交叉閱卷的高度一致性。這種方法也有很大優勢。評閱一篇40分鐘內當堂完成的論文一般需要5分鐘。

  4.3 效能(performance)測試

  效能測試在所有測試中成本最高,因為每位考生都會占用相當長的時間。由于此類考試通常涉及真實場景甚至生活實景,因此無論結果如何,表面上都具有很高的效度。然而,真實度越高,就越難保證測試的全面性。在現實生活場景中,人們通常只展示出該場景中所需要的能力,而在最易觀察的場景中并不需要使用批判性思維的各方面能力。因此,與多項選擇測試一樣,基于現實生活的效能測試也缺乏全面性。其另一缺點則是過于主觀。

  自然觀察是最簡結構的效能測試。比如,在案例研究中(Stake,1978),訓練有素的觀察者會詳細記錄和描述一系列事件,并關注個人或群體行為。其間難免會對事件和行為進行解讀,但最終目的是詳盡描述。

  一個結構性稍強的效能測試是通過作業檔案來決定一個高中生能否畢業(Size在《賀拉斯的妥協》(1986)中曾推薦)。這一測試的有效性尚待論證。這個理念很有吸引力,但仍存在許多問題,缺乏全面性便是其一。

  一個結構性更強的效能測試是由美國國家教育發展評估委員會設計的探索能力測試(Blumberg,Epstein,MacDonald & Mullis,1986)。在考試時,學生收到各種資料,探究放糖溶解速度的影響因素。觀察人員則在一旁提問,并觀察學生能否用科學方法完成任務。在這種效能測試中,所設試題取決于任務性質,而任務的設計則取決于要測試的特定能力。效能測試表面看起來效度很高,但它也存在成本高、不全面、過于主觀以及報告冗長等諸多弊端。

  5 結語

  批判性思維測試可用于多種目的。關系越重大,預算限制越多,其適用范圍就越小。關系重大的測試尤其缺乏全面性。

  許多公開發表的測試以批判性思維為核心目標,且大多數是多項選擇測試。優點是效率高,成本低。缺點是缺乏全面性,仍有待于進一步研究和完善。

  其他測試包括帶有論證要求的多選題、不同結構程度的作文題及效能測試。與多項選擇測試相比,大規模使用這些測試的成本很高,若小規模使用,則效度高成本低,但閱卷時間很長。

最近相關

中國論文網

最新更新

熱門推薦

[人文社科]英語廣告語的特點與翻譯原則
這是一篇關于英語廣告語的特點與翻譯原則的文章,掌握廣告語的語言特點和翻譯原則將有助于目標語讀者了解產品功能,詮釋...[全文]
[人文社科]基于跨文化的旅游英語翻譯原則
這是一篇關于基于跨文化的旅游英語翻譯原則的文章,跨文化視角下的旅游英語翻譯,我們應嘗試從讀者的主觀性理解以及本地...[全文]
[人文社科]中國傳統節日中秋節的英譯
這是一篇關于中國傳統節日中秋節的英譯的文章,中國傳統文化的翻譯,是隨著時代變化而隨之變化的。傳統節日的中英翻譯...[全文]
[人文社科]高職英語翻譯教學中的問題與提升措施
這是一篇關于高職英語翻譯教學中的問題與提升措施的文章,為了提升英語翻譯教學的有效性,教師要不斷地提升自身的綜合素...[全文]
[理工論文]在現代城市建設中測繪工程中的作用
這是一篇關于在現代城市建設中測繪工程中的作用的文章,要需不斷對測繪技術、測繪設備進行研究開發,不斷革新,只有這樣...[全文]
[理工論文]農業綜合水利項目建設管理問題與解決措施
這是一篇關于農業綜合水利項目建設管理問題與解決措施的文章,一定要提高設計人員對水利工程項目建設規劃設計的重視度...[全文]

熱門標簽

成上人色爱