臺灣社會學會年會
11/18(六)上午場次
首頁 > 11/18(六)上午場次
1-2-104 自然語言文本分析於社會科學和科學教育研究上的應用
2023-10-31
請點選簡介/題目即可看到詳細內容/摘要
場次簡介/ Description: 

  傳統社會學家是從理論架構來建立概念化的操作定義,再訓練過錄文本來發展出一套語言及語意的分類方式來歸納質性資料。然而自然語言文本分析則透過機器學習系統,將大量的文本,透過監督式或非監督式的機器學習模型,產生適配的關鍵字詞 (n-gram)和主題概念(Topic) 類屬,以進一步觀察其隨時間變遷的現象。本場次企圖從期刊文獻、田野調查論述和台灣科學教育課綱改革等三個面向,來理解文本如何報導和論述社會期望反應(文章一)、教師教學行為模式和學生成就差距(文章二)、以及科學教育概念於課綱改革前後的變化(文章三)。研究問題包含為何社會期望反應隨國家文化而不同、田野調查觀察者如何報導和論述教師教學行為和學生學習活動,以及新課綱如何改革科學教育內容以及科學教育應用AI的現況。本場次集結了三篇運用自然語言模型進行的文本分析和應用之相關實證研究,每一篇文章均結合文本資料及主題分析來處理資料,並建立態度或概念變化的模型,同時也應用社會網絡分析來觀察文本主題的變遷和關聯性。運用文本分析,本場次以實際的文本例子介紹此類分析方法,並回應今年年會的大會主題。

主持人/ Chair:黃瀚萱

發表人/ Presenter
廖培珊(中央研究院人文社會科學研究中心)
陳怡蒨  (Michigan State University/ Create in STEM Institute)
題目/ Title:探索社會期望偏誤在主題分析和國家文化之差異:以1967到2022 的期刊文本作為資料的分析方法

摘要/ Abstract:
  本研究結合大數據與調查研究方法的理論觀點,來分析調查資料中社會期望(social desirability)之回答偏誤在不同國家文化間的共通性與獨特性。社會期望偏誤包含了自我欺瞞與形象整飾兩種組成因素,在調查訪問的過程中,受訪者常可能考慮自身的形象整飾,因而提供非真實的回答。過去文獻檢視社會期望偏誤時,會發現此一回答偏誤呈現跨文化和跨國家的差異。然而其如何隨時間、地點、文化而改變或持續,仍有待研究。本研究採用自然語言文本探勘技術(Natural Language Processing,NLP)來對期刊文本和問卷內容進行分析。資料來源為刊載於Web of Science 和社會學全文資料庫(SocINDEX with Full Text)兩大資料庫的期刊論文全文,出版時間為1967 年到2022年。透過檢索「社會調查」與「社會期望」之關鍵詞,獲得相關研究和調查的文獻資料,並藉此呈現和分析社會期望偏誤在調查研究上的應用和各國文化上的差異,分析樣本為739 筆期刊全文。NLP技術可以透過機器學習的方式,將大量文本產生配適文本的關鍵字詞、字詞類屬和詞意關聯性,也能自動地處理和分析未結構化的文本訊息,並以非監督式學習(unsupervised)的方法找出群聚分布的現象。此種資料探索的過程均需應用統計分析的技巧,並進一步對文本中關鍵字分布次數和關鍵字關連聚集(n-gram)的可能性作深入的分析和檢視。所有文本分析和後期的統計分析均使用 R 語言撰寫。

 


發表人/ Presenter:陳怡蒨 (Michigan State University/ Create in STEM Institute)
題目/Title:差距來自何處?從課室田野觀察之自然語言和社會網絡分析再探學生學業成就的差距

摘要/Abstract:
  學生學業成就差距的形成來自許多因素,例如學生基礎能力、家庭環境、教師品質、學生組成、以及學校的學習風氣等等。課室觀察的田野調查也是社會科學家經常使用的研究方法,能有效分析課室內老師的教學策略、師生權力結構和互動關係,也能進一步分析老師學生使用的語言,以及語意關聯和不同家庭/族群文化的語意和行為結構。本研究結合社會互動和社會建構理論,以自然語言和文本作為資料(text-as-data approach)的分析取徑,重新探究田野調查者客觀視角如何論述課室內教與學的互動過程,教師的教學實踐如何影響不同族群和語言背景的學生在其學習成就的差異。本研究使用多種來源的文本內容(包含課室觀察田野調查筆記、教師訪談以及學生學業成就紀錄等)進行文本分析、分類和關係圖,來分析課室內的互動學習歷程,以及教師的教學實踐對學生學業成就的影響。本文分析樣本使用36個老師的問卷調查、165堂課的課室觀察記錄以及728位三年級小學生的語文、數學、科學學習成就紀錄。本研究結合文本分析、關鍵字聚集和主題動詞的分類方法與量化統計分析,來檢視課室內教學實踐、師生互動以及學習成就差距現象的關聯性。

 


發表人/ Presenter
曾茂仁(國立臺灣師範大學科學教育研究所)
邱美虹(國立臺灣師範大學科學教育研究所)
題目/Title:Latent Dirichlet Allocation (LDA) 探討臺灣高中化學教科書的主題分析

摘要/Abstract:
  面對全球環境變遷與科技快速發展,為了符應社會大眾的需求,教育改革的步調也逐漸加快。臺灣十二年國民基本教育於108學年度逐年實施,自然科學領域綱要以培養國民科學素養為核心,從過去理解科學知識與科學方法的觀點轉而為以善用科學知識並在各學習階段融入探究與實作的精神作為科學學習的目標。由於科學學習目標的改變,引導教師教學與提供學生學習資源的教科書內容也需要對應當代的學習目標而有所調整。因此,本研究旨於利用自然語言處理(Natural Language Processing, NLP)技術探討臺灣高級中學化學學科教科書於108課程改革前後科學概念分布的差異。為了呈現科學教科書中科學概念的分布情形與自然科學領域綱要對於科學教科書的影響,本研究分別使用共現分析(co-occurrence analysis)與隱含狄利克雷配置模型(Latent Dirichlet Allocation, LDA)分析科學教科書。首先,共現分析呈現不同版本高中化學教科書的科學概念之共現網路圖(co-occurrence networks),以理解科學概念的分布情形。此外,LDA則是以非監督式學習的方式呈現課程改革前後高中化學教科書的主題類型,並以自然科學領域綱要為指標,討論高中化學教科書是否能夠呈現自然科學領域綱要訂定的主題。本研究以自然語言處理分析臺灣高中化學教科書,用以檢視教科書內容與自然科學領域綱要的一致性。除了提供教科書編輯者建議之外,尚能作為未來臺灣自然科學領域綱要調整的依據。