Home > TaiBIF > 生物多樣性資料 Metadata 在不同尺度的意義

生物多樣性資料 Metadata 在不同尺度的意義

April 24th, 2009

Metadata 中文的譯法應該還會分歧一段時日,不管是「後設資料」、「詮釋資料」都包含到原文的意思了,而對岸普遍使用的「元資料」筆者認為其實比較適合拿來當作 atomized data 的譯詞。再提 metadata 的原因是,在目前生物多樣性資料的整合工作上,metadata 上已經開始指涉兩種不同類型的資料內容,為免將來的溝通過程因為聽眾有意無意地把 metadata 所指的資料限縮在其中一種,特此為文釐清。

數位典藏計畫啟動時,博物館及標本館的實體標本是數位化的主要對象,通常其成果是影像檔案,同時,計畫執行單位會將該標本的標籤資訊、館藏管理資訊與相關的採集、地理資訊一併著錄,此著錄的資訊即為數位化物件的 metadata。一般當我們要求計畫在結案時要將 metadata 上傳到數位典藏的聯合目錄,指的就是這些著錄資料。各資料生產者必須使用相同的資料規格(或標準)才能達到資料共享、流通的目的,以生物多樣性的標本資料而言,在國內我們建議使用 Darwin Core 紀載之。這些標本資料,影像的部分提供形態鑑定的參考依據,著錄的 metadata 則描述此標本,可視為一個歷史上的觀測資訊。換句話說,標本實體是此物種在過去的某個時空曾經出現的證據,此證據的相關資訊,在數位化的過程中著錄下來。標本資料整合的過程中,每個標本的 metadata 各自代表所描述的「物種出現資訊」,透過 TaiBIF,這些資訊被視為「點」和全世界所有標本館的「點」資料在 GBIF 平台上一齊呈現。

對於資料品質有點概念的人,可能會想問:「這些點資料真的可以這樣全部放在一起看而不會有任何問題嗎?」可以,也不可以,這要看使用者的需求及資料是否提供用來判別是否適用的額外資訊。

就地理資訊而言,稍微瞭解 GPS 定位原理就會知道,衛星在天空中的位置、天氣晴朗與否、建築物遮蔽都會影響到定位座標的誤差值,甚至有時使用者根本不曉得自己錯用了不同的大地基準;或者,有些單位針對敏感的物種分布資訊做了模糊處理,有些沒有,此時,當這次資料被一視同仁地呈現在地圖上時,使用者實際上無從判定這些資料是否適合取用。另外,對於物種鑑定的結果,吾人是否能知道鑑定者對於該分類群的瞭解程度以決定該物種學名是否正確給定?以上種種考量,有些需要更詳盡地著錄原始資料的欄位,有些則需要在原始資料之外,提供額外的描述資訊,像是取得資料的方法,資料是在何種研究背景取得,或是對於資料有進一步問題能聯絡、請教的對象等等,如此才能讓使用資料的人決定以什麼方法處理資料,或只使用滿足特定條件的子集合。

當這些自然史藏品的點資料(數位化物件的 metadata)需要其它資訊加以描述時,這些標本著錄的資料集也就有了自己的 metadata,這樣一來,我們在自然史典藏就會面對「metadata 的 metadata」這樣的語言。此時,metadata 的意義仍然一樣,只是我們的議題已經從標本數位化的尺度抽象提升到物種資訊整合的尺度,只要注意討論時的尺度,這其實不會造成困擾(請見附圖及圖說)。在生態資訊領域通行的 Ecological Metadata Language(EML) ,就把物種出現的點資料、或是儀器取得的環境因子資料視為 source data(或 raw data),而計畫執行的目的、方法、時空範圍等等描述整體資料集的資訊則視為 metadata。事實上,在生物多樣性資訊跨館、跨國討論資料交換的場合,通常 metadata 指的較常是資料集的描述資訊,而較少指涉數位物件的著錄資料。而未來這類基於資料集的描述資料集中起來,將能建構起自然史典藏的索引(請見 Biodiversity Collection Index Project),進而滿足使用者尋找適用資料集的需求(請見 GBIF Biodiversity Resources Discovery System, GBRDS)。

因為 metadata 的意涵較有彈性,故吾人在溝通的過程中,應該注意討論指涉的對象及尺度,特別是大家在數典的氛圍中已經習慣將 metadata 等同於標本數位化物件的著錄資料時。

資料來源:數位典藏觀察室  >> Blog Archive   >>  生物多樣性資料 Metadata 在不同尺度的意義

Categories: TaiBIF Tags: , ,
Comments are closed.