我國已先后建成一批國家級計算機信息化網(wǎng)絡科學數(shù)據(jù)中心和規(guī)模不等的數(shù)據(jù)庫,其內容基本覆蓋了科學技術的各個領域。同時,積極采用計算機信息網(wǎng)絡化手段,進行科學數(shù)據(jù)的采集、積累及數(shù)字化加工工作,實現(xiàn)了范圍和程度不等的數(shù)據(jù)共享。
為推動我國科學數(shù)據(jù)信息共享的全面發(fā)展,促進預防醫(yī)學科學研究的進步、我們對國家職業(yè)衛(wèi)生管理規(guī)范及標準體系實施了計算機化與信息網(wǎng)絡研究,建立了科學數(shù)據(jù)信息共享機制,研究了科學數(shù)據(jù)信息共享標準(電子版數(shù)據(jù)提交標準、元數(shù)據(jù)定義、數(shù)據(jù)集命名標準、變量名命名標準等),開發(fā)了國家職業(yè)衛(wèi)生管理規(guī)范及標準體系科學數(shù)據(jù)信息共享平臺(國家職業(yè)衛(wèi)生管理規(guī)范及標準體系檢索光盤、國家職業(yè)衛(wèi)生管理規(guī)范及標準體系共享服務網(wǎng)站),以向社會提供國家職業(yè)衛(wèi)生管理規(guī)范及標準體系數(shù)據(jù)信息的共享服務。
一、技術路線
以Web技術為基礎,采用成熟和先進的計算機網(wǎng)絡技術、衛(wèi)星通信技術、多媒體技術和協(xié)同計算技術,系統(tǒng)建設成可擴展、安全可靠、按需服務的國家職業(yè)衛(wèi)生管理規(guī)范及標準體系——計算機化與信息網(wǎng)絡(數(shù)據(jù)網(wǎng)絡、信息網(wǎng)絡和知識網(wǎng)絡),該數(shù)據(jù)共享技術平臺能夠對職業(yè)衛(wèi)生管理規(guī)范及標準體系數(shù)據(jù)進行管理、檢索,實現(xiàn)異地數(shù)據(jù)訪問、遠程服務,并根據(jù)數(shù)據(jù)的密級采用不同的技術以保證數(shù)據(jù)安全。
二、數(shù)據(jù)集內容
國家職業(yè)衛(wèi)生管理規(guī)范及標準體系數(shù)據(jù)集包含了我國加入WTO以后,開展的WTO與我國職業(yè)衛(wèi)生工作對策的研究內容、職業(yè)衛(wèi)生標準體系和其他國家相關標準體系的異同與融合、工作場所職業(yè)危害管理、建設項目職業(yè)衛(wèi)生管理、職業(yè)衛(wèi)生技術服務機構管理等研究成果,還包含了我國針對職業(yè)衛(wèi)生管理頒布的各類法規(guī)與標準。數(shù)據(jù)類型則包括文本、數(shù)表、圖片、視頻等。
三、數(shù)據(jù)整合方法
1.數(shù)據(jù)顆粒度:數(shù)據(jù)顆粒度是數(shù)據(jù)庫中極其重要的概念。數(shù)據(jù)的綜合程度不同,數(shù)據(jù)量將相差很大。數(shù)據(jù)顆粒度越小,信息細節(jié)越多,數(shù)據(jù)量越大;而數(shù)據(jù)顆粒度越大,則忽略了越多的細節(jié),數(shù)據(jù)量越小。數(shù)據(jù)的綜合程度還會影響數(shù)據(jù)的用途。對于多維查詢來說,可能使用的是細節(jié)數(shù)據(jù),例如果回答“1978/3/21號國家頒布的職業(yè)衛(wèi)生標準”這樣的問題,細節(jié)數(shù)據(jù)非常合適,而綜合數(shù)據(jù)則因使細節(jié)信息丟失不可能回答。但如果要回答“1978-2002年間的職業(yè)衛(wèi)生標準”這樣綜合程度較高的問題,用細節(jié)數(shù)據(jù)將需進行統(tǒng)計運算后才能回答,這將增加用戶的等待時間,而使用綜合數(shù)據(jù)則可以迅速地回答這個問題。細節(jié)數(shù)據(jù)和綜合數(shù)據(jù)用途上和代價上的差異,應為數(shù)據(jù)系統(tǒng)建設考慮的要點。
綜合程度不同的數(shù)據(jù)其用途不同,數(shù)據(jù)庫中多重的數(shù)據(jù)顆粒度都是必不可少的。但由于數(shù)據(jù)庫的主要目的是反映整體信息和決策支持系統(tǒng)(DSS)分析并回答綜合程度較高的問題,于是對細節(jié)數(shù)據(jù)和綜合數(shù)據(jù)采用了不同的策略。粒度的再一種形式是針對數(shù)據(jù)挖掘。數(shù)據(jù)挖掘使用復雜算法(如神經(jīng)元網(wǎng)絡),計算復雜度較高,若對巨量數(shù)據(jù)直接運算,則計算時間和空間過高,系統(tǒng)難以承受。因此,要進行數(shù)據(jù)挖掘,對數(shù)據(jù)進行抽樣。粒度的此種形式系指抽樣蓋率,即對數(shù)據(jù)庫中的數(shù)據(jù)以一定的抽樣率進行抽樣后得到一個樣本數(shù)據(jù)庫,數(shù)據(jù)挖掘將在樣本數(shù)據(jù)庫上進行。挖掘過程:細節(jié)數(shù)據(jù)→樣本數(shù)據(jù)庫→數(shù)據(jù)挖掘算法等進行數(shù)據(jù)挖掘。
2.數(shù)據(jù)的分割:數(shù)據(jù)的分割是數(shù)據(jù)庫中的又一重要概念。由于數(shù)據(jù)庫中的數(shù)據(jù)量極大,使用起來會遇到很多問題,例如歷年頒布的標準放在一張表中,一次查詢則需要檢索整張表,而如果范圍只在2001年內,則僅需檢索2001年的信息即可。對于一個數(shù)據(jù)量很大的系統(tǒng),上述兩種策略的效率相差很多。所謂數(shù)據(jù)分割是指將數(shù)據(jù)分割到各自的物理單元中,以便能夠獨立處理,提高數(shù)據(jù)處理的效率。數(shù)據(jù)分割標準尚待研究,分割方法可以按時間、地點、業(yè)務領域劃分。國家職業(yè)衛(wèi)生管理規(guī)范及標準體系研究項目的數(shù)據(jù)庫系按照時間進行了分割,符合數(shù)據(jù)庫隨時間變化的特點,分割后的數(shù)據(jù)分布比較均勻,更容易索引、監(jiān)控和掃描且重組簡單。
3.聯(lián)機分析處理(on-line analytical processing,OLAP)展現(xiàn)方式:OLAP針對特定的主題進行聯(lián)機數(shù)據(jù)訪問、處理和分析,通過直觀的方式從多個維度、多種數(shù)據(jù)綜合程度將應用系統(tǒng)展現(xiàn)給用戶。我們在開發(fā)中引入“維”概念,維量與某一事件相關的因素在關系模型的抽象,如時間、地理、類型等。維的層次性對應于數(shù)據(jù)的粒度,維存在著層次問題。比如時間用“日”作單位刻度,地理用縣、市、省作單位刻度等。維度的層次描述了人們觀察數(shù)據(jù)的細致程度。
4.地理維層次:OLAP的展現(xiàn)方式有C/Sweb、瘦客戶機方式,“國家職業(yè)衛(wèi)生管理規(guī)范及標準體系”研究項目選用了OLAP的Web方式,隨著Web應用的發(fā)展,OLAP的前端展現(xiàn)方式也向著Web方式發(fā)展,由于Web有著極佳的跨平臺性,故可以展現(xiàn)豐富多彩的信息。
5.體系數(shù)據(jù)共享協(xié)議、標準:國家職業(yè)衛(wèi)生管理規(guī)范及標準體系是由一系列職業(yè)衛(wèi)生管理規(guī)范和標準組成。依照標準化原理,將該體系分為基礎通用標準、信息共享技術標準和信息管理與服務標準,其中基礎通用標準主要包括術語標準、元數(shù)據(jù)標準、信息分類與代碼標準、產(chǎn)品標準以及相關標準,技術標準主要包括信息交換標準、質量控制和質量評價標準 、互操作協(xié)議標準等,管理與服務標準主要包括用戶分類分級標準、管理標準以及數(shù)據(jù)安全、保密分級標準等。
?。?)體系數(shù)據(jù)集(DBZ00)及命名規(guī)則:根據(jù)體系中的規(guī)則和國家相關標準,對體系數(shù)據(jù)集中數(shù)據(jù)的各種屬性及命名規(guī)則進行了約定。
?。?)體系數(shù)據(jù)集(DBZ00)中分類號命名規(guī)則:編碼方法:層次編碼法;編碼構成;共分4層。第1層;屬性,一位字母。L(Law)——法規(guī),GBZ、GBZ/T——標準,O(Ordinance)——條例,H(Harvest)——成果。第2層:級別,兩位字母。GB——國家級,WS——行業(yè),DF——地方。第3層:地域,兩位數(shù)字。11——北京,22——吉林。第4層:年份,四位數(shù)字——YYYY。
?。?)體系數(shù)據(jù)集(DBZ00)的代碼庫(DBCode)。
根據(jù)上述思想,我們制作了國家職業(yè)衛(wèi)生管理規(guī)范及標準體系檢索光盤,建立了國家職業(yè)衛(wèi)生管理規(guī)范及標準體系網(wǎng)站、國家職業(yè)衛(wèi)生管理規(guī)范及標準體系數(shù)據(jù)共享服務軟件平臺、國家職業(yè)衛(wèi)生管理規(guī)范及標準體系數(shù)據(jù)共享硬件平臺,為國家職業(yè)衛(wèi)生管理規(guī)范及標準體系數(shù)據(jù)共享安全的保障和可持續(xù)發(fā)展機制奠定了基礎。