16

系統工程的學術圖表製作詳談

學術圖表是指論文或著作中的插圖和表格。插圖和表格之間的主要區別在於表格可以展示具體數值,而插圖利於展示資料趨勢。引用自己過去發表過的或別人已經發表的圖表,不僅需要獲得出版社的版權許可,而且必須注明出處。插圖分為數據圖和示意圖,各有其目的。資料圖則是理工科論文結果部分的主要展示手段,無論對於揭示新的科學發現還是展示新的科研方法,都具有關鍵性作用。因此,策劃資料圖在本質上就是規劃科研成果的在完整性(深廣性)方面的具體內容。本文論述科研成果的核心內容——資料圖的製作方法。

能夠從資料圖上有效準確讀取資料的最大維度是二維,即一個由橫軸(x)和縱軸(y)圍成的平面。如果維度再多,就讀不准了。如果維度再少,則沒有充分利用人眼能夠準確讀取資料的全部空間潛力,即沒有將資料擺放到極致數量。零維是一個點。一維是一條線。二維是一個平面。三維圖(或稱立體圖)由於具有傾斜的透視效果,並不利於準確讀取資料。因此,人們通常將三維圖壓扁轉化為二維等值線圖,將原本屬於在立起來的第3根軸(z)上的數據投射到x-y二維平面上,用一圈圈的曲線表示z方向的等值資料。因此,資料圖的策劃目的就是如何使用x-y曲線圖和x-y-z等值線圖用滿二維平面所能發揮的表達潛力。

任何一個系統,都可以用“輸入-關聯-輸出”來表徵其科學內涵關係。學術論文的目的通常就是揭示輸入如何影響輸出,以及如何描述關聯。例如,對於發動機系統,輸入是燃料流量和環境溫度。輸出是功率和尾氣排放。關聯是發動機硬體或代表發動機硬體的性能計算模型。輸入參數稱為因子(factor)。輸出參數稱為回應(response)。因子通常用x1、x2、x3、…、xk表示,稱為k維因子,構成k維空間。因子中包括可控因子和雜訊因子(noise factor,即不可控因子)。回應通常用y1、y2、y3、…、ym表示,稱為m個回應。回應參數中包括優化目標和約束條件。

如果一個系統是穩態的,不隨時間變化,那麼這個系統的因子和回應就都是與時間無關的狀態參數。但是,很多系統都是具有動態變化的瞬態系統,即與時間有關的動力學系統。這時,時間(t)便成為一個獨特的因子,經常佔據資料圖的橫軸。這就導致在二維平面只能再放另外一個因子。這就是為什麼瞬態系統在資料表達方面非常困難的原因。

如果一個系統可以用確定性假設來描述,那麼它的因子就可以具有幾個離散的水準值。例如,發動機的燃料流量可以是10、20、30等。但是,如果一個系統必須用非確定性即概率性來描述,那麼它的因子就必須使用諸如正態分佈等概率分佈函數來表徵,例如某個參數的製造誤差或發動機的環境溫度變化規律。概率分佈用概率密度函數(probability density function,簡稱pdf)表徵,橫軸是參數取值,縱軸是pdf值,概率分佈曲線上的每一個點表徵該取值出現的機會大小。對於概率性資料,由於pdf值需要佔據一根坐標軸,這也導致在二維平面只能再放另外一個因子。這就是為什麼概率性系統在資料表達方面也非常困難的原因。

大多數的科研工作是穩態和確定性的,這意味著這些工作可以策劃將兩個因子放在二維平面。這時,有兩種作圖方式。第一種方式可以用Microsoft Excel作圖,將x1放在橫軸,將回應放在縱軸,做出一條曲線,此時x2必須固定某個取值。然後,將x2取3~5個水準值,分別做出3~5條曲線。這就是著名的“五線圖”。第二種方式需要用MATLAB作圖,將x1放在橫軸,將x2放在縱軸,將回應值標記在等值線上。這兩種作圖方式都稱為參變數掃值法(parametric sweeping)。它們的特點是將兩個變數像席捲掃描一樣囊括所有因子水準值的組合,這稱為全析因設計(full factorial design)。參變數掃值法對於應付一個或兩個因子是非常簡單、有效和準確的,而且可以從做出的資料圖中直接觀察和讀取最優值,即某個響應作為優化目標時的最大值或最小值,以及對應的一個或兩個因子的取值。

當因子數量超過兩個時,如果仍然使用參變數掃值法做全析因設計,不僅作圖表達會變得非常繁瑣,而且回應參數的計算量也隨著因子數量和因子水準值數量的增加而快速急劇增加,導致實際上無法執行全析因設計。這時,就需要使用部分析因設計(partial factorial design),捨棄大量因子水準值的組合點,依靠統計學理論,構造少量具有代表性的組合點,獲得盡可能多的因子-回應之間的依變資訊。這種方法稱為試驗設計(Design of Experiments,簡稱DoE)。如果比較試驗設計的任意兩個組合點,會發現它們的各因子的水準值都是同時變化的,而不再是像參變數掃值法的“一次變化一因子”那樣固定所有其他因子的取值而只改變一個因子的水準值。因此,這種試驗設計的資料就無法使用參變數掃值法來繪製,而必須先使用諸如二次或三次多項式等擬合器(emulator)來擬合構造各因子與每個回應之間的數學關係。然後,再使用MATLAB或Excel中的尋優工具求解優化值。這時,求出的優化解是一個設計點,它是零維的,代表所有因子的某種水準值的組合,給出某個目標響應的最大值或最小值。將兩個因子放在橫軸和縱軸上用試驗設計的資料做回應圖,是沒有任何意義的,因為這個平面上的每一個點都具有其他因子的不同取值,因此不可比。對於試驗設計資料來講,有意義的作圖方式是將兩個回應分別放在橫軸和縱軸,進行多目標優化,求取帕雷托前鋒曲線(Pareto frontier)。

綜上所述,資料圖的策劃是科研成果的核心內容規劃,需要明確問題的類型、因子和回應的數量、水準值的選取、作圖的類型(參變數掃值或試驗設計優化)等因素。這樣,才能有效地將科學發現用視覺化手段充分表達出來。

 

X

請訂閱以繼續閱讀

關於科研寫作和學術出版的文章與學術資源,包括:

  • 820 +文章
  • 50+ 免費線上講座
  • 10+ 專家Podcast
  • 10+ 電子書
  • 10+ 檢查清單
  • 50+ 資訊圖
全球科研人調查

大學在研究和學術寫作中應該採取什麼立場?