基于粒子群算法的近紅外光譜波長選擇方法
【專利摘要】一種基于粒子群算法的近紅外光譜波長選擇方法,采集樣本的近紅外光譜信號,構(gòu)成現(xiàn)場歷史數(shù)據(jù)庫,數(shù)據(jù)庫包含有多個波長變量,將粒子群算法與偏最小二乘法(partial?linear?squares,PIS)相結(jié)合,對近紅外光譜的各個波長進行選擇,從而使得所建立的校正模型具有更強的預(yù)測能力,實現(xiàn)對物質(zhì)成分濃度的精確檢測與分析,為近紅外光譜分析技術(shù)在各工業(yè)領(lǐng)域的應(yīng)用提供更好的理論基礎(chǔ),具有重要的現(xiàn)實意義。
【專利說明】基于粒子群算法的近紅外光譜波長選擇方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及近紅外光譜在物質(zhì)成分定量分析中的應(yīng)用,具體涉及一種基于粒子群算法的近紅外光譜波長選擇方法。
【背景技術(shù)】
[0002]近紅外光譜(near infrared spectroscopy, NIR)來源于分子振動對光的吸收,可用于物質(zhì)的主要成分分析。紅外光照射在物質(zhì)上時,伴隨著物質(zhì)組成的不同,不同波長的光線吸收度也不同,即紅外光譜圖中吸收峰的位置隨物質(zhì)的組成而發(fā)生變化,吸收峰高度隨物質(zhì)含量的多少而變化。
[0003]近紅外光譜分析技術(shù)利用精密的光譜儀器及化學計量學軟件獲取物質(zhì)在近紅外光譜區(qū)的吸收光譜,然后對所獲取的近紅外光譜數(shù)據(jù)進行分析處理,最終獲得該物質(zhì)成分的定性或定量分析結(jié)果,其性能準確、清潔,有著傳統(tǒng)方法不可匹敵的高效性和穩(wěn)定性,目前已在食品、制藥、重工業(yè)、石油化工等行業(yè)得到廣泛應(yīng)用,現(xiàn)場實時在線分析,帶來了可觀的經(jīng)濟效益。
[0004]近紅外光譜分析技術(shù)主要依賴于校正模型,根據(jù)所測物質(zhì)的成分和性質(zhì)的不同,采用不同的建模方法,并不斷對校正模型進行擴充和維護。偏最小二乘法(partial linearsquares, PIS)是近紅外光譜數(shù)據(jù)建模的主要方法之一,它是采用全波段的光譜數(shù)據(jù)進行建模,這樣不僅使得運算速度變慢,而且會降低模型的預(yù)測精度。通過特定的方法篩選特征波長或者波長區(qū)域可以使得所建立的模型具有更強的預(yù)測能力和更好的穩(wěn)健性。
[0005]目前,波長選擇的方法主要有相關(guān)系數(shù)法、無信息變量消除法、遺傳算法等。相關(guān)系數(shù)法是將校正集光譜矩陣中的每個波長對應(yīng)的吸光度向量與濃度矩陣中的待測組分濃度向量進行相關(guān)性計算,得到波長的相關(guān)系數(shù)或決定系數(shù),對應(yīng)相關(guān)系數(shù)絕對值(或決定系數(shù))越大的其波長信息應(yīng)越多。結(jié)合化學知識給定閾值,選擇相關(guān)系數(shù)大于該閾值的波長建立模型。相關(guān)系數(shù)法是利用線性統(tǒng)計方法建立起來的,當用于非線性相關(guān)系統(tǒng)或校正樣本集分布不均勻時,利用該方法進行波長選擇所建立的模型預(yù)測能力較差。無信息變量消除方法(elimination of uninformative variable, UVE)是基于 PLS 回歸系數(shù)建立的一種波長選擇方法,該方法的基本思想是將回歸系數(shù)作為波長重要性的衡量指標。雖然該方法在選取波長變量時,同時考慮了噪聲和濃度信息的影響,比較直觀實用,但其效果在很大程度上依賴隨機初始矩陣的生成。遺傳算法(genetic algorithm, GA)是利用生物界自然選擇和遺傳機制,通過選擇、交換、變異和突變等算子的操作,隨著不斷的遺傳迭代,使目標函數(shù)值較優(yōu)的波長變量被保留,較差的則淘汰,最終實現(xiàn)波長選擇的結(jié)果。但遺傳算法的局部搜索能力較差,容易產(chǎn)生“早熟”現(xiàn)象,而且在建模過程中,初始校正集樣本的選取以及整個算法的計算過程都是具有很強的隨機性。
【發(fā)明內(nèi)容】
[0006]為了克服上述波長選擇方法存在的不足,本發(fā)明的目的在于提供一種基于粒子群算法的近紅外光譜波長選擇方法,從而使得所建立的校正模型具有更強的預(yù)測能力,實現(xiàn)對物質(zhì)成分濃度的精確檢測與分析,為近紅外光譜分析技術(shù)在各工業(yè)領(lǐng)域的應(yīng)用提供更好的理論基礎(chǔ),具有重要的現(xiàn)實意義。
[0007]為了達到上述目的,本發(fā)明所采用的技術(shù)方案是:
[0008]一種基于粒子群算法的近紅外光譜波長選擇方法,步驟如下:
[0009]步驟1:首先采集樣本的近紅外光譜信號,構(gòu)成現(xiàn)場歷史數(shù)據(jù)庫D,數(shù)據(jù)庫D的測量光譜為近紅外光譜;數(shù)據(jù)庫D包括有N個波長變量;
[0010]步驟2:近紅外光譜波長選擇方法使用蒙特卡洛(Monte-Carlo, MC)方法,按照預(yù)設(shè)比例R:1將數(shù)據(jù)庫D隨機劃分為訓練集和驗證集;
[0011]步驟3:近紅外光譜波長選擇方法初始化訓練集,隨機選取Num個粒子,每個粒子代表一個數(shù)據(jù)對象,即每個粒子是一個N維向量,Num即為粒子群大??;將這Num個粒子的飛行速度進行隨機初始化;
[0012]步驟4:近紅外光譜波長選擇方法采用二進制編碼對每個粒子進行位置編碼;每個粒子長度等于全部波長N,每個波長對應(yīng)一個二進制碼,其中數(shù)值‘I’表示對應(yīng)的波長被選中,數(shù)值‘0’表不對應(yīng)的波長未被選中;
[0013]步驟5:近紅外光譜波長選擇方法采用偏最小二乘法(partial linear squares,PIS)建立分析校正模型,并選取交叉驗證均方根誤差RMSECV作為適應(yīng)度函數(shù),計算每個粒子的適應(yīng)度值,并記錄個體最優(yōu)解Pi和全局最優(yōu)解Pg;交叉驗證均方根誤差RMSECV的計算公式為:
【權(quán)利要求】
1.一種基于粒子群算法的近紅外光譜波長選擇方法,其特征在于:步驟如下: 步驟1:首先采集樣本的近紅外光譜信號,構(gòu)成現(xiàn)場歷史數(shù)據(jù)庫D,數(shù)據(jù)庫D的測量光譜為近紅外光譜;數(shù)據(jù)庫D包括有N個波長變量; 步驟2:近紅外光譜波長選擇方法使用蒙特卡洛Monte-Carlo, MC方法,按照預(yù)設(shè)比例R: I將數(shù)據(jù)庫D隨機劃分為訓練集和驗證集; 步驟3:近紅外光譜波長選擇方法初始化訓練集,隨機選取Num個粒子,每個粒子代表一個數(shù)據(jù)對象,即每個粒子是一個N維向量,Num即為粒子群大?。粚⑦@Num個粒子的飛行速度進行隨機初始化; 步驟4:近紅外光譜波長選擇方法采用二進制編碼對每個粒子進行位置編碼;每個粒子長度等于全部波長N,每個波長對應(yīng)一個二進制碼,其中數(shù)值‘I’表示對應(yīng)的波長被選中,數(shù)值‘0’表不對應(yīng)的波長未被選中; 步驟5:近紅外光譜波長選擇方法采用偏最小二乘法partial linear squares,PIS建立分析校正模型,并選取交叉驗證均方根誤差RMSECV作為適應(yīng)度函數(shù),計算每個粒子的適應(yīng)度值,并記錄個體最優(yōu)解Pi和全局最優(yōu)解Pg;交叉驗證均方根誤差RMSECV的計算公式為:
2.根據(jù)權(quán)利要求1所述的一種基于粒子群算法的近紅外光譜波長選擇方法,其特征在于:所述的近紅外光譜波長選擇方法采用USB2000+光纖光譜儀和計算機組成的光譜信號采集系統(tǒng),并對相關(guān)成分在各個頻段的光譜吸收率進行測量采集。
【文檔編號】G01N21/359GK103913432SQ201410114669
【公開日】2014年7月9日 申請日期:2014年3月25日 優(yōu)先權(quán)日:2014年3月25日
【發(fā)明者】曹暉, 王燕霞, 張彥斌, 周延 申請人:西安交通大學