俄罗斯精品一区二区,日本三级精品一区二区,国产精品一区二区免费,国产福利一区二区,久久经精品久久精品免费观看,yy6080久久亚洲精品,久久这里有精品视频,久久精品国产亚洲aⅴ蜜桃

生物反應器規模放大:遷移學習和產品相似性評估

2023-05-23 10:39:44

實驗數據或觀察的數量對于基于機器學習的方法的開發和應用至關重要。具體而言,觀察值與過程變量或預測變量數量的比率很重要。當觀察值與預測值的比率很小時,可能會發生過度擬合。因此,必須通過將適當的實驗方法設計應用于細胞培養實驗來生成足夠的實驗數據。盡管如此,在廣泛的過程變量和工程設計考慮因素下從大型生物反應器中獲取數據既昂貴又耗時。此外,對于每個新產品,都應該進行一組新的實驗來表征過程。因此,任何能夠減少對實驗數據的依賴的方法都是有價值的。

 

遷移學習是一種可以通過利用細胞培養過程和產品的先驗知識來減少數據不足問題的方法。借助這種數據高效技術,可以捕獲各種過程或產品的相互關聯的屬性,然后將其轉移到新過程中。換句話說,遷移學習的目標是重新處理已經在其它相互關聯的數據集上進行過預訓練的算法,并將這些算法應用于觀察通常不足的新數據集。由于深度神經網絡的流行,許多研究人員為此開發了深度遷移學習算法。通常采用兩種策略來創建最初由大型數據集作為先驗知識訓練的深度遷移學習神經網絡。

 

在第一種策略中,參數網絡的一些現有層被凍結,這意味著它們在重新訓練過程中不會更新,而現有模型的其余部分使用新的目標數據集進行重新訓練,然后超參數優化。在重新訓練和超參數調整過程之前,新參數也可能被附加到現有網絡。由于可以考慮各種拓撲來向網絡中的任何層添加新參數,因此還需要進行優化研究以找到最佳拓撲。

 

在第二種策略中,所有由源數據集初始化的網絡參數都使用目標數據集重新計算。如果目標數據集很小并且現有網絡有很多參數,這種策略可能會導致過度擬合。

 

遷移學習越來越受歡迎,并已成功應用于材料特性預測、藥物發現、故障檢測以及化學反應預測等不同領域。一些研究人員還利用遷移學習來改進生物系統中的模型預測,例如通過將序列衍生知識從包括五種蛋白酶的源蛋白質域轉移到目標蛋白酶蛋白質域來預測金屬蛋白酶中的底物切割位點,通過將在Yarrowia lipolytica酵母數據上訓練的模型轉移到其它產油酵母來預測包括脂質和有機酸在內的產品滴度,以及通過將在Saccharomyces cerevisiae釀酒酵母數據上訓練的模型轉移到Trichoderma reesei里氏木霉來預測分泌途徑中的蛋白質-蛋白質相互作用。

 

遷移學習在生物反應器規模放大中的具體應用尚未在已發表的文獻中進行研究,盡管最近,Rogers 等人 (2021) 展示了遷移學習在生物工藝開發中的潛力。在這項研究中,開發了人工神經網絡來預測 Desmodesmus sp.(鏈帶藻) 和 Chlorella sorokiniana(一種新的葉黃素生產菌株,其可用數據有限)。盡管新菌株 Chlorella sorokiniana 可以產生比Desmodesmus sp.更高的細胞葉黃素含量,但它們具有相似的代謝途徑,這表明從Desmodesmus sp.培養物中轉移知識的可能性。新菌株進一步提高產量。為此,從Desmodesmus sp.的補料分批培養中獲得的時程數據,包括生物量濃度、入射光強度、硝酸鹽濃度和流入率以及葉黃素濃度,被用于訓練 ANN 模型。然后使用 Chlorella sorokiniana 的單個數據集重新訓練源 ANN 以創建兩個遷移學習模型:遷移模型#1,其中僅更新源 ANN 的最后一層,以及遷移模型#2,其中最后兩層來源 ANN 已更新。與僅在 Chlorella sorokiniana 的有限數據上訓練的基準 ANN 相比,這兩種轉移模型都使預測誤差顯著降低了 50%。這個例子有效地展示了遷移學習如何有效地促進生物工藝開發中的知識遷移。

 

另一種方法涉及組合相關產品的數據集,以制作產品物理化學和生物學特性的分子描述符的組合訓練數據集。可以使用計算方法生成分子描述符,例如預測定量構效關系 (QSAR) 建模。盡管可以通過這種方法捕獲分子特征,但無法整合來自不同工藝的知識,例如,使用不同細胞系或使用不同反應器規模生產的同一產品,從而限制了利用該方法使用所有現有數據。

 

可以使用編碼技術(例如單熱編碼或標簽編碼)來包含此類分類數據的數字表示,從而允許將工藝或產品標識附加到訓練數據中,以明確指定每組數據所對應的單個過程或產品歸屬,但這種方法不能傳達不同數據之間隱藏的相似性。有趣的是,在 Hutter 等人(2021)的一篇論文中,提出了一種新方法,使用嵌入向量捕獲跨細胞系的可能相似性。在這種方法中,創建了一個抽象的 D 維嵌入空間來表示每個產品。附加到訓練集的嵌入向量及其維度是通過超參數優化研究確定的,包括定義高斯過程回歸模型中使用的自定義核函數。盡管開發像這樣的定制模型比傳統方法需要更多的努力,但與傳統的單熱編碼模型相比,作者展示了使用高斯過程回歸模型的顯著改進。此外,由于模型的知識轉移能力得到增強,為新細胞系重新訓練模型的實驗次數顯著減少。

 

工藝過程之間的相似性也可以通過使用 PCA 方法生成的“載荷”計算的相似性因子在數值上表示。在 PCA 中計算的系數(也稱為權重)可以用于推導原始變量和投影變量或主成分之間的線性關系。這些權重稱為載荷。如果主成分的數量用??表示,?? 1 和?? 2 表示載荷矩陣,過程1和2的轉置矩陣分別為?? '1和?? '2,相似因子可以通過以下公式計算:

 

圖片

 

它介于 0 和 1 之間。對于兩個相似的過程,相似性因子更接近 1,而不同的過程具有更接近 0 的相似性因子。這種方法已成功應用于跨規模比較生物制藥工藝過程,但尚未對知識轉移算法進行檢查。在不久的將來,將這些相似性指數作為附加特征包含在數據驅動模型的訓練中,可能會提高模型在相互關聯的過程之間傳遞知識和區分數據的能力。

 

原文:M. K. Alavijeh, I. Baker, Y. Y. Lee, et al., Digitally enabled approaches for the scale up of mammalian cell bioreactors, Digital Chemical Engineering 4 (2022) 100040

網站導航

聯系方式

  • 網址:
  • http://m.maoshijie.com/
  • 郵箱:
  • womeishengwu@szwmbio.com
  • 地址:
  • 蘇州市張家港市鳳凰鎮鳳凰大道南側23號

掃碼關注

在線留言

您可以在此處留言您想要和我們說的話,我們會仔細查看的哦。

在此輸入您的留言內容

COPYRIGHT ? 蘇州沃美生物有限公司  版權所有    備案號:蘇ICP備2021054580號-1 技術支持:萬禾科技