第758章流形學習

 

姚夢娜提出的這個問題，對於常浩南來說，不難理解。

只是很難解決。

真要說起來的話，這涉及到文本挖掘、數據可視化、信息檢索、數據挖掘、機器學習乃至人工智能等一系列問題。

如果真做到姚夢娜所設想的那樣全自動化生產，那就是工業4.0了。

在1999年這個時間點上，顯然不大現實。

但不可能完全實現這一整套東西，並不意味著其中沒有可以作為突破口的部分。

比如數據挖掘和信息檢索，就是千禧年附近很火熱的研究方向。

其核心目的是從海量數據庫和大量繁雜信息中提取出有價值的知識，並進一步提高信息的利用率。

實際上，在常浩南重生之前，飛機設計和製造領域已經開始應用這方面的技術，他本人也接觸過不少。

但當年的他作為一個工科出身的普通技術人員，並沒有太多理論功底。

而系統，則首先需要構建出一個完整且可行的思路出來。

這就導致如今他腦子裡空有一大堆名詞，但卻不知道哪個是破局的關鍵——

實際上，他此時就面臨著無法從大量繁雜信息中提取出有價值信息的困境。

“信息……”

常浩南從旁邊扯過一張紙，在紙的最中間寫下了兩個字。

在理想化的模型中，最好是一個數據就可以精確且唯一地描述一個含義。

也就是一維數據。

小學和中學時候做的應用題，大體上就是這樣。

實際生活中面臨的，其實大多數也是這種問題。

而對於稍複雜一些的情況來說，要完全描述一個含義，往往需要一組數據。

但與此同時，這一組數據又往往不只能描述這一個含義。

要想在數學上描述這種一組多個數據對應多個含義的現象，就需要將一組數據在不同的維度上進行展開。

這是由數學理論推向現實的情況。

而反過來，現實中收集到的信息，在多數情況下，本身就是已經展開過的高維數據。

而如果想要讓計算機處理這些高維數據……

常浩南思索半晌，又在紙上寫下了三個基本條件：

1、對原始高維數據進行壓縮，降低原始高維數據的維度，進而節省存儲空間，同時也降低高維數據的計算複雜度。

2、消除，或者至少降低隱藏在原始高維數據中的噪聲。

3、提取到高質量的數據特徵，提升後續的數據表示和分類任務的效果。

他在腦子裡把這三條內容過了一下，然後試圖讓系統給出一個結果。

第758章 流形學習