當前位置: UU看書 > 都市 > 穿越:2014最新章節列表 > 第170章 你渴望推開那扇門麼(7)
選擇背景顏色: 選擇字體: 選擇字體大小:

第170章 你渴望推開那扇門麼(7)

遇到這種維度災難,不降維的話高維資料是很難進行處理的。

(ps:……數學天賦點滿的人高維也能硬上)

作為資料去噪簡化的一種方法,降維處理對處理大多數現代機器學習資料很有幫助。

透過降低資料的維度,理論上講可以把這個複雜棘手的問題變得簡單輕鬆。

機器學習領域中所謂的降維就是指採用某種對映方法。

將原高維空間中的資料點對映到低維度的空間中。

這麼做是為了除去噪音同時儲存所關注資訊的低維度資料。

這樣對研究人員理解原本的高維資料所隱含的結構和模式很有幫助。

原始的高維度資料通常包含了許多無關或冗餘變數的觀測值。

降維可以被看作是一種潛在特徵提取的方法。

降維這種方法經常用於數據壓縮、資料探索以及資料視覺化。

話雖如此,但降維並不是像科幻書裡描述的那般扔一個二向箔就完事了。

涉及到降維是一件極其麻煩的事情!

在選擇降維方法的時候,人們不得不考慮很多因素。

首先要考慮輸入資料的性質。

比如說,對於連續資料、分類資料、計數資料、距離資料,它們會需要用到不同的降維方法。

對資料的性質和解析度的考慮是十分重要的。

如果不考慮輸入資料的性質貿然進行降維的話雖然能夠使得這些這些高維模型低維化。

極有可能使得原本離散的資料直接“湖”在一起。

這種情況比高維離散還要糟糕。

在應用正式的降維技術之前。

還要對高維資料進行適當的預處理。

畢竟不是所有的資料都是樣本資料。

而有的時候進行預處理時。

最佳的預處理方式又是引入降維。

這就會陷入一個瘋狂套娃的迴圈之中。

總而言之,對高維資料進行降維是一件超級麻煩的事情。

在實際進行處理時一般自然語言處理方向的研究人員一般都竭力避免出現高維爆炸的情況。

而不是等出現高維資料之後再進行低維處理。

高維資料的低維處理某種程度更像是一種迫不得已的異常麻煩的補救措施。

很多東西因為麻煩就足以讓人說再見了。

繁複的過程意味著容易出錯。

而美好的事物所呈現的形式應該是簡潔的。

就像尤拉公式一般。

正因為如此,尹芙·卡莉覺得林灰這種天才想表達的意思絕對不是將高維資料降維成低維資料。

如果林灰想表達的意思不是對高維資料做手腳。

而是說對傳統的向量空間模型做文章?

將高維向量空間模型轉化為維度較低的空間向量模型?

這種思路倒是不錯。

但這種嘗試先前並不是沒人做過。

很早之前就有人進行了嘗試。

早在上世紀末期就有人提出了潛在語義分析模型。

潛在語義分析模型是基於空間向量模型(VSM)而提出的。

潛在語義分析模型其基本思想是在得到文字的空間向量表示後。

透過奇異值分解,將高維且稀疏的空間向量對映到低維的潛在語義空間當中。

在得到低維的文字向量和單詞向量之後。

再用餘弦相似度等度量方式來計算文字間的語義相似度。

潛在語義分析的本質思想就是透過降維來去除原始矩陣中的噪音,從而提高計算準確度。

雖然這種思路不錯,但這種方法並沒有普適性。

這是因為潛在語義分析模型在架構模型的過程中採用的奇異值分解。

這種做法使得計算複雜度增高,並且可移植性較差。

在這種方法提出來之後。

並不是沒人嘗試對這種方法進行過改進。

同樣是上世紀末。

有研究人員提出了機率潛在語義分析模型。

這種模型是基於機率,而不是基於奇異值分解。

這種模型相比於潛在語義分析模型的主要差異是增加一個主題層。

而後使用期望最大化演算法訓練主題,並找到一個機率性的潛在主題模型。

以此用來預測文字空間向量中的觀察資料。

在這種機率潛在語義分析模型中,多義詞被歸入不同的主題下,而同義詞被歸入同一主題下。

這樣可以避免同義詞和多義詞對文字相似度計算的影響。

然而,機率潛在語義分析模型的引數隨著文件數量的增加而線性增長。

很容易出現過擬合和泛化不良。

這種情況很大程度又是因為維度爆炸。

因為過擬合只在高維空間中預測相對少的引數和低維空間中預測多引數這兩種情況下發生。

一個為了避免維度爆炸而提出的模型卻出現了維度爆炸。

多少有點悲劇。

事實上,並不是只有上述兩個模型提出來。

這之後還有很多研究團隊都在從模型層面的做了不同程度的嘗試。

但這些模型要麼是南轅北轍,不利於降維。

要麼是在降維的同時又帶來了新的問題。

總之,這些模型都有各種行不通的地方。

儘管尹芙·卡莉相信林灰是個天才。

但尹芙·卡莉覺得林灰也很難在前人無數次嘗試的情況下找到一種全新的能夠規避維度爆炸的低維模型。

尹芙·卡莉考慮了很久也沒想通林灰究竟表達的是什麼意思。

尹芙·卡莉把她剛才她的思考過程對林灰進行了闡述。

林灰聽得很認真。

聽完之後,林灰笑道:“你都想到了這麼多種高維向低維轉化的情形。

而且先前你也提到了機器識別文字時為了要機器識別自然語言往往將自然語言數值化。

而後為了將這些數值進行屬性區分進一步進行了向量化。

既然你能明白這些,那你就應該知道涉及到自然語言處理方向的問題之所以很容易出現維度爆炸很大程度是因為原始數據就維度極高。

這種情況下我們為什麼不直接從源頭上解決問題對原始數據做些文章呢?”

【鑑於大環境如此,本站可能隨時關閉,請大家儘快移步至永久運營的換源App,huanyuanapp.org 】

聽到林灰這話,尹芙·卡莉似乎靈魂深處被觸動了一般。

尹芙·卡莉顫聲道:“你的意思是說,直接對原始的高維資料進行低維化處理?

處理得到低維化資料之後,在架構模型進行語義文字相似度分析?”