第十一章資料海洋和爬蟲

數據分析模組是股神1.0的大腦，除了這個大腦之外它還需要其他幾個關鍵性模組。既然做大數據分析，那麼這個資料來源就需要有一個功能模塊來解決，它專門負責資料的收集。

這個資料收集模組就像是股神的手腳，負責從網路上收集對應的資料，這個模組一個關鍵的組成部分就是爬蟲。

國際網際網路發展到今天，變成了體系龐雜內容浩繁的網狀系統，這個系統上的資訊節點規模數以十億計，這些節點可能包括桌上型電腦、筆記本、伺服器、大規模群組、智能手機、平板、智慧導航終端、各類資訊採集終端、資訊發射終端等等等等。

只要能夠連結上網際網路，能夠與網際網路進行資料互動的，都可以視為一個資訊節點，比如遍佈城市的各類監控探頭，各類通訊基站，嚴格來說都屬於節點之一。

這些節點為網際網路提供的數據類型也各種各樣，有文字，有資料，有圖表，有文件，有影片，有音訊，有資料庫；它們的表現形式各式各樣，有通用格式，有專用格式；所有這些資訊加在一起，共同組成了沉積在國際網際網路中浩瀚的資料海洋。

這個資料海洋是動態的，它時刻處在在運動和更新之中，就好像各種洋流和浪濤一樣，永不停息。

整個資料海洋分散在無數個資訊節點之中，這些資訊節點被各種通訊協議連結起來，讓它們可以相互通訊。各種通訊協議中，有我們最熟悉的一種，就是URL，也就是我們總會遇到的網站連結。

如果將整個資料海洋比喻成我們的地球，那麼每個資料節點就是一個房間，而節點內的資料資訊就是我們人類，所有的資訊節點組合起來，構成了地球上的無數個城市，無數個大廈，無數個房屋。

各種各類的資料連結模式，就是承載人們出行的道路，而URL不過是道路的一種，算是各個城市之間，各個主要的商業大廈之間互通的鐵路和公路。它主要出現在公共服務器之間，就是說只要有了URL，理論上來說它對所有資料訪客都是開放的，任何人都可以抵達這個伺服器，只不過它有沒有門禁就是另外一回事了。

既然有公共空間，那相對應的肯定有非公共空間，除了URL，還有很多連結模式，這些連結模式裡，資訊節點就像是私人住宅或者軍事禁區一樣，它並不是開放給公眾的，雖然它同樣存在於資料海洋中，但你是無法隨便訪問的。

當面對如此龐大浩繁的資料海洋時就存在一個問題了，世界這麼大，我該如何找到目標，比如我想找感冒藥相關的資料資訊，我該怎麼辦？

正是這種需求催生了搜索引擎，搜索引擎可以幫助你快速找到目標，它就像一個找路指南一樣，你只要告訴它想去哪，這個目的地大概什麼特徵，它就會幫助你找到無數個可能合適的目的地，並且把對方的URL提供給你。

搜索引擎每天的訪問量都是海量的，每一秒同時併發的搜尋請求都是數以十萬計的，在這麼多請求面前，如果來一個請求它搜一遍網際網路，這肯定是不現實的，不僅速度慢效率低，而且僅僅這類搜尋請求就足讓整個國際網際網路陷入擁堵狀態。

【新章節更新遲緩的問題，在能換源的app上終於有了解決之道，這裏下載 huanyuanapp.org 換源App, 同時查看本書在多個站點的最新章節。】

為了解決這個問題，搜索引擎就有了它特有的工作模式，它先儘可能多的將資料海洋裡的資訊全部找出來，然後儲存在自己的伺服器群組中，一旦有了搜尋請求，它只要在自己的伺服器裡進行檢索就行了。

而幫助搜索引擎完成找這個動作的就是爬蟲。

因為國際網際網路中的資訊節點都是相互關聯的，是網狀聯絡的，每個節點上都會有很多個URL。所以爬蟲的工作模式就是遍歷，當它開始工作時，它會以一個資訊節點為起點，然後挨個訪尋與這個節點相連的所有節點，當下一層節點還有URL連結時，它就不斷訪問下去，直到將所有URL遍歷一次才算完。

因為整個網際網路的網狀結構，使它具備網狀互通性，所以等爬蟲將所有URL遍歷了，一般來說它就已經將整個國際網際網路所有連結全部訪問了一遍，這註定是一個比環球旅行更加令人歎為觀止的行為。

而莫回既然想弄這個股神1.0，他想要蒐集海量資料，那麼他要做的事情其實和搜索引擎要做的事情很像，只不過搜索引擎是所有資訊都要蒐集，而莫回只需要關注股票相關的資訊就行了。

這樣的話，莫回的爬蟲就必須在具備遍歷能力的同時，還得具備篩選的能力。

遍歷的能力解釋起來很簡單，就是你不能走回頭路和冤枉路，遊歷過的URL就犯不著再走第二遍了。一條新的URL被發現，首先需要判斷這條URL是否已經走過，其次需要判斷這條URL被安排在什麼次序去走。一個是重復性問題，一個是最優化問題，這就需要獨特的遍歷演算法來解決。

而篩選功能就是通用爬蟲和專用爬蟲之間的主要區別，莫回的爬蟲需要具備一定的識別能力，能夠辨別某個URL中的內容是否具備相關性，如果不具備那麼就跳過，如果具備就將其中的內容複製回來待用。

這個篩選功能同樣需要一大堆的演算法來解決，不僅如此，它還需要具備自然語言處理能力，就是說它得具備對語言文字的理解和解析的能力，它得能夠識別哪些文字內容是與股票相關的，哪些是無用的。

僅僅識別文字還是不夠的，它還得能夠識別其他格式的資料，比如它得能夠識別圖案，像是股票相關的各種K線圖、柱狀圖之類的，爬蟲必須能夠將其與風景畫或者自拍照區別開。

除了圖片，其他的像是影片、音訊、各類資料庫之類的，爬蟲都需要一一辨別出來，確定是否屬於相關內容。

這裡面將會有無數個技術難題需要解決，如果這個工作讓莫回一個人來完成，幾乎是不可想象的。（未完待續）

第十一章 資料海洋和爬蟲