當前位置: UU看書 > 現代 > 重生之王牌駭客最新章節列表 > 第302章 自然語言處理
選擇背景顏色: 選擇字體: 選擇字體大小:

第302章 自然語言處理

企劃書很厚,兩三百頁,內容寫得很詳細。

肖遠在翻看的時候,並沒有去逐字逐句的讀,實際上也沒有那個必要,他只需要透過企劃書,把握其中的脈絡和關鍵,對唐新宇和顧狼的想法有所瞭解就行了,好在企劃書雖然厚,但是條理很清楚,所以肖遠讀起來也不費事。

在肖遠把企劃書讀到一半的時候,楊靜宸在外邊喊他吃飯,於是他暫停了閱讀,起身出門吃飯去了。

吃過飯後,他跟隨老媽去了書房,想要問她一些事情。

“怎麼,還要媽幫你做什麼?”書房裡,楊靜宸問道,很顯然,她以為肖遠還要說開源社群的事情。

“不是,我想問問,您對中文自然語言處理知道多少,實驗室有沒有誰在研究這個?”肖遠問道。

“為什麼想起問這個了?”楊靜宸問道。

“玄涅公司準備做一個全文搜索引擎,目的是想讓使用者透過在搜尋框輸入日常用的語言,搜索引擎應該能夠自動對他們的語言進行分析理解,然後從網路上海量的網頁中搜尋到他們想要的資訊,這裡面需要用到自然語言處理。”肖遠說道。

“全文搜索引擎?”楊靜宸眼前一亮,由衷道,“這個想法好啊,如果能做成,比玄涅現在主要經營的玄涅防火牆,更有前景,更容易做成大產業。”

“是的,我們也是看到了這一點兒,但是這其中有一些既需要理論支援,又需要大量基礎工作的東西,自然語言處理也在其中,而且很重要,您不是人工智慧專家嗎,所以我才想到問問您。”肖遠說道。

“自然語言處理嚴格來說,應該是一個以人工智慧為核心的跨學科研究方向,它牽涉到的,不僅僅是計算機和人工智慧,還牽涉到語言學,心理學等其他社會學分科,雖然這個學科在西方起源挺早,四十年代就有了,但是自然語言系統太過複雜,所以,直到現在,全世界範圍內,也沒有什麼突破性進展。”

楊靜宸顯然對這個領域很熟悉,給肖遠介紹了一下當前國際上關於這方面的研究情況,然後又說了國內的研究情況:“咱們國內對這方面的研究,相比國外,還處於一個水平更低的基礎資訊積累階段,一方面是因為國內的起步比西方晚,二來,是因為,中文和西方拉丁語系的那些語言有很大不同,拉丁語系是拼音語系,而且句式本身就是結構化的,所以計算機處理起來也相對容易,但是中文卻是一種古老的象形文字,句式靈活隨意,充滿了各種虛詞助詞,想將這樣的語言轉化成計算機可以分析處理的形式,本身就是一個很大的難題。”

“嗯,這倒是事實,那麼咱們國家現在的研究狀況究竟是什麼樣子的?”聽了老媽的話,肖遠稍稍有些失望,前世他也只是稍稍關注過這方面的理論,具體的細節瞭解也不是太多,於是就想更深入的瞭解一些。

“現在國內進行這方面研究的,主要是幾個大學,其中京華大學的研究比較前沿,國內其他大學在這方面的研究,也大都在配合京華大學的研究,做一些基礎詞庫整理工作,媽的實驗室也有人在做這方面的研究,主要承擔的是H到P的詞彙整理建庫工作,目前完成度已經到百分之八十了。”楊靜宸說道。

聽了楊靜宸的介紹,肖遠說道:“基礎詞庫大概什麼時候能夠建好?”

“這個很難估計。”楊靜宸說道,說完看到肖遠眉頭皺了起來,又說道,“你要真的想在搜索引擎中使用自然語言處理演算法,媽倒是能給你一些建議。”

肖遠用詢問的目光看著老媽,等著她繼續。

“人們要利用你說的搜索引擎在網上檢索資訊的話,我想他們用的最多的,肯定不會是完整的句子,而是一些關鍵詞,或者一些短句,僅僅分析關鍵詞和短句的話,難度就沒有那麼大了,而且你也沒必要一下子就把產品做的那麼完美,人們以前從來沒有接觸過這樣的產品,所以,只需要一些簡單的智能性,就足以對使用者產生足夠的吸引力了。”楊靜宸說道。

肖遠點了點頭,說道:“這個我自然是知道的,不過咱們國內的研究狀況讓我有些失望罷了,第一版肯定不能一下子往裡面放太多的東西,只需要做出一個基本的東西,然後根據使用者的反饋和新技術的成熟,再擴充,讓它越來越完善,這好像是軟件工程上有名的XP程式設計。”

“你知道XP程式設計?”

楊靜宸卻是因為肖遠提到XP程式設計(此處的XP指的是eXtremeProgramming的簡寫,極限程式設計的意思,而WindowsXP中的XP指的是experience的簡寫,意思是體驗,而且99年還沒有WindowsXP之說。)感到很驚訝,大概是想不到肖遠還會去看軟件工程方面的書吧,更何況XP開發方法還是近幾年才有人提出來的一種很新的方法。

“瞭解一些。”肖遠卻是沒有想到自己隨口的一句話,都能讓老媽感到驚訝,於是就把話題又拉回了正題,說道,“媽,我倒有個想法。”

“什麼想法?”楊靜宸問道。

“我想讓玄涅搜尋和你的人工智慧實驗室進行深度合作,一方面,你們能夠從玄涅得到一定的資金支援,而且你們還可以利用玄涅搜尋所採集的海量網路資訊資源,另一方面,玄涅也能夠第一時間將你們的研究成果應用到自己的產品中,提升公司的技術含量,我認為這是一件雙贏的事情。”肖遠說道。

“學校科研和企業合作,儘快轉化成生產力,是咱們國家一直提倡的,人工智慧實驗室這些年,也一直在尋求與企業合作,聯合研發,所以,如果玄涅想要合作的話,實驗室當然歡迎了。”楊靜宸說道。

“那好,等時機成熟後,我讓唐新宇和你們談,具體過程我就不參與了。”肖遠說道。

…………

和老媽又聊了一會兒,肖遠再次回到了自己的房裡,把企劃書看完,思索片刻,他拿出紙筆,開始構思玄涅搜索引擎的技術架構了。

【穩定運行多年的小說app,媲美老版追書神器,老書蟲都在用的換源App,huanyuanapp.org】

PS:這幾章需要講一些技術方面的知識,為了保證不出現什麼紕漏,綠茶需要思考很多東西,查很多資料,寫的很慢,很費腦。

今天仍然三更,第二更送到。