SEO是研究搜索引擎的,在了解搜索引擎對關鍵詞的排名原理,才能做好SEO優化。簡單的看下面的圖,將搜索引擎的排名過程分為三個階段:爬行抓取網頁信息、索引、在終端顯示排名。
一、爬行、抓取、收集數據
搜索引擎蜘蛛工作過程:種子頁面出發,不斷的抓取鏈接—發現鏈接—抓取,同時將抓取到數據存入數據庫中。
搜索引擎蜘蛛的遵行基本的爬行策略:廣度優先、深度優先。
互聯網是由相互連接的頁面組成,在理論上,蜘蛛是可以抓取到互聯網上所有的頁面。但是實際運行時受帶寬資源、時間等硬件條件的限制,搜索引擎蜘蛛只能盡全力的多發現頁面。為了提高爬取效率,蜘蛛會優先從網站導航、分類目錄這樣的聚合頁面出發。在進入網扎之前,蜘蛛會優先讀取網站根目錄下的robots文件,只抓取robots文件允許訪問的頁面。
二、索引
蜘蛛抓取到的頁面并不能直接作為排名結果放出,需要經過去除標簽、提取有效內容。這是一個極其復雜的過程,我們可以簡單的理解為蜘蛛用分詞算法去除頁面中的停止詞、重復詞,找出頁面中的特征文字;使用特定的編號順序,建立這些關鍵詞與頁面的索引,形成索引詞庫。一般來說,建立索引有兩種方式:正向索引、倒排索引,配合使用事排序結果更為精確。
三、終端顯示排名
用戶在搜索引擎內輸入需求關鍵詞時,搜索引擎會關鍵詞進行分詞、矯正錯、去噪等操作,最終的結果觸發數據庫中的關鍵詞索引,搜索結果按照既定的排名規則呈現出來。