一区二区三区四区电影视频在线观看_日韩精品无码一区二区三区_美女视频久久_日本精品久久久久久久_精品久久久久久久久久久_av片免费看

好健康網-中國醫療健康行業服務平臺! VIP快審 免費注冊 會員登錄
首頁 新聞資訊 科技網絡

揭秘搜索引擎收錄網站的原理 網站收錄原理

時間:2017-03-10 12:54 來源:未知 作者:分類目錄網 人氣:
【導讀】:收集待索引網頁 Internet上存在的網頁數量絕對是個天文數字,每天新增的網頁也不計其數,搜索引擎需要首先找到要索引收錄的對象。 具體到Google而言,雖然對GoogleBot是否存在DeepBo...
收集待索引網頁
Internet上存在的網頁數量絕對是個天文數字,每天新增的網頁也不計其數,搜索引擎需要首先找到要索引收錄的對象。
具體到Google而言,雖然對GoogleBot是否存在DeepBot與FreshBot的區別存在爭議——至于是否叫這么兩個名字更是眾說紛紜。
主流的看法是,在Google的robots中,的確存在著相當部分專門為真正的索引收錄頁頁準備“素材”的robots——在這里我們姑且仍稱之為FreshBot吧
它們的任務便是每天不停地掃描Internet,以發現并維護一個龐大的url列表供DeepBot使用,換言之,當其訪問、讀取其一個網頁時,目的并不在于索引這個網頁,而是找出這個網頁中的所有鏈接。當然,這樣似乎在效率上存在矛盾,有點不太可信。不過,我們可以簡單地通過以下方式判斷:FreshBot在掃描網頁時不具備“排它性”。也即是說,位于Google不同的數據中心的多個robots可能在某個很短的時間周期,比如說一天甚至一小時,訪問同一個頁面,而DeepBot在索引、緩存頁面時則不會出現類似的情況。即Google會限制由某個數據中心的robots來完成這項工作的,而不會出現兩個數據中心同時索引網頁同一個版本的情況,如果這種說法沒有破綻的話,則似乎可以從服務器訪問日志中時常可以看到源自不同IP的GoogleBot在很短的時間內多次訪問同一個網頁證明FreshBot的存在。
因此,有時候發現GoogleBot頻繁訪問網站也不要高興得太早,也許其根本不是在索引網頁而只是在掃描url。
FreshBot記錄的信息包括網頁的url、TimeStamp(網頁創建或更新的時間戳),以及網頁的Head信息(注:這一點存在爭議,也有不少人相信FreshBot不會去讀取目標網頁信息的,而是將這部分工作交由DeepBot完成。
不過,筆者傾向于前一種說法,因為在FreshBot向DeepBot提交的url列表中,會將網站設置禁止索引、收錄的頁面排除在外,以提高效率,而網站進行此類設置時除使用robots.txt外還有相當部分是通過mata標簽中的“noindex”實現的,不讀取目標網頁的head似乎是無法實現這一點的),如果網頁不可訪問,比如說網絡中斷或服務器故障,FreshBot則會記下該url并擇機重試,但在該url可訪問之前,不會將其加入向DeepBot提交的url列表。
總的來說,FreshBot對服務器帶寬、資源的占用還是比較小的。最后,FreshBot對記錄信息按不同的優先級進行分類,向DeepBot提交,根據優先級不同,主要有以下幾種:
A:新建網頁;B:舊網頁/新的TimeStamp,即存在更新的網頁;C:使用301/302重定向的網頁;D:復雜的動態url:如使用多個參數的動態url,Google可能需要附加的工作才能正確分析其內容。
——隨著Google對動態網頁支持能力的提高,這一分類可能已經取消;E:其他類型的文件,如指向PDF、DOC文件的鏈接,對這些文件的索引,也可能需要附加的工作;
F:舊網頁/舊的TimeStamp,即未更新的網頁,注意,這里的時間戳不是以Google搜索結果中顯示的日期為準,而是與Google索引數據庫中的日期比對;G:錯誤的url,即訪問時返回404回應的頁面;
網頁的索引與收錄
接下來才進入真正的索引與收錄網頁過程。從上面的介紹可以看出,FreshBot提交的url列表是相當龐大的,根據語言、網站位置等不同,對特定網站的索引工作將分配至不同的數據中心完成。
整個索引過程,由于龐大的數據量,可能需要幾周甚至更長時間才能完成。
正如上文所言,DeepBot會首先索引優先級較高的網站/網頁,優先級越高,出現在Google索引數據庫及至最終出現在Google搜索結果頁面中的速度便越快。
對新建網頁而言,只要進入到這個階段,即使整個索引過程沒有完成,相應的網頁便已具備出現在Google索引庫中的可能,相信許多朋友在Google中使用“site”搜索時常常看到標注為補充結果只顯示網頁url或只顯示網頁標題與url但沒有描述的頁面,此即是處于這一階段網頁的正常結果。
當Google真正讀取、分析、緩存了這個頁面后,其便會從補充結果中逃出而顯示正常的信息。
——當然,前提是該網頁具有足夠的鏈接,特別是來自權威網站的鏈接,并且,索引庫中沒有與該網頁內容相同或近似的記錄(DuplicateContent過濾)。
對動態url而言,雖然如今Google宣稱在對其處理方面已不存在障礙,不過,可以觀察到的事實仍然顯示動態url出現在補充結果中的幾率遠大于使用靜態url的網頁,往往需要更多、更有價值的鏈接才能從補充結果中逸出。
而對于上文中之“F”類,即未更新的網頁,DeepBot會將其時間戳與Google索引數據庫中的日期比對,確認盡管可能搜索結果中相應頁面信息未來得及更新但只要索引了最新版本即可——考慮網頁多次更新、修改的情況——;至于“G”類即404url,則會查找索引庫中是否存在相應的記錄,如果有,將其刪除。
數據中心間的同步
前文我們提到過,DeepBot索引某個網頁時會由特定的數據中心完成,而不會出現多個數據中心同時讀取該網頁,分別獲得網頁最近版本的情況,這樣,在索引過程完成后,便需要一個數據同步過程,將網頁的最新版本在多個數據中心得到更新。
這就是之前著名的GoogleDance。不過,在BigDaddy更新后,數據中心間的同步不再像那樣集中在特定的時間段,而是以一種連續的、時效性更強的方式進行。
    相關推薦

    版權聲明:

    1、本文系會員投稿或轉載自網絡,版權歸原作者所有,旨在傳遞信息,不代表看本站的觀點和立場;

    2、本站僅提供信息發布平臺,不承擔相關法律責任;

    3、若侵犯您的版權或隱私,請聯系本站管理員刪除。

    相關分類

    好健康網 www.b3mj9.cn 蘇ICP備20209186號
    一区二区三区四区电影视频在线观看_日韩精品无码一区二区三区_美女视频久久_日本精品久久久久久久_精品久久久久久久久久久_av片免费看
  • <abbr id="2g4ke"></abbr>
  • <rt id="2g4ke"></rt>
    久久婷婷开心| 蜜桃av综合| 午夜精品视频在线观看一区二区| 亚洲精品看片| 乱色588欧美| 亚洲综合二区| 中文字幕一区二区三区四区五区六区| 国产99视频精品免费视频36| 黄色精品免费| 中文字幕中文字幕在线中一区高清| 国产欧美日韩在线播放| 蜜桃av噜噜一区二区三区| 激情欧美日韩一区| 欧美日韩国产欧| 亚洲资源在线网| 性欧美大战久久久久久久免费观看 | 中文字幕在线亚洲精品| 国产精品毛片一区视频| 免费亚洲网站| 国产亚洲一级| 国产一区二区三区久久久久久久久| 欧美激情视频一区二区三区免费| 天堂资源在线亚洲资源| 久久国产精品免费一区| 国产区一区二区| 国产精品国产三级国产专区53| 亚洲尤物在线| 国产一区二区三区的电影 | 国产91亚洲精品一区二区三区| 一区二区三区精品视频在线观看| 伊人情人网综合| 亚洲美女搞黄| 欧美日韩爆操| 亚洲国产一区二区三区在线播| 亚洲福利一区| 国产日韩一区| 免费一区二区三区| 动漫精品视频| 欧美性天天影院| 中文字幕中文字幕在线中心一区 | 国产日韩一区二区三区在线播放| 国产综合自拍| 亚洲激情啪啪| 久久成人国产| 久久久久久久久四区三区| 欧洲亚洲一区二区| 亚洲一区二区三区四区中文| 欧美国产高潮xxxx1819| 激情久久婷婷| 91视频最新| 欧美日韩在线一二三| 亚洲一一在线| 狠狠久久综合婷婷不卡| 免费在线一区二区| 蜜桃成人在线| 国产精品v欧美精品v日韩 | 91久久国产综合久久蜜月精品| 国产午夜精品在线| 俄罗斯精品一区二区| 秋霞久久久久久一区二区| 欧美日韩精品免费观看| 久久久99国产精品免费| 美国av一区二区三区| 欧美日韩在线一二三| 久久精品一区| 无遮挡亚洲一区| 国产亚洲精品久久飘花| 免费精品视频一区| 欧美精品一卡| 久久在线精品| 一区二区精品免费视频| 欧美专区18| 欧美在线国产| 蜜乳av另类精品一区二区| 台湾成人av| 2020国产精品久久精品不卡| 伊人影院久久| 精品国产第一页| 尤物网精品视频| 蜜桃成人免费视频| 亚洲三级观看| 日韩精品一区二区三区色偷偷 | 欧美精品一线| 999精品视频一区二区三区| 一区二区欧美日韩| 97在线电影| 在线观看欧美亚洲| 欧美日韩一区综合| 亚洲欧美日韩综合一区| 欧美 日韩 国产精品免费观看| 久久久夜夜夜| 欧美日韩天堂| 色综合久久av| 成人自拍偷拍| 日韩午夜一区| 欧美成ee人免费视频| 久久av一区二区三区亚洲| 中文精品一区二区三区| 在线观看欧美一区| 欧美1o一11sex性hdhd| 2022国产精品| 99热免费精品在线观看| 亚洲精品国产一区| 国产精品久久国产三级国电话系列| 国产在线视频欧美一区二区三区| 精品亚洲一区二区三区四区五区高| 国产精品久久7| 久久久久久国产精品免费免费| 久久深夜福利| 亚洲激情av| 欧美体内she精视频在线观看| 欧美日本韩国一区二区三区| julia一区二区中文久久94| 永久域名在线精品| 在线观看日本一区| 午夜一区二区三视频在线观看| 国产另类自拍| 97人人澡人人爽| 久久综合一区| 西西人体一区二区| 精品动漫3d一区二区三区免费版| 亚洲一区二区三区乱码 | 成人一区二区在线| 99热这里只有精品8| 亚洲激情偷拍| 激情视频一区二区| 欧美日韩三区四区| 亚洲精品二区| 亚洲一区二区不卡视频| 少妇精品久久久久久久久久| 九色91视频| 久久精品ww人人做人人爽| 国产精品成人一区二区三区 | 婷婷精品国产一区二区三区日韩| 鲁丝一区鲁丝二区鲁丝三区| 国产一区视频观看| 精品国产乱码久久久久软件 | 伊人久久大香线蕉av一区| 天天好比中文综合网| 亚洲国产一区二区在线| 亚洲欧美久久234| 午夜精品视频| 在线观看成人av电影| 亚洲精品在线观看免费| 国产欧美日韩在线播放| 国产伦理一区| 91嫩草国产在线观看| 国产精品视频500部| 国产在线资源一区| 任我爽在线视频精品一| 在线视频不卡一区二区三区| 欧美激情视频一区二区三区在线播放 | 日本一区二区三区www| 亚洲国产激情一区二区三区| 一区二区三区视频| 国语精品中文字幕| 亚洲一区日韩在线| 久久久精品国产一区二区三区| 欧美国产二区| 欧美成人一区二区在线| 国产欧美日韩综合一区在线播放| 久久不射2019中文字幕| 久久精品99| 韩国欧美一区| 91网免费观看| 亚洲精品tv久久久久久久久| 狠狠入ady亚洲精品经典电影| 国产精品永久| 久久国产精品久久精品国产| 欧美一区免费| 男人的天堂亚洲在线| 免费成人深夜夜行视频| 午夜精品美女久久久久av福利| 亚洲综合欧美| 欧美日韩一区二区三区在线观看免| 一区高清视频| 午夜一区二区三区不卡视频| 欧美精品免费观看二区| 一区二区视频在线观看| 国产精品久久久久久久免费大片| 日韩欧美一区二区三区四区| 一本久久综合| 奇米视频888战线精品播放| 亚洲经典视频在线观看| 久久精品日产第一区二区三区乱码| 欧美日韩一卡| 久久青青草综合| 亚洲免费激情| 日韩电影在线播放| 欧美亚洲免费高清在线观看| 先锋在线资源一区二区三区| 鲁大师成人一区二区三区| 一区国产精品| 精品麻豆av| 国产亚洲毛片在线| 你懂的视频一区二区| 久久国产精品-国产精品| 午夜亚洲视频| 韩国自拍一区| 色噜噜狠狠一区二区三区|