荷兰顶级A片巜性生生活_性生交大片免费看A片直播爱奇艺_成人无码区免费A片久久鸭软件_美国A片巜禁忌3_强壮的公次次弄得我高潮A片日本_国产特黄A片AAAA毛片

優(yōu)惠活動 - 12周年慶本月新客福利
優(yōu)惠活動 - 12周年慶本月新客福利
優(yōu)惠活動 - 12周年慶本月新客福利

蜘蛛爬行抓取的地址庫和文件存儲

地址庫

為了避免重復爬行和抓取網址,搜索引擎會建立一個地址庫,記錄已經被發(fā)現還沒有抓取的頁面,以及已經被抓取的頁面地址庫中的 URL 有幾個來源:
 


(1) 人工錄入的種子網站。

(2) 蜘蛛抓取頁面后,從 HTML 中解析出新的鏈接 URL 與地址庫中的數據進行對比,如果是地址庫中沒有的網址,就存入待訪問地址庫。
 
(3) 站長通過搜索引擎網頁提交表格提交進來的網址。

蜘蛛按重要性從待訪問地址庫中提取 URL,訪問并抓取頁面,然后把這個 URL,從待訪問地址庫中刪除,放進已訪問地址庫中。

大部分主流搜索引擎都提供一個表格,讓站長提交網址。不過這些提交來的網址都只是存入地址庫而已,是否收錄還要看頁面重要性如何。搜索引擎所收錄的絕大部分頁面是蜘蛛自己跟蹤鏈接得到的。可以說提交頁面基本上是毫無用處的,搜索引擎更喜歡自己沿著鏈接發(fā)現新頁面。
 
文件存儲

搜索引擎蜘蛛抓取的數據存入原始頁面蕪湖網站設計數據庫。其中的頁面數據與用戶瀏覽器得到的HTML 是完全一樣的,每個URL都有一個獨特的文件編號 。
本文地址:http://www.wanjisy.com//article/2725.html
相關文章:
最新文章:
固镇县| 句容市| 庄河市| 策勒县| 宿迁市| 安岳县| 武夷山市| 晋中市| 蛟河市| 邳州市| 屏山县| 聂拉木县| 平陆县| 北辰区| 深州市| 吉木乃县| 萨嘎县| 金塔县| 中西区| 万宁市| 辉县市| 科技| 张掖市| 平阴县| 静安区| 宁南县| 南投市| 二连浩特市| 大英县| 耿马| 汕头市| 苍山县| 新郑市| 陆良县| 武隆县| 汤阴县| 宜丰县| 绥芬河市| 锡林浩特市| 拉萨市| 含山县|