免費發(fā)布信息

當(dāng)前位置: 首頁 » 資訊 » 網(wǎng)絡(luò)知識 » 正文

搜索引擎蜘蛛程序

發(fā)布日期：2009-12-15 瀏覽次數(shù)：144

核心提示：搜索引擎都有自己的搜索機器人（ROBOTS），并通過這些ROBOTS在網(wǎng)絡(luò)上沿著

搜索引擎都有自己的“搜索機器人”（ROBOTS），并通過這些ROBOTS在網(wǎng)絡(luò)上沿著網(wǎng)頁上的鏈接（一般是http和src鏈接）不斷抓取資料建立自己的數(shù)據(jù)庫。對于網(wǎng)站管理者和內(nèi)容提供者來說，有時候會有一些站點內(nèi)容，不希望被ROBOTS抓取而公開。為了解決這個問題，ROBOTS開發(fā)界提供了兩個辦法：一個是robots.txt，另一個是The Robots META標(biāo)簽。
一、 robots.txt
1、什么是robots.txt？ robots.txt是一個純文本文件，通過在這個文件中聲明該網(wǎng)站中不想被robots訪問的部分，這樣，該網(wǎng)站的部分或全部內(nèi)容就可以不被搜索引擎收錄了，或者指定搜索引擎只收錄指定的內(nèi)容。當(dāng)一個搜索機器人訪問一個站點時，它會首先檢查該站點根目錄下是否存在robots.txt，如果找到，搜索機器人就會按照該文件中的內(nèi)容來確定訪問的范圍，如果該文件不存在，那么搜索機器人就沿著鏈接抓取。 robots.txt必須放置在一個站點的根目錄下，而且文件名必須全部小寫。網(wǎng)站 URL
相應(yīng)的 robots.txt的 URL

http://www.w3.org/
http://www.w3.org/robots.txt
http://www.w3.org:80/
http://www.w3.org:80/robots.txt
http://www.w3.org:1234/
http://www.w3.org:1234/robots.txt
http://w3.org/
http://w3.org/robots.txt

2、 robots.txt的語法

"robots.txt"文件包含一條或更多的記錄，這些記錄通過空行分開（以CR,CR/NL, or NL作為結(jié)束符），每一條記錄的格式如下所示：
"<field>:<optionalspace><value><optionalspace>"。在該文件中可以使用#進(jìn)行注解，具體使用方法和UNIX中的慣例一樣。該文件中的記錄通常以一行或多行User-agent開始，后面加上若干Disallow行,詳細(xì)情況如下：

User-agent:
該項的值用于描述搜索引擎robot的名字，在"robots.txt"文件中，如果有多條User-agent記錄說明有多個robot會受到該協(xié)議的限制，對該文件來說，至少要有一條User-agent記錄。如果該項的值設(shè)為*，則該協(xié)議對任何機器人均有效，在"robots.txt"文件中， "User-agent：*"這樣的記錄只能有一條。

Disallow :
該項的值用于描述不希望被訪問到的一個URL，這個URL可以是一條完整的路徑，也可以是部分的，任何以Disallow 開頭的URL均不會被robot訪問到。例如"Disallow: /help"對/help.phpl 和/help/index.phpl都不允許搜索引擎訪問，而"Disallow: /help/"則允許robot訪問/help.phpl，而不能訪問/help/index.phpl。

任何一條Disallow記錄為空，說明該網(wǎng)站的所有部分都允許被訪問，在"/robots.txt"文件中，至少要有一條Disallow記錄。如果 "/robots.txt"是一個空文件，則對于所有的搜索引擎robot，該網(wǎng)站都是開放的。

下面是一些robots.txt基本的用法：
l 禁止所有搜索引擎訪問網(wǎng)站的任何部分：
User-agent: *
Disallow: / l 允許所有的robot訪問
User-agent: *
Disallow:
或者也可以建一個空文件 "/robots.txt" file l 禁止所有搜索引擎訪問網(wǎng)站的幾個部分（下例中的cgi-bin、tmp、private目錄）
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/ l 禁止某個搜索引擎的訪問（下例中的BadBot）
User-agent: BadBot
Disallow: / l 只允許某個搜索引擎的訪問（下例中的WebCrawler）
User-agent: WebCrawler
Disallow: User-agent: *
Disallow: /

下一篇：個人不能再注冊CN域名已注冊用戶將接受審查
上一篇：自動分配IP地址

[ 資訊搜索 ] [ 加入收藏 ] [ 告訴好友 ] [ 打印本文 ] [ 關(guān)閉窗口 ]

同類資訊

共0條 [查看全部] 相關(guān)評論

推薦圖文

虛擬機軟件介紹：VMWa

推薦資訊

?

?

• 傳送網(wǎng)助力網(wǎng)絡(luò)IP化	• 301重定向
• 讓百度快速收錄的多種方法	• 巧妙讓U盤禁止拷貝
• 使用U盤的一些技巧	• 使用U盤時遇到雙擊打不開的情況
• 谷歌Google PR值等級怎樣提高	• SEO新時代互聯(lián)網(wǎng)中的一門藝術(shù)和技術(shù)-即搜索引擎
• SEO的基本原理	• 網(wǎng)站優(yōu)化與搜索引擎排名SEO的區(qū)別

白山有实装饰材料公司

會員商務(wù)中心

免費發(fā)布信息

搜索引擎蜘蛛程序