久久亚洲精品无码Va白人极品天堂在线资源中文在线8人妻丰满熟妇AV无码片国产乱子伦农村XXXX

如何讓我的網(wǎng)站被百度收錄？

百度會收錄符合用戶搜索體驗(yàn)的網(wǎng)站和網(wǎng)頁。
為促使百度Spider更快的發(fā)現(xiàn)您的站點(diǎn)，您也可以向我們提交一下您的網(wǎng)站的入口網(wǎng)址。提交地址是：http://www.baidu.com/search/url_submit.html
百度的網(wǎng)頁收錄機(jī)制，只和網(wǎng)頁價(jià)值有關(guān)，與競價(jià)排名等商業(yè)因素沒有任何關(guān)聯(lián)。

如何讓我的網(wǎng)頁不被百度收錄？

百度嚴(yán)格遵循搜索引擎Robots協(xié)議（詳細(xì)內(nèi)容，參見http://www.robotstxt.org/）。
您可以寫一個(gè)Robots文件以限制您的網(wǎng)站全部網(wǎng)頁或者部分目錄下網(wǎng)頁不被百度收錄。具體寫法，參見：如何撰寫Robots文件。
如果您的網(wǎng)站是在被百度收錄之后再設(shè)置Robots文件，則Robots文件通常在兩周內(nèi)生效，被文件限制的內(nèi)容，將從百度搜索結(jié)果中移除。
如果您的拒絕被收錄需求非常急迫，也可以發(fā)郵件給webmaster@baidu.com請求處理。
為什么我的網(wǎng)站內(nèi)一些不設(shè)鏈接的私密性網(wǎng)頁，甚至是需要訪問權(quán)限的網(wǎng)頁，也會被百度收錄？百度Spider對網(wǎng)頁的抓取，是通過網(wǎng)頁與網(wǎng)頁之間的鏈接實(shí)現(xiàn)的。
網(wǎng)頁之間的鏈接類型，除了站點(diǎn)內(nèi)部的頁面鏈接之外，還有不同網(wǎng)站之間的互相鏈接。因此，某些網(wǎng)頁即便通過您的網(wǎng)站內(nèi)部鏈接無法訪問到，但是，如果別人的網(wǎng)站上有指向這些頁面的鏈接，那么這些頁面還是會被搜索引擎所收錄。
百度Spider的訪問權(quán)限，和普通用戶是一樣的。因此，普通用戶沒有權(quán)限訪問的內(nèi)容，Spider也沒有權(quán)限訪問。之所以看上去某些訪問權(quán)限限制內(nèi)容被百度收錄，原因有兩點(diǎn)：
A. 該內(nèi)容在Spider訪問時(shí)是沒有權(quán)限限制的，但抓取之后，內(nèi)容的權(quán)限發(fā)生了變化
B. 該內(nèi)容有權(quán)限限制，但是由于網(wǎng)站安全漏洞問題，導(dǎo)致用戶可以通過某些特殊路徑直接訪問。而一旦這樣的路徑被公布在互聯(lián)網(wǎng)上，則Spider就會循著這條路徑抓出受限內(nèi)容
如果您不希望這些私密性內(nèi)容被百度收錄，一方面可以通過Robots協(xié)議加以限制；另一方面，也可以聯(lián)系webmaster@baidu.com進(jìn)行解決。

我的網(wǎng)頁為什么會從百度搜索結(jié)果中消失？

百度并不允諾所有網(wǎng)頁都可從百度搜索到。
如果您的網(wǎng)頁長時(shí)間無法從百度搜索到，或者突然從百度的搜索結(jié)果中消失，可能的原因有：
A. 您的網(wǎng)站所在服務(wù)器不穩(wěn)定，被百度暫時(shí)性去除；穩(wěn)定之后，問題會得到解決
B. 您的網(wǎng)頁內(nèi)容有不符合國家法律和法規(guī)規(guī)定的地方
C. 您的網(wǎng)頁不符合用戶的搜索體驗(yàn)
D. 其他技術(shù)性問題
以下的說法是錯(cuò)誤的和毫無根據(jù)的：
A. 參與了百度競價(jià)排名但未續(xù)費(fèi)，會從百度搜索結(jié)果中消失
B. 參與了其他搜索引擎的廣告項(xiàng)目，會從百度搜索結(jié)果中消失
C. 與百度旗下網(wǎng)站產(chǎn)生了競爭，會從百度搜索結(jié)果中消失
D. 從百度獲得的流量太大，會從百度搜索結(jié)果中消失

什么樣的網(wǎng)頁會被百度認(rèn)為是沒有價(jià)值而不被百度收錄或者從現(xiàn)有搜索結(jié)果中消失？

百度只收錄百度認(rèn)為有價(jià)值的網(wǎng)頁。任何網(wǎng)頁在搜索結(jié)果中的去留變化，都是機(jī)器算法計(jì)算和調(diào)整的結(jié)果。下述類型的網(wǎng)頁，百度明確不會歡迎：
A. 網(wǎng)頁做了很多針對搜索引擎而非用戶的處理，使得用戶從搜索結(jié)果中看到的內(nèi)容與頁面實(shí)際內(nèi)容完全不同，或者使得網(wǎng)頁在搜索結(jié)果中獲得了不恰當(dāng)?shù)呐琶瑥亩鴮?dǎo)致用戶產(chǎn)生受欺騙感覺。
如果您的網(wǎng)站中有較多這種頁面，那么這可能會使您的整個(gè)網(wǎng)站的頁面收錄和排序受到影響。
B. 網(wǎng)頁是復(fù)制自互聯(lián)網(wǎng)上的高度重復(fù)性的內(nèi)容。
C. 網(wǎng)頁中有不符合中國法律和法規(guī)的內(nèi)容。

如果我的網(wǎng)站因?yàn)樽鞅仔袨槎鴱陌俣人阉鹘Y(jié)果中消失，是否還有被重新收錄可能？

凡是作出完全修正的網(wǎng)站，是有機(jī)會被百度重新收錄的。百度會定期對被處理站點(diǎn)進(jìn)行自動(dòng)評估，并對符合條件者重新收錄。
需要說明的是，百度技術(shù)和產(chǎn)品部門只對用戶搜索體驗(yàn)負(fù)責(zé)。以下的說法都是錯(cuò)誤的和毫無根據(jù)的：
A. 我成為百度的廣告客戶或者聯(lián)盟網(wǎng)站，就可以重新被收錄
B. 我給百度若干鈔票，就可以重新被收錄
C. 我認(rèn)識百度的某某人，就可以重新被收錄

我的網(wǎng)站更新了，可是百度收錄的內(nèi)容還沒更新怎么辦？

百度會定期自動(dòng)更新所有網(wǎng)頁（包括去掉死鏈接，更新域名變化，更新內(nèi)容變化）。因此請耐心等一段時(shí)間，您的網(wǎng)站上的變化就會被百度察覺并修正

網(wǎng)頁排序問題

我的網(wǎng)站首頁被收錄了，但搜索網(wǎng)站名稱卻排不到第一個(gè)，怎么辦？

答：排序算法非常復(fù)雜。我們的目標(biāo)，即在于通過算法改進(jìn)，讓用戶以最小的成本，搜索到所需要的信息。這個(gè)過程中還是會有各種各樣不盡如人意的地方。我們會非常歡迎您把您遇到的困惑和問題，反饋給我們。我們的工程師，對每一個(gè)問題都會有細(xì)致的跟蹤和分析，以期將之最終解決。百度搜索結(jié)果頁下方的搜索框右側(cè)，有“與百度對話”鏈接，您可以在那里提交您的問題，以協(xié)助我們改進(jìn)。
我們一直在改進(jìn)搜索算法，以使得百度的搜索結(jié)果更加符合用戶的搜索需求。

搜索某關(guān)鍵詞，我的網(wǎng)頁在百度搜索結(jié)果的排序短期內(nèi)變化劇烈，這正常嗎？

搜索某關(guān)鍵詞，我的網(wǎng)頁在百度的排序位置，和在其他搜索引擎的排序位置，差異非常大，這正常嗎？

我請一些“SEO”來為我的網(wǎng)站或者網(wǎng)頁做優(yōu)化，會有什么后果？

答：合理的搜索引擎優(yōu)化，參見百度的“給站長的建站指南”。
外界很多打著SEO旗號的公司或者個(gè)人，也許能為您的網(wǎng)站帶來短期的排序收益，但是，這會使您將面臨更大損失的風(fēng)險(xiǎn)。在您把網(wǎng)站資源交托給別人之后，很多SEO甚至?xí)媚馁Y源進(jìn)行他們個(gè)人的運(yùn)營項(xiàng)目，最終導(dǎo)致您的利益受損。
不要因?yàn)镾EO們以下的說法，而冒險(xiǎn)將自己的網(wǎng)站托付給他們隨意處置：
A. 我和百度的人很熟，想怎么干就怎么干，沒風(fēng)險(xiǎn)
B. 我是搜索引擎專家，對百度的算法一清二楚，玩玩火也不要緊
C. 我把xxx、yyy、zzz這些關(guān)鍵詞都搞到第一了，所以我是牛人啊您也可以向百度投訴搜索中遇到的垃圾網(wǎng)站或者網(wǎng)頁，幫助百度保持搜索結(jié)果的質(zhì)量。商業(yè)客戶相關(guān)的問題

我是百度的競價(jià)排名客戶，如果我不續(xù)費(fèi)，百度是否會因此對我進(jìn)行懲罰？

我的網(wǎng)站因?yàn)樽鞅锥鴱陌俣认Я?，是否可以通過成為百度競價(jià)排名客戶、廣告客戶或者聯(lián)盟站點(diǎn)的方式重新被百度收錄？

答：不可以。我們對網(wǎng)站的收錄，唯一標(biāo)準(zhǔn)是用戶搜索體驗(yàn)。被懲罰網(wǎng)站重新被百度收錄的說明，見網(wǎng)頁收錄問題6中的敘述。

我的網(wǎng)站加入百度競價(jià)排名、百度聯(lián)盟，或者成為百度的廣告客戶，是否能在網(wǎng)頁的收錄和排序上獲得特別的照顧？

答：不可能。給站長的建站建議
只有當(dāng)搜索引擎、站長、互聯(lián)網(wǎng)用戶之間，能有一種默契的利益均衡，這個(gè)行業(yè)才會順暢發(fā)展。竭澤而漁式的網(wǎng)站建設(shè)，只會使您與用戶、與搜索引擎越來越遠(yuǎn)。搜索引擎與站長之間，宜和諧發(fā)展，共同擁抱美好的愿景。

以下是我們給出的一些建站建議：

站點(diǎn)結(jié)構(gòu)宜簡潔明晰

答：不要讓你的用戶一進(jìn)你的站點(diǎn)就因?yàn)榧姺笔忞s而不知所措。從某種意義上來說，百度的Spider也是一個(gè)相對特殊的訪客而已。每一個(gè)子域名，每一個(gè)目錄，都最好有明確的內(nèi)容區(qū)隔，避免不同子域名或者目錄對相同內(nèi)容的互相串用。

創(chuàng)造屬于您自己的獨(dú)特內(nèi)容

答：百度更喜歡獨(dú)特的原創(chuàng)內(nèi)容。所以，如果您的站點(diǎn)內(nèi)容只是從各處采集復(fù)制而成，很可能不會被百度收錄。

保持經(jīng)常的更新

答：經(jīng)常的更新，蜘蛛程序就會經(jīng)常的光顧；而長期不更新的網(wǎng)站，蜘蛛到訪會日趨減少。

謹(jǐn)慎設(shè)置您的友情鏈接

答：如果您網(wǎng)站上的友情鏈接，多是指向一些垃圾站點(diǎn)，那么您的站點(diǎn)可能會受到一些負(fù)面影響。參與各類以SEO為目的的自助鏈接活動(dòng)，很可能“過猶不及”。

把自己的網(wǎng)站做成常青樹

答：如果沒有搜索引擎，你的網(wǎng)站仍然訪客盈門，那么你的網(wǎng)站就屬于“常青樹”了。面向用戶做網(wǎng)站，而不要面向搜索引擎做網(wǎng)站，這是成為常青樹網(wǎng)站的真諦。

讓百度重新收錄的方法:

1,是收費(fèi)我想這個(gè)大家都知道了.

2,將網(wǎng)站的域名綁定到,例如可以綁定到一級域名的博客,或網(wǎng)頁,這樣重新提交百度就可以收錄了.http://www.baidu.com/search/url_submit.html
3,將網(wǎng)站的域名作跳轉(zhuǎn),跳轉(zhuǎn)到百度,新浪,163,sohu等門戶網(wǎng)站,重新提交后就可以了,http://www.baidu.com/search/url_submit.html
4,注冊百度的聯(lián)盟,加入百度的代碼,在重新提交.
急不來的
通常的步驟是：
- 提交到百度，正常情況是1個(gè)月后將你的網(wǎng)站添加到搜索引擎的index
- 整理你的頁面，讓你的頁面變得search engine friend，你可以到這個(gè)網(wǎng)站去看看http://www.53371.com/
- 到處去做你的網(wǎng)站的連接（提高搜索引擎訪問你的網(wǎng)站的速度）

如何讓百度收錄百度給站長的建站指南

如何使您的站點(diǎn)被百度有效收錄
給每個(gè)網(wǎng)頁加上與正文相關(guān)的標(biāo)題。如果是網(wǎng)站首頁，則標(biāo)題建議使用站點(diǎn)名稱或者站點(diǎn)代表的公司/機(jī)構(gòu)名稱；其余內(nèi)容頁面，標(biāo)題建議做成正文內(nèi)容的提煉和概括。這可以讓您的潛在用戶快速的訪問到您的頁面。
請不要在標(biāo)題中堆積與正文無關(guān)的關(guān)鍵詞。
確保每個(gè)頁面都可以通過一個(gè)文本鏈接到達(dá)。百度無法識別Flash中的鏈接，這些單元上的鏈接所指向的網(wǎng)頁，百度就無法收錄了。
頁面間的鏈接，盡量使用平實(shí)的超鏈，而不是重定向跳轉(zhuǎn)。使用自動(dòng)跳轉(zhuǎn)的頁面，可能會被百度丟棄。
盡量少使用frame和iframe框架結(jié)構(gòu)。
如果是動(dòng)態(tài)網(wǎng)頁，請控制一下參數(shù)的數(shù)量和URL的長度。百度更偏好收錄靜態(tài)網(wǎng)頁。
在同一個(gè)頁面上，不要有過多鏈接。在那些站點(diǎn)地圖類型的頁面上，請把重要的內(nèi)容給出鏈接，而不是所有細(xì)枝末節(jié)。鏈接太多，也可能會導(dǎo)致無法被百度收錄。
什么樣的站點(diǎn)會受到百度歡迎
站點(diǎn)應(yīng)該是面向用戶的，而不是面向搜索引擎的。一個(gè)受到用戶歡迎的站點(diǎn)，最終也會受到搜索引擎歡迎；反過來，如果您的站點(diǎn)做了很多針對百度的優(yōu)化，但卻給用戶帶來大量負(fù)面體驗(yàn)，那么，您的站點(diǎn)最終可能還是會受到百度的冷落。
百度更喜歡有獨(dú)特內(nèi)容的網(wǎng)頁，而不是簡單抄襲和重復(fù)互聯(lián)網(wǎng)上已有內(nèi)容的網(wǎng)頁。對于已經(jīng)被重復(fù)了千百遍的內(nèi)容，百度可能會不予收錄。請謹(jǐn)慎使用您的站點(diǎn)鏈接。與一些垃圾站點(diǎn)做友情鏈接，很可能會使您的網(wǎng)站受到負(fù)面影響。因此，當(dāng)有人很熱情的要求您為他的站點(diǎn)提供友情鏈接時(shí)，請審視以下兩點(diǎn)：
一，對方的站點(diǎn)在他那個(gè)領(lǐng)域是否是高質(zhì)量的？站長間所謂的流量以及排名，很多都是用欺騙手段獲取的，無法保持長久。
二，對方要求的鏈接名稱是否和對方網(wǎng)站地位相稱？用一個(gè)涵蓋范圍廣泛的關(guān)鍵詞來做一個(gè)內(nèi)容非常局限的網(wǎng)站的鏈接名稱，很可能會使您的網(wǎng)站受到負(fù)面影響。
經(jīng)常保持內(nèi)容更新。經(jīng)常有新內(nèi)容產(chǎn)生的站點(diǎn)，百度是會注意到，并且大力歡迎，而且會頻繁造訪。

網(wǎng)站登錄問題我的網(wǎng)站更新了，可是百度收錄的內(nèi)容還沒更新怎么辦？

怎樣使我的網(wǎng)站被百度收錄？

答：百度免費(fèi)自動(dòng)收錄您的站點(diǎn)。如果您希望百度盡快收錄，可以到網(wǎng)站登錄提交您的網(wǎng)址；只需提交網(wǎng)站首頁，內(nèi)部頁面百度會自動(dòng)抓取。

從提交到被收錄，大約需要多久？
答：通常需要1－4周時(shí)間。

我不想讓百度收錄我的站點(diǎn)，該怎么辦？

答：百度尊重和遵守robots協(xié)議，您可以寫一個(gè)robots文件限制您的網(wǎng)站全部或部分不被百度收錄。詳情參見禁止搜索引擎收錄的辦法。

我的站點(diǎn)為什么在百度中搜不到？

我的站點(diǎn)在百度搜索結(jié)果中排名下降了，該怎么辦？

答：排序變動(dòng)很正常。一般情況下，只要您不斷提高網(wǎng)站內(nèi)容質(zhì)量，讓更多的用戶喜歡您的網(wǎng)站，成為您的忠實(shí)用戶，您的網(wǎng)站在百度的排名一般就不會很差。

百度關(guān)于垃圾網(wǎng)站的處理

如果您的站點(diǎn)中的網(wǎng)頁，做了很多針對搜索引擎而非用戶的處理，使得：用戶從搜索結(jié)果中看到的內(nèi)容與頁面實(shí)際內(nèi)容完全不同，或者站點(diǎn)質(zhì)量與站點(diǎn)在搜索結(jié)果中的排名極不相稱，從而導(dǎo)致用戶產(chǎn)生受欺騙感覺，那么，您的網(wǎng)站就有可能被百度丟棄。
如果您的站點(diǎn)上的網(wǎng)頁，大量都是復(fù)制自互聯(lián)網(wǎng)上的高度重復(fù)性的內(nèi)容，那么，您的站點(diǎn)也有可能被百度丟棄。
所以，當(dāng)您的網(wǎng)站從百度消失，請先審視一下自己的站點(diǎn)有無問題。有任何意見，也可以反饋到webmaster@baidu.com。您也可以向百度投訴搜索中遇到的垃圾網(wǎng)站或者網(wǎng)頁，幫助百度保持搜索結(jié)果的質(zhì)量。
讓百度等搜索引擎收錄您的網(wǎng)站

當(dāng)您發(fā)現(xiàn)在以下搜索引擎里，無法搜索到您或者您客戶的網(wǎng)站時(shí)，您就打開以下登錄口，填好申請表提交，等這些網(wǎng)站的工作人員審核通過后，您的網(wǎng)站就可以在上面搜索到了。

怎樣才能讓百度及時(shí)更新網(wǎng)站的收錄數(shù)據(jù)？

你有沒有發(fā)現(xiàn)搜索引擎已經(jīng)很久沒有收錄你的網(wǎng)站了，有沒有方法能讓搜索引擎及時(shí)更新你的網(wǎng)站收錄數(shù)據(jù)，不知道那么就跟我來吧?。ù颂幰园俣人阉饕鏋槔?br /> 1.在百度搜索引擎輸入:site:www.zizhong.com.cn (此處就是你網(wǎng)站的網(wǎng)址)得到網(wǎng)站收錄數(shù)據(jù).
百度一下，找到相關(guān)網(wǎng)頁29600篇，用時(shí)0.001秒 2.在百度最底下找到
1 [2] [3] [4] [5] [6] [7] [8] [9] [10] 下一頁每10頁點(diǎn)下去,一直點(diǎn)到最后一頁,當(dāng)出現(xiàn)
提示：為了提供最相關(guān)的結(jié)果，我們省略了一些內(nèi)容相似的條目，點(diǎn)擊這里可以看到所有搜索結(jié)果。再點(diǎn)擊提示上的連接. 3.最后再次輸入:site:www.zizhong.com.cn,是不是發(fā)現(xiàn)比原來少了很多頁數(shù)了?不要害怕,已經(jīng)達(dá)到讓百度更新收錄數(shù)據(jù)的目的了.一天以后就會發(fā)現(xiàn)重新收錄更多了!
注意：如果你的網(wǎng)站有新的內(nèi)容，而又未被收錄的話，經(jīng)驗(yàn)證會有有明顯效果的。什么？沒有新內(nèi)容？？那就增加你的網(wǎng)站內(nèi)容吧…………

怎樣避免被搜索引擎視為作弊

一個(gè)網(wǎng)站要想成功注冊，它起碼應(yīng)具備兩個(gè)條件，一是網(wǎng)站本身要有較好的內(nèi)容和設(shè)計(jì)，二是網(wǎng)站沒有作弊行為。這里所謂的“作弊”，是指采用一些特殊的、有悖常規(guī)的網(wǎng)頁設(shè)計(jì)手法，以期提高網(wǎng)站排名的行為。如何設(shè)計(jì)好網(wǎng)站，相關(guān)的資料很多，本文就不廢話了。這里主要談?wù)労笳?，即在提高網(wǎng)站排名的同時(shí)，如何避免被搜索引擎視為作弊而拒絕注冊。那么，在搜索引擎看來，哪些行為算作弊呢？這里羅列了一下，從中你可看到，現(xiàn)在有些人還視為“密技”的東西，其實(shí)已經(jīng)過時(shí)了。

堆砌頁面關(guān)鍵字：為了增加某個(gè)詞匯在網(wǎng)頁上的出現(xiàn)頻率，而故意重復(fù)它。這是有人常用的花招，不過，現(xiàn)在很多搜索引擎都能識破它。它們通過統(tǒng)計(jì)網(wǎng)頁單詞總數(shù)，判斷某個(gè)單詞出現(xiàn)的比例是否正常。一旦超過“內(nèi)定標(biāo)準(zhǔn)”，就對你的網(wǎng)頁說“ByeBye”了。

放置隱形文本：所謂的“鬼頁法”。為了增加關(guān)鍵字?jǐn)?shù)量，網(wǎng)頁中放一段與背景顏色相同的、包含密集關(guān)鍵字的文本，訪客看不到，可搜索引擎卻能找到，過去一度還真能提高網(wǎng)站排名，但現(xiàn)在，主要搜索引擎都能識別出來，照樣玩不通了。

安插微型文本：與“鬼頁法”相似，只是文本更些?更分散、更隱蔽。但是，對于敏感的搜索引擎來說，仍然是枉費(fèi)心機(jī)。

網(wǎng)頁重定向：使用META刷新標(biāo)記、CGI程序、Java、Javascript或其它技術(shù)，當(dāng)用戶點(diǎn)擊一個(gè)鏈接時(shí)，自動(dòng)跳到另一個(gè)網(wǎng)頁。有人正是用這種方法，欺騙人們進(jìn)入并不想去的地方。因此，有些搜索引擎（如Infoseek），對此類網(wǎng)頁也很反感，一般不予登記。

濫用Meta標(biāo)記關(guān)鍵字：有人為增加關(guān)鍵字的出現(xiàn)次數(shù)，在語句中，重復(fù)關(guān)鍵字，或者加入與網(wǎng)站內(nèi)容毫不相關(guān)的熱門詞匯。這種作弊行為，大部分搜索引擎也能識破。

濫用門戶網(wǎng)頁：門戶網(wǎng)頁（也稱“橋頁”），是指為了獲得好的排名，而專門針對各搜索引擎排序算法設(shè)計(jì)的網(wǎng)頁。盡管今天，多數(shù)搜索引擎并不反對這種作法。但俗話說：“物極必反。”建立太多具有相近關(guān)鍵字的門戶網(wǎng)頁，會招致搜索引擎的反感而無法成功注冊。

連續(xù)注冊：有人為加大保險(xiǎn)系數(shù)，在一天之內(nèi)，將一個(gè)網(wǎng)頁重復(fù)提交給同一個(gè)搜索引擎，其實(shí)，這種作法適得其反。

重復(fù)注冊：有人以為，將一個(gè)網(wǎng)頁簡單復(fù)制成多個(gè)網(wǎng)頁，然后，給它們安上不同的名字，并分別予以注冊，會增大訪問量，結(jié)果，搜索引擎會認(rèn)為你在濫用它，而拒絕登記你的網(wǎng)站。

偷換網(wǎng)頁：是指一個(gè)網(wǎng)頁成功注冊并獲得較好排名后，用另一個(gè)內(nèi)容無關(guān)的網(wǎng)頁（如產(chǎn)品廣告）來替換它的行為。

張冠李戴：上面提到的門戶網(wǎng)頁，只適用于Altavista這類自動(dòng)登錄的搜索引擎，如果提交給Yahoo這類人工分類的目錄式搜索引擎，它就會認(rèn)為你在作弊。

突破頁數(shù)限制：一些搜索引擎允許每個(gè)用戶每天或每周提交的網(wǎng)頁數(shù)量是有限制的。例如，Altavista每天允許10頁；HotBot允許每天50頁；Excite允許每周25頁；Infoseek允許每天50頁（但使用e-mail注冊，沒有頁數(shù)限制）。請注意，這并不是說，搜索引擎每天或每周只能為你登錄以上頁數(shù)，而只是允許你提交的頁數(shù)。還不明白？那就舉個(gè)例吧，對于Excite而言，每周只允許你提交25頁，如果你的網(wǎng)站有1000頁，那該怎么辦呢？就提交25頁即可！余下的Excite會自己檢查到，并將編入索引中。如果你強(qiáng)行突破這個(gè)限制，那么，搜索引擎就會認(rèn)為你在作弊，反而不予注冊。

上面這些條款似乎很明顯、很容易區(qū)分，但有時(shí)我們卻可能不知不覺犯上。例如，你有一個(gè)網(wǎng)頁，背景是白色，在這個(gè)網(wǎng)頁上，你設(shè)計(jì)了一個(gè)表格，其背景為藍(lán)色、文字為白色，這種設(shè)計(jì)應(yīng)該說也是完全正常的，但如果你到搜索引擎Infoseek去注冊，它卻不理你。為什么呢？它認(rèn)為你在作弊！在Infoseek看來，表格中的白色文本，實(shí)際是置于白色的網(wǎng)頁背景上，也就是說，網(wǎng)頁文本與背景顏色相同，這就符合“鬼頁法”的作弊特征。而這一點(diǎn)，可能你自己根本沒有意識到。還有一例，有時(shí)因設(shè)計(jì)需要，或者網(wǎng)站已遷移到其它地方，通常我們會用到網(wǎng)頁重定向，但對于Infoseek等搜索引擎而言，這也是不可容忍的作弊行為。另外，Infoseek等搜索引擎還要求，不要在多個(gè)網(wǎng)頁上布置指向同一個(gè)網(wǎng)頁的鏈接。例如，很多人喜歡在各個(gè)網(wǎng)頁放上“返回主頁”的鏈接，其實(shí)就屬于這種情況。這種司空見慣的設(shè)計(jì)，居然也被看成作弊，真是太苛刻了。不過，對此Infoseek在真正執(zhí)行時(shí)，似乎也并不是很嚴(yán)格，一些這樣設(shè)計(jì)的網(wǎng)頁，它照樣登錄了（你也碰碰運(yùn)氣？）?？傮w上說，這些限制都是為了對付真正的作弊者，使搜索引擎的檢索結(jié)果更加準(zhǔn)確有效，但事實(shí)上，的確也錯(cuò)怪了一些好人。如果萬一你碰上這種情況怎么辦，搜索引擎到底會怎樣處罰你呢？

跟不少網(wǎng)主一樣，筆者以前對此不甚了解，以為自己的某個(gè)網(wǎng)頁違項(xiàng)，會導(dǎo)致整個(gè)網(wǎng)站被封殺。其實(shí)，事實(shí)并非如此！因?yàn)檫\(yùn)作搜索引擎的人也知道，有時(shí)他們搜索引擎判定的“作弊”，實(shí)際是一種正常合法的設(shè)計(jì)，只是因?yàn)樗阉饕孀陨磉€不夠“聰明”，無法準(zhǔn)確判斷是故意作弊，還是偶然巧合。所以，他們通常不會因?yàn)槟尘W(wǎng)頁象在作弊，就拒絕登記整個(gè)網(wǎng)站，而只是對有違規(guī)嫌疑的網(wǎng)頁進(jìn)行處罰——降低排名或不予登記，而其它的合法網(wǎng)頁不會受到影響。此時(shí)，你只需將這個(gè)網(wǎng)頁修改，并重新注冊即可。除非你有意作弊，肆無忌憚違反上述多項(xiàng)規(guī)則，或者由于你提交的大量垃圾網(wǎng)頁，對搜索結(jié)果造成明顯不良影響，那么，你的整個(gè)網(wǎng)站將被永遠(yuǎn)踢出門外。當(dāng)然，也有個(gè)別搜索引擎（如HotBot）政策更加寬松，甚至對故意作弊者，也沒有永遠(yuǎn)拒絕登記的規(guī)定。只要它認(rèn)為你沒有攻擊或侵害到它，一般不會刪掉你整個(gè)網(wǎng)站的索引，不過，這個(gè)尺度掌握在人家手里，勸你還是別去試它的耐性。

作為一名網(wǎng)主，明白了哪些行為是作弊，你就應(yīng)該在允許范圍內(nèi)，去探索如何獲得較高排名，以增大網(wǎng)站訪問量，讓盡可能多的人知道你的產(chǎn)品、服務(wù)或了解你本人，只有這樣，成功注冊才有實(shí)際意義。

使百度有效收錄

百度喜歡結(jié)構(gòu)簡單的網(wǎng)頁，具有復(fù)雜結(jié)構(gòu)的網(wǎng)頁可能無法順利登錄百度。您在進(jìn)行網(wǎng)頁設(shè)計(jì)時(shí)應(yīng)盡量：

1. 給每個(gè)網(wǎng)頁加上標(biāo)題

網(wǎng)站首頁的標(biāo)題，建議您使用您的網(wǎng)站名稱或公司名稱，其它網(wǎng)頁的標(biāo)題建議與每個(gè)網(wǎng)頁內(nèi)容相關(guān)，內(nèi)容不同的網(wǎng)頁不用相同的標(biāo)題。

2. 不要把整個(gè)網(wǎng)頁做成一個(gè)Flash或是一張圖片

百度是通過識別網(wǎng)頁源代碼中的漢字來認(rèn)識每一個(gè)網(wǎng)頁的。如果您的整個(gè)網(wǎng)頁是一個(gè)Flash或一張圖片，百度在網(wǎng)頁中找不到漢字，就有可能不收錄您的網(wǎng)頁。

3. 不對網(wǎng)頁做重定向

重定向的網(wǎng)頁可能不容易登錄百度。

4.不在網(wǎng)頁中使用Frame（框架結(jié)構(gòu)）

5.不在網(wǎng)頁中使用過分復(fù)雜的JavaScript

某些Java Script的內(nèi)容對于搜索引擎是不可見的，所以不能被識別和登錄。

5.靜態(tài)網(wǎng)頁能更順利登錄百度，動(dòng)態(tài)生成的網(wǎng)頁不容易登錄百度

·如果您的網(wǎng)頁url中含有如asp、？等動(dòng)態(tài)特征，網(wǎng)頁就可能被認(rèn)為是動(dòng)態(tài)網(wǎng)頁。

·如果您的網(wǎng)站中有很多網(wǎng)頁必須做成Frame結(jié)構(gòu)或動(dòng)態(tài)網(wǎng)頁，那么建議您至少把網(wǎng)站首頁做成簡單的網(wǎng)頁，并且對網(wǎng)站內(nèi)的一些重要網(wǎng)頁，在首頁加上鏈接。

6. 不要對搜索引擎進(jìn)行作弊

作弊的網(wǎng)站不能登錄百度，即使登錄后也隨時(shí)可能被刪除。

作弊網(wǎng)站定義

對搜索引擎作弊，是指為了提高在搜索引擎中展現(xiàn)機(jī)會和排名的目的，欺騙搜索引擎的行為。

以下行為都可能被認(rèn)為是作弊：

· 在網(wǎng)頁源代碼中任何位置，故意加入與網(wǎng)頁內(nèi)容不相關(guān)的關(guān)鍵詞；

· 在網(wǎng)頁源代碼中任何位置，故意大量重復(fù)某些關(guān)鍵詞。即使與網(wǎng)頁內(nèi)容相關(guān)的關(guān)鍵詞，故意重復(fù)也被視為作弊行為；

· 在網(wǎng)頁中加入搜索引擎可識別但用戶看不見的隱藏文字。無論是使用同背景色文字、超小字號文字、文字隱藏層、還是濫用圖片ALT等方法，都屬于作弊行為；

· 故意制造大量鏈接指向某一網(wǎng)址的行為；

· 對同一個(gè)網(wǎng)址，讓搜索引擎與用戶訪問到不同內(nèi)容的網(wǎng)頁（包括利用重定向等行為）；

· 作弊行為的定義是針對網(wǎng)站而不是網(wǎng)頁的。一個(gè)網(wǎng)站內(nèi)即使只有一個(gè)網(wǎng)頁作弊，該網(wǎng)站也被認(rèn)為是有作弊行為；

· 有鏈接指向作弊網(wǎng)站的網(wǎng)站，負(fù)連帶責(zé)任，也會被認(rèn)為是作弊（但是，作弊網(wǎng)站上鏈接指向的網(wǎng)站，不算作弊）。

作弊網(wǎng)站害處

根據(jù)網(wǎng)頁的作弊情況，會受到不同程度的懲罰：

· 較輕微的懲罰，是系統(tǒng)在給網(wǎng)頁排名時(shí)略為降低該網(wǎng)頁的排名；

· 較常見的懲罰，是作弊網(wǎng)站的某些關(guān)鍵詞（或所有關(guān)鍵詞）的排名降到其它任何網(wǎng)站之后；

· 較嚴(yán)厲的懲罰，對于作弊行為和后果特別惡劣的網(wǎng)站，將從百度中消失；

· 特別補(bǔ)充，含惡意代碼或惡意插件等用戶極端反感內(nèi)容的網(wǎng)頁，雖然不是作弊，但只要用戶投訴，一經(jīng)確認(rèn)也會被百度拒絕收錄；

Google官方確認(rèn)AdSense有助于網(wǎng)頁收錄
Google官方確認(rèn)AdSense有助于網(wǎng)頁收錄

Google的網(wǎng)頁收錄的其中一種途徑是通過Googlebot的爬行來實(shí)現(xiàn)的，也就是說，Google派出它自己的網(wǎng)絡(luò)蜘蛛，主動(dòng)去抓取有價(jià)值的網(wǎng)頁內(nèi)容。類似地，Google的AdSense也有自己的bot，它的名字為MediaBot。它會自動(dòng)去到放置了AdSense廣告代碼的網(wǎng)頁，然后對網(wǎng)頁內(nèi)容進(jìn)行分析，以投放與網(wǎng)頁內(nèi)容相關(guān)的廣告。但一直以來都有一個(gè)爭論，那就是到底AdSense的MediaBot與Googlebot有什么區(qū)別？MediaBot在判斷廣告相關(guān)網(wǎng)頁的時(shí)候，會不會也對這個(gè)網(wǎng)站在Google收錄及排名等方面有一定的好處呢？也就是說，投放了AdSense廣告，會不會有助于改善自己的網(wǎng)站的Google收錄及排名呢？

根據(jù)SEJ的消息，Google的一名高級工程師及主管Matt Cutts已經(jīng)正式確認(rèn)，AdSense派出來的MediaBot在抓取網(wǎng)頁內(nèi)容后，會把部分結(jié)果提交至BigDaddy的數(shù)據(jù)庫里。Matt解釋說，這是因?yàn)閮煞Nbot都在不斷地抓取網(wǎng)頁，因此為了節(jié)省資源，MediaBot會幫Googlebot完成部分網(wǎng)頁抓取工作。但Matt同時(shí)也給出警告，如果你的網(wǎng)站提供給MediaBot的內(nèi)容與提供給Googlebot的內(nèi)容完全不同，那么你就會“有麻煩”。因?yàn)镚oogle會認(rèn)為你在作弊。

我認(rèn)為從Matt給出的訊息里可以證明，在網(wǎng)站上投放了AdSense的廣告，的確是有助于你的網(wǎng)站被Google收錄。比如，收錄得更快更多。但并不一定會提高你的網(wǎng)站排名。有這方面經(jīng)驗(yàn)的朋友應(yīng)該會想到其它辦法，從Matt的話出發(fā)。

搜索引擎原理－網(wǎng)絡(luò)蜘蛛和ROBOTS

一、網(wǎng)絡(luò)蜘蛛基本原理

網(wǎng)絡(luò)蜘蛛即Web Spider，是一個(gè)很形象的名字。把互聯(lián)網(wǎng)比喻成一個(gè)蜘蛛網(wǎng)，那么Spider就是在網(wǎng)上爬來爬去的蜘蛛。網(wǎng)絡(luò)蜘蛛是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁，從網(wǎng)站某一個(gè)頁面（通常是首頁）開始，讀取網(wǎng)頁的內(nèi)容，找到在網(wǎng)頁中的其它鏈接地址，然后通過這些鏈接地址尋找下一個(gè)網(wǎng)頁，這樣一直循環(huán)下去，直到把這個(gè)網(wǎng)站所有的網(wǎng)頁都抓取完為止。如果把整個(gè)互聯(lián)網(wǎng)當(dāng)成一個(gè)網(wǎng)站，那么網(wǎng)絡(luò)蜘蛛就可以用這個(gè)原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁都抓取下來。

對于搜索引擎來說，要抓取互聯(lián)網(wǎng)上所有的網(wǎng)頁幾乎是不可能的，從目前公布的數(shù)據(jù)來看，容量最大的搜索引擎也不過是抓取了整個(gè)網(wǎng)頁數(shù)量的百分之四十左右。這其中的原因一方面是抓取技術(shù)的瓶頸，無法遍歷所有的網(wǎng)頁，有許多網(wǎng)頁無法從其它網(wǎng)頁的鏈接中找到；另一個(gè)原因是存儲技術(shù)和處理技術(shù)的問題，如果按照每個(gè)頁面的平均大小為20K計(jì)算（包含圖片），100億網(wǎng)頁的容量是100×2000G字節(jié)，即使能夠存儲，下載也存在問題（按照一臺機(jī)器每秒下載20K計(jì)算，需要 340臺機(jī)器不停的下載一年時(shí)間，才能把所有網(wǎng)頁下載完畢）。同時(shí)，由于數(shù)據(jù)量太大，在提供搜索時(shí)也會有效率方面的影響。因此，許多搜索引擎的網(wǎng)絡(luò)蜘蛛只是抓取那些重要的網(wǎng)頁，而在抓取的時(shí)候評價(jià)重要性主要的依據(jù)是某個(gè)網(wǎng)頁的鏈接深度。

在抓取網(wǎng)頁的時(shí)候，網(wǎng)絡(luò)蜘蛛一般有兩種策略：廣度優(yōu)先和深度優(yōu)先。

廣度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會先抓取起始網(wǎng)頁中鏈接的所有網(wǎng)頁，然后再選擇其中的一個(gè)鏈接網(wǎng)頁，繼續(xù)抓取在此網(wǎng)頁中鏈接的所有網(wǎng)頁。這是最常用的方式，因?yàn)檫@個(gè)方法可以讓網(wǎng)絡(luò)蜘蛛并行處理，提高其抓取速度。深度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會從起始頁開始，一個(gè)鏈接一個(gè)鏈接跟蹤下去，處理完這條線路之后再轉(zhuǎn)入下一個(gè)起始頁，繼續(xù)跟蹤鏈接。這個(gè)方法有個(gè)優(yōu)點(diǎn)是網(wǎng)絡(luò)蜘蛛在設(shè)計(jì)的時(shí)候比較容易。兩種策略的區(qū)別，下圖的說明會更加明確。

由于不可能抓取所有的網(wǎng)頁，有些網(wǎng)絡(luò)蜘蛛對一些不太重要的網(wǎng)站，設(shè)置了訪問的層數(shù)。例如，在上圖中，A為起始網(wǎng)頁，屬于0層，B、C、D、E、F屬于第1層，G、H屬于第2層， I屬于第3層。如果網(wǎng)絡(luò)蜘蛛設(shè)置的訪問層數(shù)為2的話，網(wǎng)頁I是不會被訪問到的。這也讓有些網(wǎng)站上一部分網(wǎng)頁能夠在搜索引擎上搜索到，另外一部分不能被搜索到。對于網(wǎng)站設(shè)計(jì)者來說，扁平化的網(wǎng)站結(jié)構(gòu)設(shè)計(jì)有助于搜索引擎抓取其更多的網(wǎng)頁。

網(wǎng)絡(luò)蜘蛛在訪問網(wǎng)站網(wǎng)頁的時(shí)候，經(jīng)常會遇到加密數(shù)據(jù)和網(wǎng)頁權(quán)限的問題，有些網(wǎng)頁是需要會員權(quán)限才能訪問。當(dāng)然，網(wǎng)站的所有者可以通過協(xié)議讓網(wǎng)絡(luò)蜘蛛不去抓?。ㄏ滦」?jié)會介紹），但對于一些出售報(bào)告的網(wǎng)站，他們希望搜索引擎能搜索到他們的報(bào)告，但又不能完全**的讓搜索者查看，這樣就需要給網(wǎng)絡(luò)蜘蛛提供相應(yīng)的用戶名和密碼。網(wǎng)絡(luò)蜘蛛可以通過所給的權(quán)限對這些網(wǎng)頁進(jìn)行網(wǎng)頁抓取，從而提供搜索。而當(dāng)搜索者點(diǎn)擊查看該網(wǎng)頁的時(shí)候，同樣需要搜索者提供相應(yīng)的權(quán)限驗(yàn)證。

網(wǎng)站與網(wǎng)絡(luò)蜘蛛

網(wǎng)絡(luò)蜘蛛需要抓取網(wǎng)頁，不同于一般的訪問，如果控制不好，則會引起網(wǎng)站服務(wù)器負(fù)擔(dān)過重。今年4月，淘寶http://www.taobao.com）就因?yàn)檠呕⑺阉饕娴木W(wǎng)絡(luò)蜘蛛抓取其數(shù)據(jù)引起淘寶網(wǎng)服務(wù)器的不穩(wěn)定。網(wǎng)站是否就無法和網(wǎng)絡(luò)蜘蛛交流呢？其實(shí)不然，有多種方法可以讓網(wǎng)站和網(wǎng)絡(luò)蜘蛛進(jìn)行交流。一方面讓網(wǎng)站管理員了解網(wǎng)絡(luò)蜘蛛都來自哪兒，做了些什么，另一方面也告訴網(wǎng)絡(luò)蜘蛛哪些網(wǎng)頁不應(yīng)該抓取，哪些網(wǎng)頁應(yīng)該更新。/

每個(gè)網(wǎng)絡(luò)蜘蛛都有自己的名字，在抓取網(wǎng)頁的時(shí)候，都會向網(wǎng)站標(biāo)明自己的身份。網(wǎng)絡(luò)蜘蛛在抓取網(wǎng)頁的時(shí)候會發(fā)送一個(gè)請求，這個(gè)請求中就有一個(gè)字段為User－ agent，用于標(biāo)識此網(wǎng)絡(luò)蜘蛛的身份。例如Google網(wǎng)絡(luò)蜘蛛的標(biāo)識為GoogleBot，Baidu網(wǎng)絡(luò)蜘蛛的標(biāo)識為BaiDuSpider， Yahoo網(wǎng)絡(luò)蜘蛛的標(biāo)識為Inktomi Slurp。如果在網(wǎng)站上有訪問日志記錄，網(wǎng)站管理員就能知道，哪些搜索引擎的網(wǎng)絡(luò)蜘蛛過來過，什么時(shí)候過來的，以及讀了多少數(shù)據(jù)等等。如果網(wǎng)站管理員發(fā)現(xiàn)某個(gè)蜘蛛有問題，就通過其標(biāo)識來和其所有者聯(lián)系。下面是博客中http://www.blogchina.com）2004年5月15日的搜索引擎訪問日志：/

網(wǎng)絡(luò)蜘蛛進(jìn)入一個(gè)網(wǎng)站，一般會訪問一個(gè)特殊的文本文件Robots.txt，這個(gè)文件一般放在網(wǎng)站服務(wù)器的根目錄下，http://www.w3.org/robots.txt。網(wǎng)站管理員可以通過robots.txt來定義哪些目錄網(wǎng)絡(luò)蜘蛛不能訪問，或者哪些目錄對于某些特定的網(wǎng)絡(luò)蜘蛛不能訪問。例如有些網(wǎng)站的可執(zhí)行文件目錄和臨時(shí)文件目錄不希望被搜索引擎搜索到，那么網(wǎng)站管理員就可以把這些目錄定義為拒絕訪問目錄。Robots.txt語法很簡單，例如如果對目錄沒有任何限制，可以用以下兩行來描述：

User-agent: *
Disallow:

當(dāng)然，Robots.txt只是一個(gè)協(xié)議，如果網(wǎng)絡(luò)蜘蛛的設(shè)計(jì)者不遵循這個(gè)協(xié)議，網(wǎng)站管理員也無法阻止網(wǎng)絡(luò)蜘蛛對于某些頁面的訪問，但一般的網(wǎng)絡(luò)蜘蛛都會遵循這些協(xié)議，而且網(wǎng)站管理員還可以通過其它方式來拒絕網(wǎng)絡(luò)蜘蛛對某些網(wǎng)頁的抓取。

網(wǎng)絡(luò)蜘蛛在下載網(wǎng)頁的時(shí)候，會去識別網(wǎng)頁的HTML代碼，在其代碼的部分，會有META標(biāo)識。通過這些標(biāo)識，可以告訴網(wǎng)絡(luò)蜘蛛本網(wǎng)頁是否需要被抓取，還可以告訴網(wǎng)絡(luò)蜘蛛本網(wǎng)頁中的鏈接是否需要被繼續(xù)跟蹤。例如：表示本網(wǎng)頁不需要被抓取，但是網(wǎng)頁內(nèi)的鏈接需要被跟蹤。

關(guān)于Robots.txt的語法和META Tag語法，有興趣的讀者查看文獻(xiàn)[4]

現(xiàn)在一般的網(wǎng)站都希望搜索引擎能更全面的抓取自己網(wǎng)站的網(wǎng)頁，因?yàn)檫@樣可以讓更多的訪問者能通過搜索引擎找到此網(wǎng)站。為了讓本網(wǎng)站的網(wǎng)頁更全面被抓取到，網(wǎng)站管理員可以建立一個(gè)網(wǎng)站地圖，即Site Map。許多網(wǎng)絡(luò)蜘蛛會把sitemap.htm文件作為一個(gè)網(wǎng)站網(wǎng)頁爬取的入口，網(wǎng)站管理員可以把網(wǎng)站內(nèi)部所有網(wǎng)頁的鏈接放在這個(gè)文件里面，那么網(wǎng)絡(luò)蜘蛛可以很方便的把整個(gè)網(wǎng)站抓取下來，避免遺漏某些網(wǎng)頁，也會減小對網(wǎng)站服務(wù)器的負(fù)擔(dān)

內(nèi)容提取

搜索引擎建立網(wǎng)頁索引，處理的對象是文本文件。對于網(wǎng)絡(luò)蜘蛛來說，抓取下來網(wǎng)頁包括各種格式，包括html、圖片、doc、pdf、多媒體、動(dòng)態(tài)網(wǎng)頁及其它格式等。這些文件抓取下來后，需要把這些文件中的文本信息提取出來。準(zhǔn)確提取這些文檔的信息，一方面對搜索引擎的搜索準(zhǔn)確性有重要作用，另一方面對于網(wǎng)絡(luò)蜘蛛正確跟蹤其它鏈接有一定影響。

對于doc、pdf等文檔，這種由專業(yè)廠商提供的軟件生成的文檔，廠商都會提供相應(yīng)的文本提取接口。網(wǎng)絡(luò)蜘蛛只需要調(diào)用這些插件的接口，就可以輕松的提取文檔中的文本信息和文件其它相關(guān)的信息。

HTML等文檔不一樣，HTML有一套自己的語法，通過不同的命令標(biāo)識符來表示不同的字體、顏色、位置等版式，如：、、等，提取文本信息時(shí)需要把這些標(biāo)識符都過濾掉。過濾標(biāo)識符并非難事，因?yàn)檫@些標(biāo)識符都有一定的規(guī)則，只要按照不同的標(biāo)識符取得相應(yīng)的信息即可。但在識別這些信息的時(shí)候，需要同步記錄許多版式信息，例如文字的字體大小、是否是標(biāo)題、是否是加粗顯示、是否是頁面的關(guān)鍵詞等，這些信息有助于計(jì)算單詞在網(wǎng)頁中的重要程度。同時(shí)，對于HTML網(wǎng)頁來說，除了標(biāo)題和正文以外，會有許多廣告鏈接以及公共的頻道鏈接，這些鏈接和文本正文一點(diǎn)關(guān)系也沒有，在提取網(wǎng)頁內(nèi)容的時(shí)候，也需要過濾這些無用的鏈接。例如某個(gè)網(wǎng)站有“產(chǎn)品介紹”頻道，因?yàn)閷?dǎo)航條在網(wǎng)站內(nèi)每個(gè)網(wǎng)頁都有，若不過濾導(dǎo)航條鏈接，在搜索“產(chǎn)品介紹”的時(shí)候，則網(wǎng)站內(nèi)每個(gè)網(wǎng)頁都會搜索到，無疑會帶來大量垃圾信息。過濾這些無效鏈接需要統(tǒng)計(jì)大量的網(wǎng)頁結(jié)構(gòu)規(guī)律，抽取一些共性，統(tǒng)一過濾；對于一些重要而結(jié)果特殊的網(wǎng)站，還需要個(gè)別處理。這就需要網(wǎng)絡(luò)蜘蛛的設(shè)計(jì)有一定的擴(kuò)展性。

對于多媒體、圖片等文件，一般是通過鏈接的錨文本（即，鏈接文本）和相關(guān)的文件注釋來判斷這些文件的內(nèi)容。例如有一個(gè)鏈接文字為“張曼玉照片”，其鏈接指向一張bmp格式的圖片，那么網(wǎng)絡(luò)蜘蛛就知道這張圖片的內(nèi)容是“張曼玉的照片”。這樣，在搜索“張曼玉”和“照片”的時(shí)候都能讓搜索引擎找到這張圖片。另外，許多多媒體文件中有文件屬性，考慮這些屬性也可以更好的了解文件的內(nèi)容。

動(dòng)態(tài)網(wǎng)頁一直是網(wǎng)絡(luò)蜘蛛面臨的難題。所謂動(dòng)態(tài)網(wǎng)頁，是相對于靜態(tài)網(wǎng)頁而言，是由程序自動(dòng)生成的頁面，這樣的好處是可以快速統(tǒng)一更改網(wǎng)頁風(fēng)格，也可以減少網(wǎng)頁所占服務(wù)器的空間，但同樣給網(wǎng)絡(luò)蜘蛛的抓取帶來一些麻煩。由于開發(fā)語言不斷的增多，動(dòng)態(tài)網(wǎng)頁的類型也越來越多，如：asp、jsp、php等。這些類型的網(wǎng)頁對于網(wǎng)絡(luò)蜘蛛來說，可能還稍微容易一些。網(wǎng)絡(luò)蜘蛛比較難于處理的是一些腳本語言（如VBScript和javascript）生成的網(wǎng)頁，如果要完善的處理好這些網(wǎng)頁，網(wǎng)絡(luò)蜘蛛需要有自己的腳本解釋程序。對于許多數(shù)據(jù)是放在數(shù)據(jù)庫的網(wǎng)站，需要通過本網(wǎng)站的數(shù)據(jù)庫搜索才能獲得信息，這些給網(wǎng)絡(luò)蜘蛛的抓取帶來很大的困難。對于這類網(wǎng)站，如果網(wǎng)站設(shè)計(jì)者希望這些數(shù)據(jù)能被搜索引擎搜索，則需要提供一種可以遍歷整個(gè)數(shù)據(jù)庫內(nèi)容的方法。

對于網(wǎng)頁內(nèi)容的提取，一直是網(wǎng)絡(luò)蜘蛛中重要的技術(shù)。整個(gè)系統(tǒng)一般采用插件的形式，通過一個(gè)插件管理服務(wù)程序，遇到不同格式的網(wǎng)頁采用不同的插件處理。這種方式的好處在于擴(kuò)充性好，以后每發(fā)現(xiàn)一種新的類型，就可以把其處理方式做成一個(gè)插件補(bǔ)充到插件管理服務(wù)程序之中。

更新周期

由于網(wǎng)站的內(nèi)容經(jīng)常在變化，因此網(wǎng)絡(luò)蜘蛛也需不斷的更新其抓取網(wǎng)頁的內(nèi)容，這就需要網(wǎng)絡(luò)蜘蛛按照一定的周期去掃描網(wǎng)站，查看哪些頁面是需要更新的頁面，哪些頁面是新增頁面，哪些頁面是已經(jīng)過期的死鏈接。

搜索引擎的更新周期對搜索引擎搜索的查全率有很大影響。如果更新周期太長，則總會有一部分新生成的網(wǎng)頁搜索不到；周期過短，技術(shù)實(shí)現(xiàn)會有一定難度，而且會對帶寬、服務(wù)器的資源都有浪費(fèi)。搜索引擎的網(wǎng)絡(luò)蜘蛛并不是所有的網(wǎng)站都采用同一個(gè)周期進(jìn)行更新，對于一些重要的更新量大的網(wǎng)站，更新的周期短，如有些新聞網(wǎng)站，幾個(gè)小時(shí)就更新一次；相反對于一些不重要的網(wǎng)站，更新的周期就長，可能一兩個(gè)月才更新一次。

一般來說，網(wǎng)絡(luò)蜘蛛在更新網(wǎng)站內(nèi)容的時(shí)候，不用把網(wǎng)站網(wǎng)頁重新抓取一遍，對于大部分的網(wǎng)頁，只需要判斷網(wǎng)頁的屬性（主要是日期），把得到的屬性和上次抓取的屬性相比較，如果一樣則不用更新。

二、Robots

其中的屬性說明如下：

設(shè)定為all：文件將被檢索，且頁面上的鏈接可以被查詢；

設(shè)定為none：文件將不被檢索，且頁面上的鏈接不可以被查詢；

設(shè)定為index：文件將被檢索；

設(shè)定為follow：頁面上的鏈接可以被查詢；
設(shè)定為noindex：文件將不被檢索，但頁面上的鏈接可以被查詢；

設(shè)定為nofollow：文件將不被檢索，頁面上的鏈接可以被查詢。

-----------------------------------
我們知道，搜索引擎都有自己的“搜索機(jī)器人”（ROBOTS），并通過這些ROBOTS在網(wǎng)絡(luò)上沿著網(wǎng)頁上的鏈接（一般是http和src鏈接）不斷抓取資料建立自己的數(shù)據(jù)庫。

對于網(wǎng)站管理者和內(nèi)容提供者來說，有時(shí)候會有一些站點(diǎn)內(nèi)容，不希望被ROBOTS抓取而公開。為了解決這個(gè)問題，ROBOTS開發(fā)界提供了兩個(gè)辦法：一個(gè)是robots.txt，另一個(gè)是The Robots META標(biāo)簽。

一、robots.txt

1、什么是robots.txt？

robots.txt是一個(gè)純文本文件，通過在這個(gè)文件中聲明該網(wǎng)站中不想被robots訪問的部分，這樣，該網(wǎng)站的部分或全部內(nèi)容就可以不被搜索引擎收錄了，或者指定搜索引擎只收錄指定的內(nèi)容。

當(dāng)一個(gè)搜索機(jī)器人訪問一個(gè)站點(diǎn)時(shí)，它會首先檢查該站點(diǎn)根目錄下是否存在robots.txt，如果找到，搜索機(jī)器人就會按照該文件中的內(nèi)容來確定訪問的范圍，如果該文件不存在，那么搜索機(jī)器人就沿著鏈接抓取。

robots.txt必須放置在一個(gè)站點(diǎn)的根目錄下，而且文件名必須全部小寫。

網(wǎng)站 URL
相應(yīng)的 robots.txt的 URL

http://www.w3.org/
http://www.w3.org/ robots.txt

http://www.w3.org:80/
http://www.w3.org:80/ robots.txt

http://www.w3.org:1234/
http://www.w3.org:1234/ robots.txt

http://w3.org/
http://w3.org/ robots.txt

2、 robots.txt的語法

"robots.txt"文件包含一條或更多的記錄，這些記錄通過空行分開（以CR,CR/NL, or NL作為結(jié)束符），每一條記錄的格式如下所示：

"<field>:<optionalspace><value><optionalspace>"。

在該文件中可以使用#進(jìn)行注解，具體使用方法和UNIX中的慣例一樣。該文件中的記錄通常以一行或多行User-agent開始，后面加上若干Disallow行,詳細(xì)情況如下：

User-agent:

該項(xiàng)的值用于描述搜索引擎robot的名字，在"robots.txt"文件中，如果有多條User-agent記錄說明有多個(gè)robot會受到該協(xié)議的限制，對該文件來說，至少要有一條User-agent記錄。如果該項(xiàng)的值設(shè)為*，則該協(xié)議對任何機(jī)器人均有效，在"robots.txt"文件中， "User-agent：*"這樣的記錄只能有一條。

Disallow :

該項(xiàng)的值用于描述不希望被訪問到的一個(gè)URL，這個(gè)URL可以是一條完整的路徑，也可以是部分的，任何以Disallow 開頭的URL均不會被robot訪問到。例如"Disallow: /help"對/help.htm和/help/index.html都不允許搜索引擎訪問，而"Disallow: /help/"則允許robot訪問/help.html，而不能訪問/help/index.html。

任何一條Disallow記錄為空，說明該網(wǎng)站的所有部分都允許被訪問，在"/robots.txt"文件中，至少要有一條Disallow記錄。如果 "/robots.txt"是一個(gè)空文件，則對于所有的搜索引擎robot，該網(wǎng)站都是開放的。

下面是一些robots.txt基本的用法：

禁止所有搜索引擎訪問網(wǎng)站的任何部分：

User-agent: *
Disallow: /

允許所有的robot訪問

User-agent: *
Disallow:

或者也可以建一個(gè)空文件 "/robots.txt" file

禁止所有搜索引擎訪問網(wǎng)站的幾個(gè)部分（下例中的cgi-bin、tmp、private目錄）

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/

禁止某個(gè)搜索引擎的訪問（下例中的BadBot）

User-agent: BadBot
Disallow: /

只允許某個(gè)搜索引擎的訪問（下例中的WebCrawler）

User-agent: WebCrawler
Disallow:

User-agent: *
Disallow: /

3、常見搜索引擎機(jī)器人Robots名字

名稱搜索引擎

Baiduspider http://www.baidu.com

Scooter http://www.altavista.com

ia_archiver http://www.alexa.com

Googlebot http://www.google.com

FAST-WebCrawler http://www.alltheweb.com

Slurp http://www.inktomi.com

MSNBOT http://search.msn.com

4、 robots.txt舉例

下面是一些著名站點(diǎn)的robots.txt：

http://www.cnn.com/robots.txt

http://www.google.com /robots.txt

http://www.ibm.com/robots.txt
http://www.sun.com/robots.txt

http://www.eachnet.com/robots.txt

5、常見robots.txt錯(cuò)誤

顛倒了順序：
錯(cuò)誤寫成

User-agent: *
Disallow: GoogleBot

正確的應(yīng)該是：

User-agent: GoogleBot
Disallow: *

把多個(gè)禁止命令放在一行中：
例如，錯(cuò)誤地寫成

Disallow: /css/ /cgi-bin/ /images/

正確的應(yīng)該是

Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/

行前有大量空格
例如寫成

Disallow: /cgi-bin/

盡管在標(biāo)準(zhǔn)沒有談到這個(gè)，但是這種方式很容易出問題。

404重定向到另外一個(gè)頁面：
當(dāng)Robot 訪問很多沒有設(shè)置robots.txt文件的站點(diǎn)時(shí)，會被自動(dòng)404重定向到另外一個(gè)Html頁面。這時(shí)Robot常常會以處理robots.txt文件的方式處理這個(gè)Html頁面文件。雖然一般這樣沒有什么問題，但是最好能放一個(gè)空白的robots.txt文件在站點(diǎn)根目錄下。

采用大寫。例如

USER-AGENT: EXCITE
DISALLOW:

雖然標(biāo)準(zhǔn)是沒有大小寫的，但是目錄和文件名應(yīng)該小寫：

user-agent:GoogleBot
disallow:

語法中只有Disallow，沒有Allow！
錯(cuò)誤的寫法是：

User-agent: Baiduspider
Disallow: /john/
allow: /jane/

忘記了斜杠/
錯(cuò)誤的寫做：

User-agent: Baiduspider
Disallow: css

正確的應(yīng)該是

User-agent: Baiduspider
Disallow: /css/

下面一個(gè)小工具專門檢查robots.txt文件的有效性：

http://www.searchengineworld.com/cgi-bin/robotcheck.cgi

二、 Robots META標(biāo)簽

1、什么是Robots META標(biāo)簽

>Robots.txt文件主要是限制整個(gè)站點(diǎn)或者目錄的搜索引擎訪問情況，而Robots META標(biāo)簽則主要是針對一個(gè)個(gè)具體的頁面。和其他的META標(biāo)簽（如使用的語言、頁面的描述、關(guān)鍵詞等）一樣，Robots META標(biāo)簽也是放在頁面的<head></head>中，專門用來告訴搜索引擎ROBOTS如何抓取該頁的內(nèi)容。具體的形式類似（見黑體部分）：

<html>

<head>

</head>

<body>

…

</body>

</html>

2、Robots META標(biāo)簽的寫法：

Robots META標(biāo)簽中沒有大小寫之分，name=”Robots”表示所有的搜索引擎，可以針對某個(gè)具體搜索引擎寫為name=”BaiduSpider”。 content部分有四個(gè)指令選項(xiàng)：index、noindex、follow、nofollow，指令間以“,”分隔。

INDEX 指令告訴搜索機(jī)器人抓取該頁面；

FOLLOW 指令表示搜索機(jī)器人可以沿著該頁面上的鏈接繼續(xù)抓取下去；

Robots Meta標(biāo)簽的缺省值是INDEX和FOLLOW，只有inktomi除外，對于它，缺省值是INDEX,NOFOLLOW。

這樣，一共有四種組合：

其中

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以寫成

<META NAME="ROBOTS" CONTENT="ALL">；

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以寫成

需要注意的是：上述的robots.txt和Robots META標(biāo)簽限制搜索引擎機(jī)器人（ROBOTS）抓取站點(diǎn)內(nèi)容的辦法只是一種規(guī)則，需要搜饕?婊?魅說吶浜喜判校?⒉皇敲扛鯮OBOTS都遵守的。

目前看來，絕大多數(shù)的搜索引擎機(jī)器人都遵守robots.txt的規(guī)則，而對于Robots META標(biāo)簽，目前支持的并不多，但是正在逐漸增加，如著名搜索引擎GOOGLE就完全支持，而且GOOGLE還增加了一個(gè)指令“archive”，可以限制GOOGLE是否保留網(wǎng)頁快照。例如：

表示抓取該站點(diǎn)中頁面并沿著頁面中鏈接抓取，但是不在GOOLGE上保留該頁面的網(wǎng)頁快照.

答：可能的原因如下：
您可能還沒向百度提交您的網(wǎng)站；
您已經(jīng)登錄了網(wǎng)站，但由于時(shí)間短，百度還未收錄；
如果百度檢測到您的網(wǎng)站無法訪問，您的站點(diǎn)就有可能被百度暫時(shí)刪除；
如果您的網(wǎng)站內(nèi)容有不符合中國法律的地方，則無法被百度收錄；
如果您的站點(diǎn)頁面結(jié)構(gòu)復(fù)雜，則可能無法被百度收錄（詳見如何使您的站點(diǎn)被百度有效收錄）；
如果您的網(wǎng)站被百度判別為垃圾站點(diǎn)，則可能被百度拒絕收錄或者隨時(shí)刪除（詳見百度關(guān)于垃圾網(wǎng)站的處理）。
如果您的網(wǎng)站的首頁在百度搜索不到，則可能是由于您的網(wǎng)站不穩(wěn)定使首頁被判別為死鏈接導(dǎo)致丟失。您的網(wǎng)站穩(wěn)定后，首頁會重新在百度中被搜索到。百度并不允諾能收錄所有站點(diǎn)。如果有上述回答無法說明的問題，也可以發(fā)信到webmaster@baidu.com詢問。答：百度會定期自動(dòng)更新所有網(wǎng)頁（包括去掉死鏈接，更新域名變化，更新內(nèi)容變化）。因此請耐心等一段時(shí)間，您的網(wǎng)站上的變化就會被百度察覺并修正。答：這是絕對不可能的。
百度的網(wǎng)頁搜索策略的唯一標(biāo)準(zhǔn)，在于用戶的搜索體驗(yàn)。競價(jià)排名和網(wǎng)頁搜索自然排名，是完全獨(dú)立的兩個(gè)技術(shù)服務(wù)系統(tǒng)。一個(gè)網(wǎng)站是否是百度競價(jià)排名客戶，對于網(wǎng)頁搜索自然排序無任何影響。
如果您收到任何類似威脅的說辭，請您直接發(fā)郵件至ask@baidu.com舉報(bào)。答：通常情況下，這是正常的現(xiàn)象。因?yàn)椴煌阉饕娴乃惴?，都是不同的?/font>答：通常情況下，這是正常的變化。一般來說，有三類原因?qū)е屡判虬l(fā)生變化：
A. 特定關(guān)鍵詞所涉及的您的網(wǎng)頁發(fā)生了變化
B. 特定關(guān)鍵詞所涉及的其他網(wǎng)頁發(fā)生了變化
C. 百度的排序算法發(fā)生了變化

• 傳送網(wǎng)助力網(wǎng)絡(luò)IP化	• 301重定向
• 讓百度快速收錄的多種方法	• 巧妙讓U盤禁止拷貝
• 使用U盤的一些技巧	• 使用U盤時(shí)遇到雙擊打不開的情況
• 谷歌Google PR值等級怎樣提高	• SEO新時(shí)代互聯(lián)網(wǎng)中的一門藝術(shù)和技術(shù)-即搜索引擎
• SEO的基本原理	• 網(wǎng)站優(yōu)化與搜索引擎排名SEO的區(qū)別

白山有实装饰材料公司

會員商務(wù)中心

免費(fèi)發(fā)布信息

如何讓百度收錄你的網(wǎng)站大全

白山有实装饰材料公司

會員商務(wù)中心

免費(fèi)發(fā)布信息

如何讓百度收錄你的網(wǎng)站 大全

如何讓百度收錄你的網(wǎng)站大全