如何讓我的網(wǎng)站被百度收錄?
百度會收錄符合用戶搜索體驗(yàn)的網(wǎng)站和網(wǎng)頁。
為促使百度Spider更快的發(fā)現(xiàn)您的站點(diǎn),您也可以向我們提交一下您的網(wǎng)站的入口網(wǎng)址。提交地址是:http://www.baidu.com/search/url_submit.html
百度的網(wǎng)頁收錄機(jī)制,只和網(wǎng)頁價(jià)值有關(guān),與競價(jià)排名等商業(yè)因素沒有任何關(guān)聯(lián)。
如何讓我的網(wǎng)頁不被百度收錄?
百度嚴(yán)格遵循搜索引擎Robots協(xié)議(詳細(xì)內(nèi)容,參見http://www.robotstxt.org/)。
您可以寫一個(gè)Robots文件以限制您的網(wǎng)站全部網(wǎng)頁或者部分目錄下網(wǎng)頁不被百度收錄。具體寫法,參見:如何撰寫Robots文件。
如果您的網(wǎng)站是在被百度收錄之后再設(shè)置Robots文件,則Robots文件通常在兩周內(nèi)生效,被文件限制的內(nèi)容,將從百度搜索結(jié)果中移除。
如果您的拒絕被收錄需求非常急迫,也可以發(fā)郵件給webmaster@baidu.com請求處理。
為什么我的網(wǎng)站內(nèi)一些不設(shè)鏈接的私密性網(wǎng)頁,甚至是需要訪問權(quán)限的網(wǎng)頁,也會被百度收錄? 百度Spider對網(wǎng)頁的抓取,是通過網(wǎng)頁與網(wǎng)頁之間的鏈接實(shí)現(xiàn)的。
網(wǎng)頁之間的鏈接類型,除了站點(diǎn)內(nèi)部的頁面鏈接之外,還有不同網(wǎng)站之間的互相鏈接。因此,某些網(wǎng)頁即便通過您的網(wǎng)站內(nèi)部鏈接無法訪問到,但是,如果別人的網(wǎng)站上有指向這些頁面的鏈接,那么這些頁面還是會被搜索引擎所收錄。
百度Spider的訪問權(quán)限,和普通用戶是一樣的。因此,普通用戶沒有權(quán)限訪問的內(nèi)容,Spider也沒有權(quán)限訪問。之所以看上去某些訪問權(quán)限限制內(nèi)容被百度收錄,原因有兩點(diǎn):
A. 該內(nèi)容在Spider訪問時(shí)是沒有權(quán)限限制的,但抓取之后,內(nèi)容的權(quán)限發(fā)生了變化
B. 該內(nèi)容有權(quán)限限制,但是由于網(wǎng)站安全漏洞問題,導(dǎo)致用戶可以通過某些特殊路徑直接訪問。而一旦這樣的路徑被公布在互聯(lián)網(wǎng)上,則Spider就會循著這條路徑抓出受限內(nèi)容
如果您不希望這些私密性內(nèi)容被百度收錄,一方面可以通過Robots協(xié)議加以限制;另一方面,也可以聯(lián)系webmaster@baidu.com進(jìn)行解決。
我的網(wǎng)頁為什么會從百度搜索結(jié)果中消失?
百度并不允諾所有網(wǎng)頁都可從百度搜索到。
如果您的網(wǎng)頁長時(shí)間無法從百度搜索到,或者突然從百度的搜索結(jié)果中消失,可能的原因有:
A. 您的網(wǎng)站所在服務(wù)器不穩(wěn)定,被百度暫時(shí)性去除;穩(wěn)定之后,問題會得到解決
B. 您的網(wǎng)頁內(nèi)容有不符合國家法律和法規(guī)規(guī)定的地方
C. 您的網(wǎng)頁不符合用戶的搜索體驗(yàn)
D. 其他技術(shù)性問題
以下的說法是錯(cuò)誤的和毫無根據(jù)的:
A. 參與了百度競價(jià)排名但未續(xù)費(fèi),會從百度搜索結(jié)果中消失
B. 參與了其他搜索引擎的廣告項(xiàng)目,會從百度搜索結(jié)果中消失
C. 與百度旗下網(wǎng)站產(chǎn)生了競爭,會從百度搜索結(jié)果中消失
D. 從百度獲得的流量太大,會從百度搜索結(jié)果中消失
什么樣的網(wǎng)頁會被百度認(rèn)為是沒有價(jià)值而不被百度收錄或者從現(xiàn)有搜索結(jié)果中消失?
百度只收錄百度認(rèn)為有價(jià)值的網(wǎng)頁。任何網(wǎng)頁在搜索結(jié)果中的去留變化,都是機(jī)器算法計(jì)算和調(diào)整的結(jié)果。下述類型的網(wǎng)頁,百度明確不會歡迎:
A. 網(wǎng)頁做了很多針對搜索引擎而非用戶的處理,使得用戶從搜索結(jié)果中看到的內(nèi)容與頁面實(shí)際內(nèi)容完全不同,或者使得網(wǎng)頁在搜索結(jié)果中獲得了不恰當(dāng)?shù)呐琶瑥亩鴮?dǎo)致用戶產(chǎn)生受欺騙感覺。
如果您的網(wǎng)站中有較多這種頁面,那么這可能會使您的整個(gè)網(wǎng)站的頁面收錄和排序受到影響。
B. 網(wǎng)頁是復(fù)制自互聯(lián)網(wǎng)上的高度重復(fù)性的內(nèi)容。
C. 網(wǎng)頁中有不符合中國法律和法規(guī)的內(nèi)容。
如果我的網(wǎng)站因?yàn)樽鞅仔袨槎鴱陌俣人阉鹘Y(jié)果中消失,是否還有被重新收錄可能?
凡是作出完全修正的網(wǎng)站,是有機(jī)會被百度重新收錄的。百度會定期對被處理站點(diǎn)進(jìn)行自動(dòng)評估,并對符合條件者重新收錄。
需要說明的是,百度技術(shù)和產(chǎn)品部門只對用戶搜索體驗(yàn)負(fù)責(zé)。以下的說法都是錯(cuò)誤的和毫無根據(jù)的:
A. 我成為百度的廣告客戶或者聯(lián)盟網(wǎng)站,就可以重新被收錄
B. 我給百度若干鈔票,就可以重新被收錄
C. 我認(rèn)識百度的某某人,就可以重新被收錄
我的網(wǎng)站更新了,可是百度收錄的內(nèi)容還沒更新怎么辦?
百度會定期自動(dòng)更新所有網(wǎng)頁(包括去掉死鏈接,更新域名變化,更新內(nèi)容變化)。因此請耐心等一段時(shí)間,您的網(wǎng)站上的變化就會被百度察覺并修正
網(wǎng)頁排序問題
我的網(wǎng)站首頁被收錄了,但搜索網(wǎng)站名稱卻排不到第一個(gè),怎么辦?
答:排序算法非常復(fù)雜。我們的目標(biāo),即在于通過算法改進(jìn),讓用戶以最小的成本,搜索到所需要的信息。這個(gè)過程中還是會有各種各樣不盡如人意的地方。我們會非常歡迎您把您遇到的困惑和問題,反饋給我們。我們的工程師,對每一個(gè)問題都會有細(xì)致的跟蹤和分析,以期將之最終解決。百度搜索結(jié)果頁下方的搜索框右側(cè),有“與百度對話”鏈接,您可以在那里提交您的問題,以協(xié)助我們改進(jìn)。
我們一直在改進(jìn)搜索算法,以使得百度的搜索結(jié)果更加符合用戶的搜索需求。
搜索某關(guān)鍵詞,我的網(wǎng)頁在百度搜索結(jié)果的排序短期內(nèi)變化劇烈,這正常嗎?
搜索某關(guān)鍵詞,我的網(wǎng)頁在百度的排序位置,和在其他搜索引擎的排序位置,差異非常大,這正常嗎?
我請一些“SEO”來為我的網(wǎng)站或者網(wǎng)頁做優(yōu)化,會有什么后果?
答:合理的搜索引擎優(yōu)化,參見百度的“給站長的建站指南”。
外界很多打著SEO旗號的公司或者個(gè)人,也許能為您的網(wǎng)站帶來短期的排序收益,但是,這會使您將面臨更大損失的風(fēng)險(xiǎn)。在您把網(wǎng)站資源交托給別人之后,很多SEO甚至?xí)媚馁Y源進(jìn)行他們個(gè)人的運(yùn)營項(xiàng)目,最終導(dǎo)致您的利益受損。
不要因?yàn)镾EO們以下的說法,而冒險(xiǎn)將自己的網(wǎng)站托付給他們隨意處置:
A. 我和百度的人很熟,想怎么干就怎么干,沒風(fēng)險(xiǎn)
B. 我是搜索引擎專家,對百度的算法一清二楚,玩玩火也不要緊
C. 我把xxx、yyy、zzz這些關(guān)鍵詞都搞到第一了,所以我是牛人啊您也可以向百度投訴搜索中遇到的垃圾網(wǎng)站或者網(wǎng)頁,幫助百度保持搜索結(jié)果的質(zhì)量。 商業(yè)客戶相關(guān)的問題
我是百度的競價(jià)排名客戶,如果我不續(xù)費(fèi),百度是否會因此對我進(jìn)行懲罰?
我的網(wǎng)站因?yàn)樽鞅锥鴱陌俣认Я?,是否可以通過成為百度競價(jià)排名客戶、廣告客戶或者聯(lián)盟站點(diǎn)的方式重新被百度收錄?
答:不可以。我們對網(wǎng)站的收錄,唯一標(biāo)準(zhǔn)是用戶搜索體驗(yàn)。被懲罰網(wǎng)站重新被百度收錄的說明,見網(wǎng)頁收錄問題6中的敘述。
我的網(wǎng)站加入百度競價(jià)排名、百度聯(lián)盟,或者成為百度的廣告客戶,是否能在網(wǎng)頁的收錄和排序上獲得特別的照顧?
答:不可能。給站長的建站建議
只有當(dāng)搜索引擎、站長、互聯(lián)網(wǎng)用戶之間,能有一種默契的利益均衡,這個(gè)行業(yè)才會順暢發(fā)展。竭澤而漁式的網(wǎng)站建設(shè),只會使您與用戶、與搜索引擎越來越遠(yuǎn)。搜索引擎與站長之間,宜和諧發(fā)展,共同擁抱美好的愿景。
以下是我們給出的一些建站建議:
站點(diǎn)結(jié)構(gòu)宜簡潔明晰
答:不要讓你的用戶一進(jìn)你的站點(diǎn)就因?yàn)榧姺笔忞s而不知所措。從某種意義上來說,百度的Spider也是一個(gè)相對特殊的訪客而已。每一個(gè)子域名,每一個(gè)目錄,都最好有明確的內(nèi)容區(qū)隔,避免不同子域名或者目錄對相同內(nèi)容的互相串用。
創(chuàng)造屬于您自己的獨(dú)特內(nèi)容
答:百度更喜歡獨(dú)特的原創(chuàng)內(nèi)容。所以,如果您的站點(diǎn)內(nèi)容只是從各處采集復(fù)制而成,很可能不會被百度收錄。
保持經(jīng)常的更新
答:經(jīng)常的更新,蜘蛛程序就會經(jīng)常的光顧;而長期不更新的網(wǎng)站,蜘蛛到訪會日趨減少。
謹(jǐn)慎設(shè)置您的友情鏈接
答:如果您網(wǎng)站上的友情鏈接,多是指向一些垃圾站點(diǎn),那么您的站點(diǎn)可能會受到一些負(fù)面影響。參與各類以SEO為目的的自助鏈接活動(dòng),很可能“過猶不及”。
把自己的網(wǎng)站做成常青樹
答:如果沒有搜索引擎,你的網(wǎng)站仍然訪客盈門,那么你的網(wǎng)站就屬于“常青樹”了。面向用戶做網(wǎng)站,而不要面向搜索引擎做網(wǎng)站,這是成為常青樹網(wǎng)站的真諦。
讓百度重新收錄的方法:
1,是收費(fèi)我想這個(gè)大家都知道了.
2,將網(wǎng)站的域名綁定到,例如可以綁定到一級域名的博客,或網(wǎng)頁,這樣重新提交百度就可以收錄了.http://www.baidu.com/search/url_submit.html
3,將網(wǎng)站的域名作跳轉(zhuǎn),跳轉(zhuǎn)到百度,新浪,163,sohu等門戶網(wǎng)站,重新提交后就可以了,http://www.baidu.com/search/url_submit.html
4,注冊百度的聯(lián)盟,加入百度的代碼,在重新提交.
急不來的
通常的步驟是:
- 提交到百度,正常情況是1個(gè)月后將你的網(wǎng)站添加到搜索引擎的index
- 整理你的頁面,讓你的頁面變得search engine friend,你可以到這個(gè)網(wǎng)站去看看http://www.53371.com/
- 到處去做你的網(wǎng)站的連接(提高搜索引擎訪問你的網(wǎng)站的速度)
如何讓百度收錄百度給站長的建站指南
如何使您的站點(diǎn)被百度有效收錄
給每個(gè)網(wǎng)頁加上與正文相關(guān)的標(biāo)題。如果是網(wǎng)站首頁,則標(biāo)題建議使用站點(diǎn)名稱或者站點(diǎn)代表的公司/機(jī)構(gòu)名稱;其余內(nèi)容頁面,標(biāo)題建議做成正文內(nèi)容的提煉和概括。這可以讓您的潛在用戶快速的訪問到您的頁面。
請不要在標(biāo)題中堆積與正文無關(guān)的關(guān)鍵詞。
確保每個(gè)頁面都可以通過一個(gè)文本鏈接到達(dá)。百度無法識別Flash中的鏈接,這些單元上的鏈接所指向的網(wǎng)頁,百度就無法收錄了。
頁面間的鏈接,盡量使用平實(shí)的超鏈,而不是重定向跳轉(zhuǎn)。使用自動(dòng)跳轉(zhuǎn)的頁面,可能會被百度丟棄。
盡量少使用frame和iframe框架結(jié)構(gòu)。
如果是動(dòng)態(tài)網(wǎng)頁,請控制一下參數(shù)的數(shù)量和URL的長度。百度更偏好收錄靜態(tài)網(wǎng)頁。
在同一個(gè)頁面上,不要有過多鏈接。在那些站點(diǎn)地圖類型的頁面上,請把重要的內(nèi)容給出鏈接,而不是所有細(xì)枝末節(jié)。鏈接太多,也可能會導(dǎo)致無法被百度收錄。
什么樣的站點(diǎn)會受到百度歡迎
站點(diǎn)應(yīng)該是面向用戶的,而不是面向搜索引擎的。一個(gè)受到用戶歡迎的站點(diǎn),最終也會受到搜索引擎歡迎;反過來,如果您的站點(diǎn)做了很多針對百度的優(yōu)化,但卻給用戶帶來大量負(fù)面體驗(yàn),那么,您的站點(diǎn)最終可能還是會受到百度的冷落。
百度更喜歡有獨(dú)特內(nèi)容的網(wǎng)頁,而不是簡單抄襲和重復(fù)互聯(lián)網(wǎng)上已有內(nèi)容的網(wǎng)頁。對于已經(jīng)被重復(fù)了千百遍的內(nèi)容,百度可能會不予收錄。 請謹(jǐn)慎使用您的站點(diǎn)鏈接。與一些垃圾站點(diǎn)做友情鏈接,很可能會使您的網(wǎng)站受到負(fù)面影響。因此,當(dāng)有人很熱情的要求您為他的站點(diǎn)提供友情鏈接時(shí),請審視以下兩點(diǎn):
一,對方的站點(diǎn)在他那個(gè)領(lǐng)域是否是高質(zhì)量的?站長間所謂的流量以及排名,很多都是用欺騙手段獲取的,無法保持長久。
二,對方要求的鏈接名稱是否和對方網(wǎng)站地位相稱?用一個(gè)涵蓋范圍廣泛的關(guān)鍵詞來做一個(gè)內(nèi)容非常局限的網(wǎng)站的鏈接名稱,很可能會使您的網(wǎng)站受到負(fù)面影響。
經(jīng)常保持內(nèi)容更新。經(jīng)常有新內(nèi)容產(chǎn)生的站點(diǎn),百度是會注意到,并且大力歡迎,而且會頻繁造訪。
網(wǎng)站登錄問題 我的網(wǎng)站更新了,可是百度收錄的內(nèi)容還沒更新怎么辦?
怎樣使我的網(wǎng)站被百度收錄?
答:百度免費(fèi)自動(dòng)收錄您的站點(diǎn)。如果您希望百度盡快收錄,可以到網(wǎng)站登錄提交您的網(wǎng)址;只需提交網(wǎng)站首頁,內(nèi)部頁面百度會自動(dòng)抓取。
從提交到被收錄,大約需要多久?
答:通常需要1-4周時(shí)間。
我不想讓百度收錄我的站點(diǎn),該怎么辦?
答:百度尊重和遵守robots協(xié)議,您可以寫一個(gè)robots文件限制您的網(wǎng)站全部或部分不被百度收錄。詳情參見禁止搜索引擎收錄的辦法。
我的站點(diǎn)為什么在百度中搜不到?
我的站點(diǎn)在百度搜索結(jié)果中排名下降了,該怎么辦?
答:排序變動(dòng)很正常。一般情況下,只要您不斷提高網(wǎng)站內(nèi)容質(zhì)量,讓更多的用戶喜歡您的網(wǎng)站,成為您的忠實(shí)用戶,您的網(wǎng)站在百度的排名一般就不會很差。
百度關(guān)于垃圾網(wǎng)站的處理
如果您的站點(diǎn)中的網(wǎng)頁,做了很多針對搜索引擎而非用戶的處理,使得:用戶從搜索結(jié)果中看到的內(nèi)容與頁面實(shí)際內(nèi)容完全不同,或者站點(diǎn)質(zhì)量與站點(diǎn)在搜索結(jié)果中的排名極不相稱,從而導(dǎo)致用戶產(chǎn)生受欺騙感覺,那么,您的網(wǎng)站就有可能被百度丟棄。
如果您的站點(diǎn)上的網(wǎng)頁,大量都是復(fù)制自互聯(lián)網(wǎng)上的高度重復(fù)性的內(nèi)容,那么,您的站點(diǎn)也有可能被百度丟棄。
所以,當(dāng)您的網(wǎng)站從百度消失,請先審視一下自己的站點(diǎn)有無問題。有任何意見,也可以反饋到webmaster@baidu.com。您也可以向百度投訴搜索中遇到的垃圾網(wǎng)站或者網(wǎng)頁,幫助百度保持搜索結(jié)果的質(zhì)量。
讓百度等搜索引擎收錄您的網(wǎng)站
當(dāng)您發(fā)現(xiàn)在以下搜索引擎里,無法搜索到您或者您客戶的網(wǎng)站時(shí),您就打開以下登錄口,填好申請表提交,等這些網(wǎng)站的工作人員審核通過后,您的網(wǎng)站就可以在上面搜索到了。
百度免費(fèi)登錄入口 http://www.baidu.com/search/url_submit.htm
新浪免費(fèi)登錄入口 http://bizsite.sina.com.cn/newbizsite/docc/index-2jifu-09.htm
搜狐免費(fèi)登錄入口http://db.sohu.com/regurl/regform.asp?Step=REGFORM&class=
一搜免費(fèi)登錄入口 http://www.yisou.com/search_submit.html?source=yisou_www_hp
天網(wǎng)免費(fèi)登錄入口 http://bingle.pku.edu.cn/submit.htm
雅虎免費(fèi)登錄入口 http://cn.yahoo.com/docs/info/suggest.html
Google免費(fèi)登錄入口 http://www.google.com/intl/zh-CN/add_url.html
慧聰行業(yè)免費(fèi)登錄入口http://202.108.33.161/web/frontward/free/free_speedlogin.asp
搜豹免費(fèi)登錄入口 http://search.sobao.com/Computers_and_Internet/Personal/
焦點(diǎn)網(wǎng)免費(fèi)登錄入口 http://search.focus.com.cn/search/search_newurl_register.ecgi
協(xié)通免費(fèi)登錄入口 http://www.net2asp.com.cn/search/regform.htm
銀河免費(fèi)登錄入口 http://search.inhe.net/navigate.asp
中國假日免費(fèi)登錄入口 http://www.china-holiday.com/newterms/hall/it/sort.asp?sortid=259
山西互連網(wǎng)免費(fèi)登錄入口 http://www.shanxi.net.cn/sxhulian/addcate.asp
網(wǎng)絡(luò)奇兵登陸入口http://www.net7b.com/net7b_site/denglu/index.asp
6128搜索引擎免費(fèi)登陸入口http://www.6128.cn/add.htm
深圳網(wǎng)狐登陸入口 http://www.szfox.com/search/
中國搜索同盟免費(fèi)登錄入口 http://service.chinasearch.com.cn/w...ree/free_protocol.htm
北極星免費(fèi)登錄入口 http://www.beijixing.com.cn/bjx01/search/regi_1.asp
亦凡信息娛樂網(wǎng)絡(luò)-亦凡搜索 http://www.gotofind.com/opendir/
法律網(wǎng)免費(fèi)登錄入口 http://www.law-lib.com/lawseek/wzdl.asp
銀河免費(fèi)登錄入口 http://search.inhe.net/navigate.asp
溫州信息港免費(fèi)登錄入口 http://www.wzonline.com.cn/
建設(shè)免費(fèi)登錄入口http://www.cnjjl.com/other/
孫悟空免費(fèi)登錄入口 http://www.sunwukong.cn/add.php
貓頭鷹 http://www.owlchina.com/publish.asp?l=pub
凱希 http://www2d.biglobe.ne.jp/~kinryou/cgi/url.html
ebsee http://www.ebsee.com/cgi-bin/find/find.cgi?menu=add
focus http://search.focus.com.cn/search/search_newurl_register.ecgi
zhao5.com登陸入口 http://www.zhao5.com/deng_9.htm
三百六十行在線登陸入口 http://www.360hang.com/
中國168免費(fèi)登錄入口 http://www.china168.com/chaoshi/it/regsta1.asp?sortid=242
中國車網(wǎng)免費(fèi)登錄入口 http://www.cncar.net/search/addsite.asp
綠界免費(fèi)登錄入口 http://ep.sunup.net/add.php
天上人間中文搜索引擎 http://www.6mj.com/search/
企業(yè)搜索引擎 http://www.shengdarealestate.com.cn/search/sort.asp?sortid=37
好東西網(wǎng)址登陸 http://dir.haodx.com/computer/internet/search/search_egines/
中國搜索登陸入口 http://service.chinasearch.com.cn/zhongsou/wzdl/free_protocol.htm
網(wǎng)訊快車 http://www.ne163.com/
廣東陽江在線 http://www.gdyj.com/
泰達(dá)搜索引擎 http://www.tedanet.com/search/index.asp
Y28 Search http://www.y28.com/cgi-bin/link/join.pl
怎樣才能讓百度及時(shí)更新網(wǎng)站的收錄數(shù)據(jù)?
你有沒有發(fā)現(xiàn)搜索引擎已經(jīng)很久沒有收錄你的網(wǎng)站了,有沒有方法能讓搜索引擎及時(shí)更新你的網(wǎng)站收錄數(shù)據(jù),不知道那么就跟我來吧?。ù颂幰园俣人阉饕鏋槔?br />
1.在百度搜索引擎輸入:site:www.zizhong.com.cn (此處就是你網(wǎng)站的網(wǎng)址)得到網(wǎng)站收錄數(shù)據(jù).
百度一下,找到相關(guān)網(wǎng)頁29600篇,用時(shí)0.001秒 2.在百度最底下找到
1 [2] [3] [4] [5] [6] [7] [8] [9] [10] 下一頁 每10頁點(diǎn)下去,一直點(diǎn)到最后一頁,當(dāng)出現(xiàn)
提示:為了提供最相關(guān)的結(jié)果,我們省略了一些內(nèi)容相似的條目,點(diǎn)擊這里可以看到所有搜索結(jié)果。 再點(diǎn)擊提示上的連接. 3.最后再次輸入:site:www.zizhong.com.cn,是不是發(fā)現(xiàn)比原來少了很多頁數(shù)了?不要害怕,已經(jīng)達(dá)到讓百度更新收錄數(shù)據(jù)的目的了.一天以后就會發(fā)現(xiàn)重新收錄更多了!
注意:如果你的網(wǎng)站有新的內(nèi)容,而又未被收錄的話,經(jīng)驗(yàn)證會有有明顯效果的。什么?沒有新內(nèi)容??那就增加你的網(wǎng)站內(nèi)容吧…………
怎樣避免被搜索引擎視為作弊
一個(gè)網(wǎng)站要想成功注冊,它起碼應(yīng)具備兩個(gè)條件,一是網(wǎng)站本身要有較好的內(nèi)容和設(shè)計(jì),二是網(wǎng)站沒有作弊行為。這里所謂的“作弊”,是指采用一些特殊的、有悖常規(guī)的網(wǎng)頁設(shè)計(jì)手法,以期提高網(wǎng)站排名的行為。如何設(shè)計(jì)好網(wǎng)站,相關(guān)的資料很多,本文就不廢話了。這里主要談?wù)労笳?,即在提高網(wǎng)站排名的同時(shí),如何避免被搜索引擎視為作弊而拒絕注冊。 那么,在搜索引擎看來,哪些行為算作弊呢?這里羅列了一下,從中你可看到,現(xiàn)在有些人還視為“密技”的東西,其實(shí)已經(jīng)過時(shí)了。
堆砌頁面關(guān)鍵字:為了增加某個(gè)詞匯在網(wǎng)頁上的出現(xiàn)頻率,而故意重復(fù)它。這是有人常用的花招,不過,現(xiàn)在很多搜索引擎都能識破它。它們通過統(tǒng)計(jì)網(wǎng)頁單詞總數(shù),判斷某個(gè)單詞出現(xiàn)的比例是否正常。一旦超過“內(nèi)定標(biāo)準(zhǔn)”,就對你的網(wǎng)頁說“ByeBye”了。
放置隱形文本:所謂的“鬼頁法”。為了增加關(guān)鍵字?jǐn)?shù)量,網(wǎng)頁中放一段與背景顏色相同的、包含密集關(guān)鍵字的文本,訪客看不到,可搜索引擎卻能找到,過去一度還真能提高網(wǎng)站排名,但現(xiàn)在,主要搜索引擎都能識別出來,照樣玩不通了。
安插微型文本:與“鬼頁法”相似,只是文本更些?更分散、更隱蔽。但是,對于敏感的搜索引擎來說,仍然是枉費(fèi)心機(jī)。
網(wǎng)頁重定向:使用META刷新標(biāo)記、CGI程序、Java、Javascript或其它技術(shù),當(dāng)用戶點(diǎn)擊一個(gè)鏈接時(shí),自動(dòng)跳到另一個(gè)網(wǎng)頁。有人正是用這種方法,欺騙人們進(jìn)入并不想去的地方。因此,有些搜索引擎(如Infoseek),對此類網(wǎng)頁也很反感,一般不予登記。
濫用Meta標(biāo)記關(guān)鍵字:有人為增加關(guān)鍵字的出現(xiàn)次數(shù),在語句中,重復(fù)關(guān)鍵字,或者加入與網(wǎng)站內(nèi)容毫不相關(guān)的熱門詞匯。這種作弊行為,大部分搜索引擎也能識破。
濫用門戶網(wǎng)頁:門戶網(wǎng)頁(也稱“橋頁”),是指為了獲得好的排名,而專門針對各搜索引擎排序算法設(shè)計(jì)的網(wǎng)頁。盡管今天,多數(shù)搜索引擎并不反對這種作法。但俗話說:“物極必反。”建立太多具有相近關(guān)鍵字的門戶網(wǎng)頁,會招致搜索引擎的反感而無法成功注冊。
連續(xù)注冊:有人為加大保險(xiǎn)系數(shù),在一天之內(nèi),將一個(gè)網(wǎng)頁重復(fù)提交給同一個(gè)搜索引擎,其實(shí),這種作法適得其反。
重復(fù)注冊:有人以為,將一個(gè)網(wǎng)頁簡單復(fù)制成多個(gè)網(wǎng)頁,然后,給它們安上不同的名字,并分別予以注冊,會增大訪問量,結(jié)果,搜索引擎會認(rèn)為你在濫用它,而拒絕登記你的網(wǎng)站。
偷換網(wǎng)頁:是指一個(gè)網(wǎng)頁成功注冊并獲得較好排名后,用另一個(gè)內(nèi)容無關(guān)的網(wǎng)頁(如產(chǎn)品廣告)來替換它的行為。
張冠李戴:上面提到的門戶網(wǎng)頁,只適用于Altavista這類自動(dòng)登錄的搜索引擎,如果提交給Yahoo這類人工分類的目錄式搜索引擎,它就會認(rèn)為你在作弊。
突破頁數(shù)限制:一些搜索引擎允許每個(gè)用戶每天或每周提交的網(wǎng)頁數(shù)量是有限制的。例如,Altavista每天允許10頁;HotBot允許每天50頁;Excite允許每周25頁;Infoseek允許每天50頁(但使用e-mail注冊,沒有頁數(shù)限制)。請注意,這并不是說,搜索引擎每天或每周只能為你登錄以上頁數(shù),而只是允許你提交的頁數(shù)。還不明白?那就舉個(gè)例吧,對于Excite而言,每周只允許你提交25頁,如果你的網(wǎng)站有1000頁,那該怎么辦呢?就提交25頁即可!余下的Excite會自己檢查到,并將編入索引中。如果你強(qiáng)行突破這個(gè)限制,那么,搜索引擎就會認(rèn)為你在作弊,反而不予注冊。
上面這些條款似乎很明顯、很容易區(qū)分,但有時(shí)我們卻可能不知不覺犯上。例如,你有一個(gè)網(wǎng)頁,背景是白色,在這個(gè)網(wǎng)頁上,你設(shè)計(jì)了一個(gè)表格,其背景為藍(lán)色、文字為白色,這種設(shè)計(jì)應(yīng)該說也是完全正常的,但如果你到搜索引擎Infoseek去注冊,它卻不理你。為什么呢?它認(rèn)為你在作弊!在Infoseek看來,表格中的白色文本,實(shí)際是置于白色的網(wǎng)頁背景上,也就是說,網(wǎng)頁文本與背景顏色相同,這就符合“鬼頁法”的作弊特征。而這一點(diǎn),可能你自己根本沒有意識到。還有一例,有時(shí)因設(shè)計(jì)需要,或者網(wǎng)站已遷移到其它地方,通常我們會用到網(wǎng)頁重定向,但對于Infoseek等搜索引擎而言,這也是不可容忍的作弊行為。另外,Infoseek等搜索引擎還要求,不要在多個(gè)網(wǎng)頁上布置指向同一個(gè)網(wǎng)頁的鏈接。例如,很多人喜歡在各個(gè)網(wǎng)頁放上“返回主頁”的鏈接,其實(shí)就屬于這種情況。這種司空見慣的設(shè)計(jì),居然也被看成作弊,真是太苛刻了。不過,對此Infoseek在真正執(zhí)行時(shí),似乎也并不是很嚴(yán)格,一些這樣設(shè)計(jì)的網(wǎng)頁,它照樣登錄了(你也碰碰運(yùn)氣?)??傮w上說,這些限制都是為了對付真正的作弊者,使搜索引擎的檢索結(jié)果更加準(zhǔn)確有效,但事實(shí)上,的確也錯(cuò)怪了一些好人。如果萬一你碰上這種情況怎么辦,搜索引擎到底會怎樣處罰你呢?
跟不少網(wǎng)主一樣,筆者以前對此不甚了解,以為自己的某個(gè)網(wǎng)頁違項(xiàng),會導(dǎo)致整個(gè)網(wǎng)站被封殺。其實(shí),事實(shí)并非如此!因?yàn)檫\(yùn)作搜索引擎的人也知道,有時(shí)他們搜索引擎判定的“作弊”,實(shí)際是一種正常合法的設(shè)計(jì),只是因?yàn)樗阉饕孀陨磉€不夠“聰明”,無法準(zhǔn)確判斷是故意作弊,還是偶然巧合。所以,他們通常不會因?yàn)槟尘W(wǎng)頁象在作弊,就拒絕登記整個(gè)網(wǎng)站,而只是對有違規(guī)嫌疑的網(wǎng)頁進(jìn)行處罰——降低排名或不予登記,而其它的合法網(wǎng)頁不會受到影響。此時(shí),你只需將這個(gè)網(wǎng)頁修改,并重新注冊即可。除非你有意作弊,肆無忌憚違反上述多項(xiàng)規(guī)則,或者由于你提交的大量垃圾網(wǎng)頁,對搜索結(jié)果造成明顯不良影響,那么,你的整個(gè)網(wǎng)站將被永遠(yuǎn)踢出門外。當(dāng)然,也有個(gè)別搜索引擎(如HotBot)政策更加寬松,甚至對故意作弊者,也沒有永遠(yuǎn)拒絕登記的規(guī)定。只要它認(rèn)為你沒有攻擊或侵害到它,一般不會刪掉你整個(gè)網(wǎng)站的索引,不過,這個(gè)尺度掌握在人家手里,勸你還是別去試它的耐性。
作為一名網(wǎng)主,明白了哪些行為是作弊,你就應(yīng)該在允許范圍內(nèi),去探索如何獲得較高排名,以增大網(wǎng)站訪問量,讓盡可能多的人知道你的產(chǎn)品、服務(wù)或了解你本人,只有這樣,成功注冊才有實(shí)際意義。
使百度有效收錄
百度喜歡結(jié)構(gòu)簡單的網(wǎng)頁,具有復(fù)雜結(jié)構(gòu)的網(wǎng)頁可能無法順利登錄百度。您在進(jìn)行網(wǎng)頁設(shè)計(jì)時(shí)應(yīng)盡量:
1. 給每個(gè)網(wǎng)頁加上標(biāo)題
網(wǎng)站首頁的標(biāo)題,建議您使用您的網(wǎng)站名稱或公司名稱,其它網(wǎng)頁的標(biāo)題建議與每個(gè)網(wǎng)頁內(nèi)容相關(guān),內(nèi)容不同的網(wǎng)頁不用相同的標(biāo)題。
2. 不要把整個(gè)網(wǎng)頁做成一個(gè)Flash或是一張圖片
百度是通過識別網(wǎng)頁源代碼中的漢字來認(rèn)識每一個(gè)網(wǎng)頁的。如果您的整個(gè)網(wǎng)頁是一個(gè)Flash或一張圖片,百度在網(wǎng)頁中找不到漢字,就有可能不收錄您的網(wǎng)頁。
3. 不對網(wǎng)頁做重定向
重定向的網(wǎng)頁可能不容易登錄百度。
4.不在網(wǎng)頁中使用Frame(框架結(jié)構(gòu))
5.不在網(wǎng)頁中使用過分復(fù)雜的JavaScript
某些Java Script的內(nèi)容對于搜索引擎是不可見的,所以不能被識別和登錄。
5.靜態(tài)網(wǎng)頁能更順利登錄百度,動(dòng)態(tài)生成的網(wǎng)頁不容易登錄百度
·如果您的網(wǎng)頁url中含有如asp、?等動(dòng)態(tài)特征,網(wǎng)頁就可能被認(rèn)為是動(dòng)態(tài)網(wǎng)頁。
·如果您的網(wǎng)站中有很多網(wǎng)頁必須做成Frame結(jié)構(gòu)或動(dòng)態(tài)網(wǎng)頁,那么建議您至少把網(wǎng)站首頁做成簡單的網(wǎng)頁,并且對網(wǎng)站內(nèi)的一些重要網(wǎng)頁,在首頁加上鏈接。
6. 不要對搜索引擎進(jìn)行作弊
作弊的網(wǎng)站不能登錄百度,即使登錄后也隨時(shí)可能被刪除。
作弊網(wǎng)站定義
對搜索引擎作弊,是指為了提高在搜索引擎中展現(xiàn)機(jī)會和排名的目的,欺騙搜索引擎的行為。
以下行為都可能被認(rèn)為是作弊:
· 在網(wǎng)頁源代碼中任何位置,故意加入與網(wǎng)頁內(nèi)容不相關(guān)的關(guān)鍵詞;
· 在網(wǎng)頁源代碼中任何位置,故意大量重復(fù)某些關(guān)鍵詞。即使與網(wǎng)頁內(nèi)容相關(guān)的關(guān)鍵詞,故意重復(fù)也被視為作弊行為;
· 在網(wǎng)頁中加入搜索引擎可識別但用戶看不見的隱藏文字。無論是使用同背景色文字、超小字號文字、文字隱藏層、還是濫用圖片ALT等方法,都屬于作弊行為;
· 故意制造大量鏈接指向某一網(wǎng)址的行為;
· 對同一個(gè)網(wǎng)址,讓搜索引擎與用戶訪問到不同內(nèi)容的網(wǎng)頁(包括利用重定向等行為);
· 作弊行為的定義是針對網(wǎng)站而不是網(wǎng)頁的。一個(gè)網(wǎng)站內(nèi)即使只有一個(gè)網(wǎng)頁作弊,該網(wǎng)站也被認(rèn)為是有作弊行為;
· 有鏈接指向作弊網(wǎng)站的網(wǎng)站,負(fù)連帶責(zé)任,也會被認(rèn)為是作弊(但是,作弊網(wǎng)站上鏈接指向的網(wǎng)站,不算作弊)。
作弊網(wǎng)站害處
根據(jù)網(wǎng)頁的作弊情況,會受到不同程度的懲罰:
· 較輕微的懲罰,是系統(tǒng)在給網(wǎng)頁排名時(shí)略為降低該網(wǎng)頁的排名;
· 較常見的懲罰,是作弊網(wǎng)站的某些關(guān)鍵詞(或所有關(guān)鍵詞)的排名降到其它任何網(wǎng)站之后;
· 較嚴(yán)厲的懲罰,對于作弊行為和后果特別惡劣的網(wǎng)站,將從百度中消失;
· 特別補(bǔ)充,含惡意代碼或惡意插件等用戶極端反感內(nèi)容的網(wǎng)頁,雖然不是作弊,但只要用戶投訴,一經(jīng)確認(rèn)也會被百度拒絕收錄;
Google官方確認(rèn)AdSense有助于網(wǎng)頁收錄
Google官方確認(rèn)AdSense有助于網(wǎng)頁收錄
Google的網(wǎng)頁收錄的其中一種途徑是通過Googlebot的爬行來實(shí)現(xiàn)的,也就是說,Google派出它自己的網(wǎng)絡(luò)蜘蛛,主動(dòng)去抓取有價(jià)值的網(wǎng)頁內(nèi)容。類似地,Google的AdSense也有自己的bot,它的名字為MediaBot。它會自動(dòng)去到放置了AdSense廣告代碼的網(wǎng)頁,然后對網(wǎng)頁內(nèi)容進(jìn)行分析,以投放與網(wǎng)頁內(nèi)容相關(guān)的廣告。但一直以來都有一個(gè)爭論,那就是到底AdSense的MediaBot與Googlebot有什么區(qū)別?MediaBot在判斷廣告相關(guān)網(wǎng)頁的時(shí)候,會不會也對這個(gè)網(wǎng)站在Google收錄及排名等方面有一定的好處呢?也就是說,投放了AdSense廣告,會不會有助于改善自己的網(wǎng)站的Google收錄及排名呢?
根據(jù)SEJ的消息,Google的一名高級工程師及主管Matt Cutts已經(jīng)正式確認(rèn),AdSense派出來的MediaBot在抓取網(wǎng)頁內(nèi)容后,會把部分結(jié)果提交至BigDaddy的數(shù)據(jù)庫里。Matt解釋說,這是因?yàn)閮煞Nbot都在不斷地抓取網(wǎng)頁,因此為了節(jié)省資源,MediaBot會幫Googlebot完成部分網(wǎng)頁抓取工作。但Matt同時(shí)也給出警告,如果你的網(wǎng)站提供給MediaBot的內(nèi)容與提供給Googlebot的內(nèi)容完全不同,那么你就會“有麻煩”。因?yàn)镚oogle會認(rèn)為你在作弊。
我認(rèn)為從Matt給出的訊息里可以證明,在網(wǎng)站上投放了AdSense的廣告,的確是有助于你的網(wǎng)站被Google收錄。比如,收錄得更快更多。但并不一定會提高你的網(wǎng)站排名。有這方面經(jīng)驗(yàn)的朋友應(yīng)該會想到其它辦法,從Matt的話出發(fā)。
搜索引擎原理-網(wǎng)絡(luò)蜘蛛和ROBOTS
一、網(wǎng)絡(luò)蜘蛛基本原理
網(wǎng)絡(luò)蜘蛛即Web Spider,是一個(gè)很形象的名字。把互聯(lián)網(wǎng)比喻成一個(gè)蜘蛛網(wǎng),那么Spider就是在網(wǎng)上爬來爬去的蜘蛛。網(wǎng)絡(luò)蜘蛛是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從網(wǎng)站某一個(gè)頁面(通常是首頁)開始,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個(gè)網(wǎng)頁,這樣一直循環(huán)下去,直到把這個(gè)網(wǎng)站所有的網(wǎng)頁都抓取完為止。如果把整個(gè)互聯(lián)網(wǎng)當(dāng)成一個(gè)網(wǎng)站,那么網(wǎng)絡(luò)蜘蛛就可以用這個(gè)原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁都抓取下來。
對于搜索引擎來說,要抓取互聯(lián)網(wǎng)上所有的網(wǎng)頁幾乎是不可能的,從目前公布的數(shù)據(jù)來看,容量最大的搜索引擎也不過是抓取了整個(gè)網(wǎng)頁數(shù)量的百分之四十左右。這其中的原因一方面是抓取技術(shù)的瓶頸,無法遍歷所有的網(wǎng)頁,有許多網(wǎng)頁無法從其它網(wǎng)頁的鏈接中找到;另一個(gè)原因是存儲技術(shù)和處理技術(shù)的問題,如果按照每個(gè)頁面的平均大小為20K計(jì)算(包含圖片),100億網(wǎng)頁的容量是100×2000G字節(jié),即使能夠存儲,下載也存在問題(按照一臺機(jī)器每秒下載20K計(jì)算,需要 340臺機(jī)器不停的下載一年時(shí)間,才能把所有網(wǎng)頁下載完畢)。同時(shí),由于數(shù)據(jù)量太大,在提供搜索時(shí)也會有效率方面的影響。因此,許多搜索引擎的網(wǎng)絡(luò)蜘蛛只是抓取那些重要的網(wǎng)頁,而在抓取的時(shí)候評價(jià)重要性主要的依據(jù)是某個(gè)網(wǎng)頁的鏈接深度。
在抓取網(wǎng)頁的時(shí)候,網(wǎng)絡(luò)蜘蛛一般有兩種策略:廣度優(yōu)先和深度優(yōu)先。
廣度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會先抓取起始網(wǎng)頁中鏈接的所有網(wǎng)頁,然后再選擇其中的一個(gè)鏈接網(wǎng)頁,繼續(xù)抓取在此網(wǎng)頁中鏈接的所有網(wǎng)頁。這是最常用的方式,因?yàn)檫@個(gè)方法可以讓網(wǎng)絡(luò)蜘蛛并行處理,提高其抓取速度。深度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會從起始頁開始,一個(gè)鏈接一個(gè)鏈接跟蹤下去,處理完這條線路之后再轉(zhuǎn)入下一個(gè)起始頁,繼續(xù)跟蹤鏈接。這個(gè)方法有個(gè)優(yōu)點(diǎn)是網(wǎng)絡(luò)蜘蛛在設(shè)計(jì)的時(shí)候比較容易。兩種策略的區(qū)別,下圖的說明會更加明確。
由于不可能抓取所有的網(wǎng)頁,有些網(wǎng)絡(luò)蜘蛛對一些不太重要的網(wǎng)站,設(shè)置了訪問的層數(shù)。例如,在上圖中,A為起始網(wǎng)頁,屬于0層,B、C、D、E、F屬于第1層,G、H屬于第2層, I屬于第3層。如果網(wǎng)絡(luò)蜘蛛設(shè)置的訪問層數(shù)為2的話,網(wǎng)頁I是不會被訪問到的。這也讓有些網(wǎng)站上一部分網(wǎng)頁能夠在搜索引擎上搜索到,另外一部分不能被搜索到。對于網(wǎng)站設(shè)計(jì)者來說,扁平化的網(wǎng)站結(jié)構(gòu)設(shè)計(jì)有助于搜索引擎抓取其更多的網(wǎng)頁。
網(wǎng)絡(luò)蜘蛛在訪問網(wǎng)站網(wǎng)頁的時(shí)候,經(jīng)常會遇到加密數(shù)據(jù)和網(wǎng)頁權(quán)限的問題,有些網(wǎng)頁是需要會員權(quán)限才能訪問。當(dāng)然,網(wǎng)站的所有者可以通過協(xié)議讓網(wǎng)絡(luò)蜘蛛不去抓?。ㄏ滦」?jié)會介紹),但對于一些出售報(bào)告的網(wǎng)站,他們希望搜索引擎能搜索到他們的報(bào)告,但又不能完全**的讓搜索者查看,這樣就需要給網(wǎng)絡(luò)蜘蛛提供相應(yīng)的用戶名和密碼。網(wǎng)絡(luò)蜘蛛可以通過所給的權(quán)限對這些網(wǎng)頁進(jìn)行網(wǎng)頁抓取,從而提供搜索。而當(dāng)搜索者點(diǎn)擊查看該網(wǎng)頁的時(shí)候,同樣需要搜索者提供相應(yīng)的權(quán)限驗(yàn)證。
網(wǎng)站與網(wǎng)絡(luò)蜘蛛
網(wǎng)絡(luò)蜘蛛需要抓取網(wǎng)頁,不同于一般的訪問,如果控制不好,則會引起網(wǎng)站服務(wù)器負(fù)擔(dān)過重。今年4月,淘寶http://www.taobao.com)就因?yàn)檠呕⑺阉饕娴木W(wǎng)絡(luò)蜘蛛抓取其數(shù)據(jù)引起淘寶網(wǎng)服務(wù)器的不穩(wěn)定。網(wǎng)站是否就無法和網(wǎng)絡(luò)蜘蛛交流呢?其實(shí)不然,有多種方法可以讓網(wǎng)站和網(wǎng)絡(luò)蜘蛛進(jìn)行交流。一方面讓網(wǎng)站管理員了解網(wǎng)絡(luò)蜘蛛都來自哪兒,做了些什么,另一方面也告訴網(wǎng)絡(luò)蜘蛛哪些網(wǎng)頁不應(yīng)該抓取,哪些網(wǎng)頁應(yīng)該更新。/
每個(gè)網(wǎng)絡(luò)蜘蛛都有自己的名字,在抓取網(wǎng)頁的時(shí)候,都會向網(wǎng)站標(biāo)明自己的身份。網(wǎng)絡(luò)蜘蛛在抓取網(wǎng)頁的時(shí)候會發(fā)送一個(gè)請求,這個(gè)請求中就有一個(gè)字段為User- agent,用于標(biāo)識此網(wǎng)絡(luò)蜘蛛的身份。例如Google網(wǎng)絡(luò)蜘蛛的標(biāo)識為GoogleBot,Baidu網(wǎng)絡(luò)蜘蛛的標(biāo)識為BaiDuSpider, Yahoo網(wǎng)絡(luò)蜘蛛的標(biāo)識為Inktomi Slurp。如果在網(wǎng)站上有訪問日志記錄,網(wǎng)站管理員就能知道,哪些搜索引擎的網(wǎng)絡(luò)蜘蛛過來過,什么時(shí)候過來的,以及讀了多少數(shù)據(jù)等等。如果網(wǎng)站管理員發(fā)現(xiàn)某個(gè)蜘蛛有問題,就通過其標(biāo)識來和其所有者聯(lián)系。下面是博客中http://www.blogchina.com)2004年5月15日的搜索引擎訪問日志:/
網(wǎng)絡(luò)蜘蛛進(jìn)入一個(gè)網(wǎng)站,一般會訪問一個(gè)特殊的文本文件Robots.txt,這個(gè)文件一般放在網(wǎng)站服務(wù)器的根目錄下,http://www.w3.org/robots.txt。網(wǎng)站管理員可以通過robots.txt來定義哪些目錄網(wǎng)絡(luò)蜘蛛不能訪問,或者哪些目錄對于某些特定的網(wǎng)絡(luò)蜘蛛不能訪問。例如有些網(wǎng)站的可執(zhí)行文件目錄和臨時(shí)文件目錄不希望被搜索引擎搜索到,那么網(wǎng)站管理員就可以把這些目錄定義為拒絕訪問目錄。Robots.txt語法很簡單,例如如果對目錄沒有任何限制,可以用以下兩行來描述:
User-agent: *
Disallow:
當(dāng)然,Robots.txt只是一個(gè)協(xié)議,如果網(wǎng)絡(luò)蜘蛛的設(shè)計(jì)者不遵循這個(gè)協(xié)議,網(wǎng)站管理員也無法阻止網(wǎng)絡(luò)蜘蛛對于某些頁面的訪問,但一般的網(wǎng)絡(luò)蜘蛛都會遵循這些協(xié)議,而且網(wǎng)站管理員還可以通過其它方式來拒絕網(wǎng)絡(luò)蜘蛛對某些網(wǎng)頁的抓取。
網(wǎng)絡(luò)蜘蛛在下載網(wǎng)頁的時(shí)候,會去識別網(wǎng)頁的HTML代碼,在其代碼的部分,會有META標(biāo)識。通過這些標(biāo)識,可以告訴網(wǎng)絡(luò)蜘蛛本網(wǎng)頁是否需要被抓取,還可以告訴網(wǎng)絡(luò)蜘蛛本網(wǎng)頁中的鏈接是否需要被繼續(xù)跟蹤。例如:表示本網(wǎng)頁不需要被抓取,但是網(wǎng)頁內(nèi)的鏈接需要被跟蹤。
關(guān)于Robots.txt的語法和META Tag語法,有興趣的讀者查看文獻(xiàn)[4]
現(xiàn)在一般的網(wǎng)站都希望搜索引擎能更全面的抓取自己網(wǎng)站的網(wǎng)頁,因?yàn)檫@樣可以讓更多的訪問者能通過搜索引擎找到此網(wǎng)站。為了讓本網(wǎng)站的網(wǎng)頁更全面被抓取到,網(wǎng)站管理員可以建立一個(gè)網(wǎng)站地圖,即Site Map。許多網(wǎng)絡(luò)蜘蛛會把sitemap.htm文件作為一個(gè)網(wǎng)站網(wǎng)頁爬取的入口,網(wǎng)站管理員可以把網(wǎng)站內(nèi)部所有網(wǎng)頁的鏈接放在這個(gè)文件里面,那么網(wǎng)絡(luò)蜘蛛可以很方便的把整個(gè)網(wǎng)站抓取下來,避免遺漏某些網(wǎng)頁,也會減小對網(wǎng)站服務(wù)器的負(fù)擔(dān)
內(nèi)容提取
搜索引擎建立網(wǎng)頁索引,處理的對象是文本文件。對于網(wǎng)絡(luò)蜘蛛來說,抓取下來網(wǎng)頁包括各種格式,包括html、圖片、doc、pdf、多媒體、動(dòng)態(tài)網(wǎng)頁及其它格式等。這些文件抓取下來后,需要把這些文件中的文本信息提取出來。準(zhǔn)確提取這些文檔的信息,一方面對搜索引擎的搜索準(zhǔn)確性有重要作用,另一方面對于網(wǎng)絡(luò)蜘蛛正確跟蹤其它鏈接有一定影響。
對于doc、pdf等文檔,這種由專業(yè)廠商提供的軟件生成的文檔,廠商都會提供相應(yīng)的文本提取接口。網(wǎng)絡(luò)蜘蛛只需要調(diào)用這些插件的接口,就可以輕松的提取文檔中的文本信息和文件其它相關(guān)的信息。
HTML等文檔不一樣,HTML有一套自己的語法,通過不同的命令標(biāo)識符來表示不同的字體、顏色、位置等版式,如:、、等,提取文本信息時(shí)需要把這些標(biāo)識符都過濾掉。過濾標(biāo)識符并非難事,因?yàn)檫@些標(biāo)識符都有一定的規(guī)則,只要按照不同的標(biāo)識符取得相應(yīng)的信息即可。但在識別這些信息的時(shí)候,需要同步記錄許多版式信息,例如文字的字體大小、是否是標(biāo)題、是否是加粗顯示、是否是頁面的關(guān)鍵詞等,這些信息有助于計(jì)算單詞在網(wǎng)頁中的重要程度。同時(shí),對于HTML網(wǎng)頁來說,除了標(biāo)題和正文以外,會有許多廣告鏈接以及公共的頻道鏈接,這些鏈接和文本正文一點(diǎn)關(guān)系也沒有,在提取網(wǎng)頁內(nèi)容的時(shí)候,也需要過濾這些無用的鏈接。例如某個(gè)網(wǎng)站有“產(chǎn)品介紹”頻道,因?yàn)閷?dǎo)航條在網(wǎng)站內(nèi)每個(gè)網(wǎng)頁都有,若不過濾導(dǎo)航條鏈接,在搜索“產(chǎn)品介紹”的時(shí)候,則網(wǎng)站內(nèi)每個(gè)網(wǎng)頁都會搜索到,無疑會帶來大量垃圾信息。過濾這些無效鏈接需要統(tǒng)計(jì)大量的網(wǎng)頁結(jié)構(gòu)規(guī)律,抽取一些共性,統(tǒng)一過濾;對于一些重要而結(jié)果特殊的網(wǎng)站,還需要個(gè)別處理。這就需要網(wǎng)絡(luò)蜘蛛的設(shè)計(jì)有一定的擴(kuò)展性。
對于多媒體、圖片等文件,一般是通過鏈接的錨文本(即,鏈接文本)和相關(guān)的文件注釋來判斷這些文件的內(nèi)容。例如有一個(gè)鏈接文字為“張曼玉照片”,其鏈接指向一張bmp格式的圖片,那么網(wǎng)絡(luò)蜘蛛就知道這張圖片的內(nèi)容是“張曼玉的照片”。這樣,在搜索“張曼玉”和“照片”的時(shí)候都能讓搜索引擎找到這張圖片。另外,許多多媒體文件中有文件屬性,考慮這些屬性也可以更好的了解文件的內(nèi)容。
動(dòng)態(tài)網(wǎng)頁一直是網(wǎng)絡(luò)蜘蛛面臨的難題。所謂動(dòng)態(tài)網(wǎng)頁,是相對于靜態(tài)網(wǎng)頁而言,是由程序自動(dòng)生成的頁面,這樣的好處是可以快速統(tǒng)一更改網(wǎng)頁風(fēng)格,也可以減少網(wǎng)頁所占服務(wù)器的空間,但同樣給網(wǎng)絡(luò)蜘蛛的抓取帶來一些麻煩。由于開發(fā)語言不斷的增多,動(dòng)態(tài)網(wǎng)頁的類型也越來越多,如:asp、jsp、php等。這些類型的網(wǎng)頁對于網(wǎng)絡(luò)蜘蛛來說,可能還稍微容易一些。網(wǎng)絡(luò)蜘蛛比較難于處理的是一些腳本語言(如VBScript和javascript)生成的網(wǎng)頁,如果要完善的處理好這些網(wǎng)頁,網(wǎng)絡(luò)蜘蛛需要有自己的腳本解釋程序。對于許多數(shù)據(jù)是放在數(shù)據(jù)庫的網(wǎng)站,需要通過本網(wǎng)站的數(shù)據(jù)庫搜索才能獲得信息,這些給網(wǎng)絡(luò)蜘蛛的抓取帶來很大的困難。對于這類網(wǎng)站,如果網(wǎng)站設(shè)計(jì)者希望這些數(shù)據(jù)能被搜索引擎搜索,則需要提供一種可以遍歷整個(gè)數(shù)據(jù)庫內(nèi)容的方法。
對于網(wǎng)頁內(nèi)容的提取,一直是網(wǎng)絡(luò)蜘蛛中重要的技術(shù)。整個(gè)系統(tǒng)一般采用插件的形式,通過一個(gè)插件管理服務(wù)程序,遇到不同格式的網(wǎng)頁采用不同的插件處理。這種方式的好處在于擴(kuò)充性好,以后每發(fā)現(xiàn)一種新的類型,就可以把其處理方式做成一個(gè)插件補(bǔ)充到插件管理服務(wù)程序之中。
更新周期
由于網(wǎng)站的內(nèi)容經(jīng)常在變化,因此網(wǎng)絡(luò)蜘蛛也需不斷的更新其抓取網(wǎng)頁的內(nèi)容,這就需要網(wǎng)絡(luò)蜘蛛按照一定的周期去掃描網(wǎng)站,查看哪些頁面是需要更新的頁面,哪些頁面是新增頁面,哪些頁面是已經(jīng)過期的死鏈接。
搜索引擎的更新周期對搜索引擎搜索的查全率有很大影響。如果更新周期太長,則總會有一部分新生成的網(wǎng)頁搜索不到;周期過短,技術(shù)實(shí)現(xiàn)會有一定難度,而且會對帶寬、服務(wù)器的資源都有浪費(fèi)。搜索引擎的網(wǎng)絡(luò)蜘蛛并不是所有的網(wǎng)站都采用同一個(gè)周期進(jìn)行更新,對于一些重要的更新量大的網(wǎng)站,更新的周期短,如有些新聞網(wǎng)站,幾個(gè)小時(shí)就更新一次;相反對于一些不重要的網(wǎng)站,更新的周期就長,可能一兩個(gè)月才更新一次。
一般來說,網(wǎng)絡(luò)蜘蛛在更新網(wǎng)站內(nèi)容的時(shí)候,不用把網(wǎng)站網(wǎng)頁重新抓取一遍,對于大部分的網(wǎng)頁,只需要判斷網(wǎng)頁的屬性(主要是日期),把得到的屬性和上次抓取的屬性相比較,如果一樣則不用更新。
二、Robots
<meta name="Robots" contect= "all|none|index|noindex|follow|nofollow">
其中的屬性說明如下:
設(shè)定為all:文件將被檢索,且頁面上的鏈接可以被查詢;
設(shè)定為none:文件將不被檢索,且頁面上的鏈接不可以被查詢;
設(shè)定為index:文件將被檢索;
設(shè)定為follow:頁面上的鏈接可以被查詢;
設(shè)定為noindex:文件將不被檢索,但頁面上的鏈接可以被查詢;
設(shè)定為nofollow:文件將不被檢索,頁面上的鏈接可以被查詢。
-----------------------------------
我們知道,搜索引擎都有自己的“搜索機(jī)器人”(ROBOTS),并通過這些ROBOTS在網(wǎng)絡(luò)上沿著網(wǎng)頁上的鏈接(一般是http和src鏈接)不斷抓取資料建立自己的數(shù)據(jù)庫。
對于網(wǎng)站管理者和內(nèi)容提供者來說,有時(shí)候會有一些站點(diǎn)內(nèi)容,不希望被ROBOTS抓取而公開。為了解決這個(gè)問題,ROBOTS開發(fā)界提供了兩個(gè)辦法:一個(gè)是robots.txt,另一個(gè)是The Robots META標(biāo)簽。
一、robots.txt
1、 什么是robots.txt?
robots.txt是一個(gè)純文本文件,通過在這個(gè)文件中聲明該網(wǎng)站中不想被robots訪問的部分,這樣,該網(wǎng)站的部分或全部內(nèi)容就可以不被搜索引擎收錄了,或者指定搜索引擎只收錄指定的內(nèi)容。
當(dāng)一個(gè)搜索機(jī)器人訪問一個(gè)站點(diǎn)時(shí),它會首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果找到,搜索機(jī)器人就會按照該文件中的內(nèi)容來確定訪問的范圍,如果該文件不存在,那么搜索機(jī)器人就沿著鏈接抓取。
robots.txt必須放置在一個(gè)站點(diǎn)的根目錄下,而且文件名必須全部小寫。
網(wǎng)站 URL
相應(yīng)的 robots.txt的 URL
http://www.w3.org/
http://www.w3.org/ robots.txt
http://www.w3.org:80/
http://www.w3.org:80/ robots.txt
http://www.w3.org:1234/
http://www.w3.org:1234/ robots.txt
http://w3.org/
http://w3.org/ robots.txt
2、 robots.txt的語法
"robots.txt"文件包含一條或更多的記錄,這些記錄通過空行分開(以CR,CR/NL, or NL作為結(jié)束符),每一條記錄的格式如下所示:
"<field>:<optionalspace><value><optionalspace>"。
在該文件中可以使用#進(jìn)行注解,具體使用方法和UNIX中的慣例一樣。該文件中的記錄通常以一行或多行User-agent開始,后面加上若干Disallow行,詳細(xì)情況如下:
User-agent:
該項(xiàng)的值用于描述搜索引擎robot的名字,在"robots.txt"文件中,如果有多條User-agent記錄說明有多個(gè)robot會受到該協(xié)議的限制,對該文件來說,至少要有一條User-agent記錄。如果該項(xiàng)的值設(shè)為*,則該協(xié)議對任何機(jī)器人均有效,在"robots.txt"文件中, "User-agent:*"這樣的記錄只能有一條。
Disallow :
該項(xiàng)的值用于描述不希望被訪問到的一個(gè)URL,這個(gè)URL可以是一條完整的路徑,也可以是部分的,任何以Disallow 開頭的URL均不會被robot訪問到。例如"Disallow: /help"對/help.htm和/help/index.html都不允許搜索引擎訪問,而"Disallow: /help/"則允許robot訪問/help.html,而不能訪問/help/index.html。
任何一條Disallow記錄為空,說明該網(wǎng)站的所有部分都允許被訪問,在"/robots.txt"文件中,至少要有一條Disallow記錄。如果 "/robots.txt"是一個(gè)空文件,則對于所有的搜索引擎robot,該網(wǎng)站都是開放的。
下面是一些robots.txt基本的用法:
禁止所有搜索引擎訪問網(wǎng)站的任何部分:
User-agent: *
Disallow: /
允許所有的robot訪問
User-agent: *
Disallow:
或者也可以建一個(gè)空文件 "/robots.txt" file
禁止所有搜索引擎訪問網(wǎng)站的幾個(gè)部分(下例中的cgi-bin、tmp、private目錄)
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
禁止某個(gè)搜索引擎的訪問(下例中的BadBot)
User-agent: BadBot
Disallow: /
只允許某個(gè)搜索引擎的訪問(下例中的WebCrawler)
User-agent: WebCrawler
Disallow:
User-agent: *
Disallow: /
3、 常見搜索引擎機(jī)器人Robots名字
名稱 搜索引擎
Baiduspider http://www.baidu.com
Scooter http://www.altavista.com
ia_archiver http://www.alexa.com
Googlebot http://www.google.com
FAST-WebCrawler http://www.alltheweb.com
Slurp http://www.inktomi.com
MSNBOT http://search.msn.com
4、 robots.txt舉例
下面是一些著名站點(diǎn)的robots.txt:
http://www.google.com /robots.txt
http://www.ibm.com/robots.txt
http://www.sun.com/robots.txt
http://www.eachnet.com/robots.txt
5、 常見robots.txt錯(cuò)誤
顛倒了順序:
錯(cuò)誤寫成
User-agent: *
Disallow: GoogleBot
正確的應(yīng)該是:
User-agent: GoogleBot
Disallow: *
把多個(gè)禁止命令放在一行中:
例如,錯(cuò)誤地寫成
Disallow: /css/ /cgi-bin/ /images/
正確的應(yīng)該是
Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/
行前有大量空格
例如寫成
Disallow: /cgi-bin/
盡管在標(biāo)準(zhǔn)沒有談到這個(gè),但是這種方式很容易出問題。
404重定向到另外一個(gè)頁面:
當(dāng)Robot 訪問很多沒有設(shè)置robots.txt文件的站點(diǎn)時(shí),會被自動(dòng)404重定向到另外一個(gè)Html頁面。這時(shí)Robot常常會以處理robots.txt文件的方式處理這個(gè)Html頁面文件。雖然一般這樣沒有什么問題,但是最好能放一個(gè)空白的robots.txt文件在站點(diǎn)根目錄下。
采用大寫。例如
USER-AGENT: EXCITE
DISALLOW:
雖然標(biāo)準(zhǔn)是沒有大小寫的,但是目錄和文件名應(yīng)該小寫:
user-agent:GoogleBot
disallow:
語法中只有Disallow,沒有Allow!
錯(cuò)誤的寫法是:
User-agent: Baiduspider
Disallow: /john/
allow: /jane/
忘記了斜杠/
錯(cuò)誤的寫做:
User-agent: Baiduspider
Disallow: css
正確的應(yīng)該是
User-agent: Baiduspider
Disallow: /css/
下面一個(gè)小工具專門檢查robots.txt文件的有效性:
http://www.searchengineworld.com/cgi-bin/robotcheck.cgi
二、 Robots META標(biāo)簽
1、什么是Robots META標(biāo)簽
>Robots.txt文件主要是限制整個(gè)站點(diǎn)或者目錄的搜索引擎訪問情況,而Robots META標(biāo)簽則主要是針對一個(gè)個(gè)具體的頁面。和其他的META標(biāo)簽(如使用的語言、頁面的描述、關(guān)鍵詞等)一樣,Robots META標(biāo)簽也是放在頁面的<head></head>中,專門用來告訴搜索引擎ROBOTS如何抓取該頁的內(nèi)容。具體的形式類似(見黑體部分):
<html>
<head>
<title>時(shí)代營銷--網(wǎng)絡(luò)營銷專業(yè)門戶</title>
<meta name="Robots" content="index,follow">
<meta http-equiv="Content-Type" CONTENT="text/html; charset=gb2312">
<meta name="keywords" content="營銷… ">
<meta name="description" content="時(shí)代營銷網(wǎng)是…">
<link rel="stylesheet" href="/public/css.css" type="text/css">
</head>
<body>
…
</body>
</html>
2、Robots META標(biāo)簽的寫法:
Robots META標(biāo)簽中沒有大小寫之分,name=”Robots”表示所有的搜索引擎,可以針對某個(gè)具體搜索引擎寫為name=”BaiduSpider”。 content部分有四個(gè)指令選項(xiàng):index、noindex、follow、nofollow,指令間以“,”分隔。
INDEX 指令告訴搜索機(jī)器人抓取該頁面;
FOLLOW 指令表示搜索機(jī)器人可以沿著該頁面上的鏈接繼續(xù)抓取下去;
Robots Meta標(biāo)簽的缺省值是INDEX和FOLLOW,只有inktomi除外,對于它,缺省值是INDEX,NOFOLLOW。
這樣,一共有四種組合:
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">
其中
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以寫成
<META NAME="ROBOTS" CONTENT="ALL">;
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以寫成
<META NAME="ROBOTS" CONTENT="NONE">
需要注意的是:上述的robots.txt和Robots META標(biāo)簽限制搜索引擎機(jī)器人(ROBOTS)抓取站點(diǎn)內(nèi)容的辦法只是一種規(guī)則,需要搜饕?婊?魅說吶浜喜判校?⒉皇敲扛鯮OBOTS都遵守的。
目前看來,絕大多數(shù)的搜索引擎機(jī)器人都遵守robots.txt的規(guī)則,而對于Robots META標(biāo)簽,目前支持的并不多,但是正在逐漸增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE還增加了一個(gè)指令“archive”,可以限制GOOGLE是否保留網(wǎng)頁快照。例如:
<META NAME="googlebot" CONTENT="index,follow,noarchive">
表示抓取該站點(diǎn)中頁面并沿著頁面中鏈接抓取,但是不在GOOLGE上保留該頁面的網(wǎng)頁快照.
您可能還沒向百度提交您的網(wǎng)站;
您已經(jīng)登錄了網(wǎng)站,但由于時(shí)間短,百度還未收錄;
如果百度檢測到您的網(wǎng)站無法訪問,您的站點(diǎn)就有可能被百度暫時(shí)刪除;
如果您的網(wǎng)站內(nèi)容有不符合中國法律的地方,則無法被百度收錄;
如果您的站點(diǎn)頁面結(jié)構(gòu)復(fù)雜,則可能無法被百度收錄(詳見如何使您的站點(diǎn)被百度有效收錄);
如果您的網(wǎng)站被百度判別為垃圾站點(diǎn),則可能被百度拒絕收錄或者隨時(shí)刪除(詳見百度關(guān)于垃圾網(wǎng)站的處理)。
如果您的網(wǎng)站的首頁在百度搜索不到,則可能是由于您的網(wǎng)站不穩(wěn)定使首頁被判別為死鏈接導(dǎo)致丟失。您的網(wǎng)站穩(wěn)定后,首頁會重新在百度中被搜索到。 百度并不允諾能收錄所有站點(diǎn)。如果有上述回答無法說明的問題,也可以發(fā)信到webmaster@baidu.com詢問。 答:百度會定期自動(dòng)更新所有網(wǎng)頁(包括去掉死鏈接,更新域名變化,更新內(nèi)容變化)。因此請耐心等一段時(shí)間,您的網(wǎng)站上的變化就會被百度察覺并修正。 答:這是絕對不可能的。
百度的網(wǎng)頁搜索策略的唯一標(biāo)準(zhǔn),在于用戶的搜索體驗(yàn)。競價(jià)排名和網(wǎng)頁搜索自然排名,是完全獨(dú)立的兩個(gè)技術(shù)服務(wù)系統(tǒng)。一個(gè)網(wǎng)站是否是百度競價(jià)排名客戶,對于網(wǎng)頁搜索自然排序無任何影響。
如果您收到任何類似威脅的說辭,請您直接發(fā)郵件至ask@baidu.com舉報(bào)。答:通常情況下,這是正常的現(xiàn)象。因?yàn)椴煌阉饕娴乃惴?,都是不同的?/font>答:通常情況下,這是正常的變化。一般來說,有三類原因?qū)е屡判虬l(fā)生變化:
A. 特定關(guān)鍵詞所涉及的您的網(wǎng)頁發(fā)生了變化
B. 特定關(guān)鍵詞所涉及的其他網(wǎng)頁發(fā)生了變化
C. 百度的排序算法發(fā)生了變化