robots的運用

一、Robots.txt的基礎語法
1、如何建立一個robots.txt
注意事項:
第一,在冒號后面一定要空格
第二,Disallow 語法是寫在定位的語法下面的
第三,帶斜杠和不帶斜杠有區別
User-agent: *
Disallow: /admin
User-agent: *
Disallow: /admin/
不帶“/”所有以 admin 開頭的文件或者文件夾他都包括。
Allow 這個語法有什么含義呢?
含義是:允許 與Disallow是相對的,他可以讓robots更加簡潔
第四、沒有屏蔽就是默認允許抓取的
如在/php/文件夾下面有動態也有靜態,靜態需要允許,動態需要屏蔽的,我們要怎么做?
第一 要用到allow
第二 我們 要用到通配符
兩個常用通配符:“$” 匹配行結束符“*” 匹配0或多個任意字符
我們允許抓取靜態后綴是 .html
正確語法:
User-agent: *
Disallow: /php/
Allow: /php/*.html$
如果我們知道需要允許的靜態路徑后綴是 .html,那么這么寫就是最簡潔的。.html$(路徑截止到的html)
如果我們不知道需要允許的靜態路徑后綴是什么,那么該如何寫?
我們就直接屏蔽/php/文件夾內的動態路徑
User-agent: *
Disallow: /php/*?*
本節要點:
一、利用robots解決站內的不合理鏈接
1.robots.txt一定要結合日志
是不是 我們看日志就是為了查404?
假蜘蛛,Chinaz就有爬取的蜘蛛,只要你使用chinaz他就回來爬取,在日志中也顯示Baiduspider,為了方便采集我們的網站。
空間有自動的屏蔽措施,為了防范CC攻擊的,如果百度抓取過多也會被屏蔽,我們在買空間時一定要注意,百度蜘蛛有專用的IP和IP段,我們要會檢查假蜘蛛。
例子日志:
2012-05-12 00:07:43 W3SVC2 116.255.210.150 GET /book.php action=shopping&sort=new&tag=%E5%B9%B4%E5%B0%91 80 – 220.181.108.87 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 64
我們從Baiduspider/2.0就看出這是百度蜘蛛,服務器IP:116.255.210.150 百度IP:220.181.108.87
這個IP是百度的,這個IP段220.181.108.*也就是百度的,自己多總結。
例子日志:
2012-05-10 03:17:01 W3SVC129 116.255.169.115 GET /index.php – 7777 – 118.244.1.31 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 0 23529 341 2390
這就是百度假蜘蛛118.244.1.31 這個要屏蔽掉的,服務器與空間都有禁止IP的功能。
為什么我們說 robots.txt 是要結合 IIS日志來進行使用的?
因為IIS日志是可以查看一些反常路徑
1、我們要來查看百度蜘蛛(真蜘蛛)或谷歌的機器人(真機器人)他沒有反復的大量的抓取某個目錄或者路徑。
2.如果反復抓取某個頁面,
首先我們要考察的是他反復的這個頁面是不是我們要參與關鍵詞排名的重要頁面,首先不管別的,先屏蔽再說。
再來看這個路徑為什么會導致他反復抓取?是因為怎樣的原因?內鏈的原因?還是,外鏈原因?
1.這個頁面到底是不是參與排名的頁面,首先不管別的,先屏蔽再說。因為很有可能會因為這個頁面降低我們整個網站的信用度。
2.結合日志查看404頁面,我們主要關注百度與谷歌,robots.txt只針對搜索引擎不針對用戶,減少搜索引擎的蜘蛛對于頁面抓取造成的困擾。
首先我們要看這個404是不是硬傷,我們只屏蔽那些無法取消的外鏈導致的。內鏈只要改正就可以,不需要屏蔽
二、robots.txt一定要結合SITE命令來使用。
因為只有SITE命令才可以很清洗的看到我們網站當前的被搜索引擎收錄的致命的硬傷,我們可以看出:重復頁面的、無內容頁面、還可以可以看死鏈接頁面等。
例子:
1.百度site? http://www.baidu.com/baidu?word=site%3Awww%2Eseomxc%2Ecom&se=360se_8_dg&ie=utf-8? 只有三個重復標題
2.百度site? http://www.baidu.com/s?bs=site%3Awww.seomxc.com&f=8&rsv_bp=1&wd=site%3Awww.yihekangmei.com&rsv_n=2&inputT=438? 除了首頁是長標題,其他沒發現問題
3.site:www.xingyoucn.com?? 問題1? http://www.xingyoucn.com/scene/aoxin/lvyouditu/1601.html 這是一個無內容頁面,是須要屏蔽的,這些頁面的排名也是很差,都在后面。
4.site:www.sino-ele.cn
大量標簽頁面被百度收錄,內容也都是重復的

http://www.sino-ele.cn/tags/yoobao

http://www.sino-ele.cn/tags/yoobao

5.site:www.yagesheying.com 收錄405個 婚紗攝影站,網站全站都是重復標題。
婚紗照片欣賞_石家莊雅格攝影工作室
賽事自7月21日在石家莊攝影基地正式啟動,距今三個多月,來自中國、馬來西亞、印度尼西亞、新加波等亞太地區數百家影樓職業石家莊攝影團隊的幾百幅作品經過資深評委專家…
www.yagesheying.com/news.asp?typeid=3&id=156 2012-3-28 – 百度快照
婚紗照片欣賞_石家莊雅格攝影工作室
石家莊婚紗攝影告訴準新娘們如何選婚紗影樓時間:2011-11-8 瀏覽:133 一.選風格。一定要多問幾家,最起碼讓自己心里有個概念,要問問,看看每家攝影樓的風 格,…
www.yagesheying.com/news.asp?typeid=3&id=444 2012-4-22 – 百度快照
6.site:www.szv1.com 婚紗攝影 也是有重復標題 大部分都是長標題與相似標題
相似標題例子:
市外景區_服務報價_深圳唯一視覺攝影|深圳婚紗攝影|外景婚紗工作…
省外景區_服務報價_深圳唯一視覺攝影|深圳婚紗攝影|外景婚紗工作…
除了“市外”“省外”其他都是重復的
動態客服路徑都被收錄了,要趕緊處理
馬上在線溝通
唯一視覺攝影建議您,通過QQ和我們取得聯系,溝通大致意向,預約來店感受唯一視覺魅力! 正值婚紗攝影拍攝絕佳季節,唯一視覺攝影提醒廣大新人預約從速,唯一視覺攝影將為
www.szv1.com/qqchat.php?TB_iframe=true&he … 2012-4-19 – 百度快照
7.site:www.strongrising.com
網站內頁與網站首頁出現重復
實創興電子
2012年的3月底,實創興電子有限公司舉行了一年一度的代理商大會。 大會進行過程中,代理商參觀了生產車間的環境,了解產品從無到有的過程。 代理商在實創興電子有限…
www.strongrising.com/cn/newshow.asp?pagei … 2012-4-17 – 百度快照
實創興電子
實創興電子2011年度代理商大會成功啟動 2011-10-31 防偽通知(實創興電子) 2011-10-26 實創興發布全球首款O版旋轉網卡SEV759+ 2011-10-25 實創興超“…
www.strongrising.com/ 2012-5-11 – 百度快照
還有一個英文的出現重復
Strongrising
1 2 3 News Hong Kong Electronics Fair in October.2011 2011-9-2 India, Brazil, field visits to our company 2011-4-20 The successful completion of …
www.strongrising.com/en/ 2012-4-29 – 百度快照
這個英文的頁面肯定是要robots.txt
8.site:www.dgfavourite.com
百度的問題,不用管他
東莞市君寶印刷廠-高檔畫冊印刷_說明書印刷_精品吊牌印刷_彩色貼…
東莞市誠信企業,我們引進了德國海德堡公司印刷及后加工設備,專注于高檔畫冊印刷、說明書印刷、精品吊牌印刷、彩色布標印刷、彩色貼紙印刷、宣傳冊印刷等。印刷咨詢…
www.dgfavourite.com/ 2012-5-10 – 百度快照
東莞市君寶印刷廠-高檔畫冊印刷_說明書印刷_精品吊牌印刷_彩色貼…
東莞市誠信企業,我們引進了德國海德堡公司印刷及后加工設備,專注于高檔畫冊印刷、說明書印刷、精品吊牌印刷、彩色貼紙印刷、宣傳冊印刷等。咨詢熱線:0769-82311871
ww.dgfavourite.com/ 2012-4-23 – 百度快照
這樣的不相關內容頁面必須屏蔽!
太極與UFO
太極世界太極與UFO作者 馬國相太極武館 邱學文 –淺談UFO之迷– 人類認識了自身便認識了宇宙。在我五歲的時候,也就是1973年7月份,父母把我送到十里外的…
www.dgfavourite.com/qiyewenhua/taiji/2011 … 2011-11-9 – 百度快照
生日感言
今天是個特別的日子,感謝媽媽在26年前的今天讓我來到這個世界,今天的生日很完美,爸媽都在身邊,還有心愛的老婆,和我們調皮的心肝寶貝。在這26年里我經歷了風…
www.dgfavourite.com/qiyewenhua/taiji/2011 … 2012-4-23 – 百度快照
藝術作品JB-33(酉水漁歌)
藝術作品JB-33(酉水漁歌)上一篇:藝術作品JB-32(鷹) 下一篇:藝術作品JB-34(玉質國色溢天香) 友情鏈接: 北京印刷公司 版權…
www.dgfavourite.com/qiyewenhua/zhouyongha … 2012-4-18 – 百度快照
三、Robots.txt網站的垃圾內容和路徑才進行屏蔽和調整
1.企業新聞
2.垃圾連接
3.雙重路徑進行處理
我們要去掉入口,在使用Robots.txt 對目錄進行屏蔽。如果我們做了偽靜態,是要/*?*屏蔽所有動態,博客的tag 時間劃分 目錄分類 會出現3個重復路徑,需要屏蔽其中2個或一個。

本文固定鏈接: http://www.cimtve.live/seojiaocheng/172.html | 無錫SEO

該文章由 無錫seo 于2012年05月13日發表在 SEO高級課 分類下, 訪客可以發表評論,并在保留原文地址及作者的情況下引用到你的網站或博客!
原創文章,轉載請注明: robots的運用 | 無錫SEO
【上一篇】
【下一篇】
收縮
福彩三d走势图