大手サイトの robots.txt と sitemap をのぞいてみた。



仕事でとあるサイトの新規構築をしていて、サイトマップインデックスファイルを作ろうと思ったのですが、これ robots.txt に普通の sitemap として記述していいのかどうかわからなかったんですよ。
検索とかしてみたのですが日本語の情報がなく。


あ、念のために解説しておくと、検索エンジンクローラー(ロボット)にサイト構造を伝えるXMLサイトマップっていうのがありまして。
ページ数が多いサイトなんかは、サイトマップインデックスファイルっていうXMLサイトマップの目次みたいなのを作るんですわ。
目次の目次って何だよって感じですが、まあ、ページ数が多いんだから仕方ないんですわ。


Googleの ウェブマスター向けヘルプとか読んでも「 robots.txt には複数のsitemapを記述できるよ」みたいなことだけ書いてある。それをまとめてサイトマップインデックスファイルにした場合はクロールしてくれるのかどうかを知りたいんだよね。
まあ、多分、問題ないんだろうけど、情報がないのは気持ち悪い・・・


sitemap.orgを見ると、複数のsitemapをサイトマップインデックスファイルにまとめられると書いてあるけど、その他のサイトには情報がないんだよな。



んーーー



あ、大手サイトのrobot.txtを見て参考にしてみれば分かるかもしれない・・・!



さっそく、みんな大好きAMAZON( co.jp )の robots.txt を見てみます。



■アマゾンのrobots.txt
http://www.amazon.co.jp/robots.txt

# Sitemap files
Sitemap: http://www.amazon.co.jp/sitemap_dp_index.xml
Sitemap: http://www.amazon.co.jp/sitemap_mobile_dp_index.xml
Sitemap: http://www.amazon.co.jp/sitemap-manual-index.xml
Sitemap: http://www.amazon.co.jp/sitemap_index_s.xml



お。
sitemap_dp_index.xml・・・アマゾンさんはサイトマップインデックスファイルを使用しているようです。

っていうかGooglerobots.txt見たら、Google様自体がサイトマップインデックスファイルを Sitemap: で記述してたわw
無問題ということがわかり、問題解決www


それにしても大手サイトの sitemap おもろいよ!!
ちょこーっとだけどSEO的な施策も見えるところもあるし。


以下はamazon.co.jpサイトマップから。

sitemap_dp_index.xml
商品個別のURLを出力した XMLsitemapが991ファイル。
1ファイル中に2万件前後の商品URLが出力されているっぽいから、たぶん全商品分なんじゃないかなー。
AMAZONはURLルールが複雑なんだけど、検索エンジンに伝えたいキレイなURLを渡している模様(←ここらへん興味深い)


sitemap-manual-index.xml
manualとあるから、手動更新しているファイルなのかな?中身はsitemap_e_15.xmlというサイトマップが1ファイル登録されているだけ。
中身はバリバリのLPO施策。意外に地道な活動してるんだなあ・・・ 

こんな感じ↓




sitemap_index_s.xml
これは、いまいち目的がわからないけど、検索結果ページのURLを集合体。
闇雲に出しているわけではなさそう (検索結果ページってほぼ無限にあるから、その中からわざわざクローラーに見せようとしているからには何か意味があるはず) なんだけど、出力条件と目的が見えないんだよな・・・「カテゴリ絞り込み+数字でのフリーワード検索」みたいなのの羅列。。。アクセス数の多い検索結果とかかなあ・・・
中身みたい方は、http://www.amazon.co.jp/sitemap_s_0001.xmlあたりを見てくださいな。



sitemap_mobile_dp_index.xml
mobileとあるので、携帯サイトですね。
意外とシンプルな構成・・・。まだまだ発展途上な感じがするので、あまり参考にはならないかも。




■他の大手サイトrobots.txt

・・・を書こうと思ったんだけど、もう疲れたwのでxサラっと。


ツイッター
( http://twitter.com/robots.txt )
XMLサイトマップはなし。
サーバ負荷が大き目だからか Crawl-delay をキッチリ入れているところが渋いw
大手三社のクローラーと、それ以外でDisallowしてる範囲が違う。
User-agent:  だけに Disallow: /oauth かけてるとか。


Google
( http://www.google.co.jp/robots.txt )
上の方でも書いたけど、サイトマップインデックスファイルを
Sitemap: http://www.google.com/hostednews/sitemap_index.xml
って普通に記述してた。

<url>
  <loc>http://www.google.com/ventures/
  <priority>0.5</priority>
</url>

<url>
  <loc>http://www.google.com/ventures/index.html
  <priority>0.5</priority>
</url>

・・・って、同じものを書いているあたりがGoogleなのにお茶目すぎるだろwww




Youtube ( http://www.youtube.com/robots.txt )

User-agent: Mediapartners-Google
Disallow:

と、GoogleAdSense用のクローラーであるMediapartners-Google除けをしておりますです。
うむむ、これ、どういう意味があるんだろ・・・時間あれば調べてみようかな。




Adobe ( http://www.adobe.com/robots.txt )

のっけから、

# This file is used to allow crawlers to index our site.
#
# List of all web robots: http://www.robotstxt.org/wc/active/html/index.html
#
# Check robots.txt at:
# http://www.searchengineworld.com/cgi-bin/robotcheck.cgi
とか、コメントが書かれていて、ロボットが読むファイルにコメントなんて、Adobeかわいいとか思いますたwww

他にもgsa-crawler-www(たぶんgoogleアプライアンスクローラー)とか、

# The Omniture search engine can see everything
User-agent: Atomz/1.0

ってオムニチュアのクローラーについて記述されていたりして、珍しいものを見た感じ(だから何ってわけじゃないけどね)




Yahoo!JAPAN
なんと、ないんです・・・。robots.txtがないんだよー
これって、人間がアクセスできないだけでクローラーからはアクセスできるのかなあと思って、 ユーザーエージェントをクローラーのものにしてアクセスしてみたりしたけど、ダメだった><
ホントにないのかなあ・・・






■まとめ
えー、まあこれはお遊びみたいなもので、robots.txt とか XMLサイトマップを見ること自体に意味はないです><
真似しても、そんなに良いことないので注意w