こんにちはゲストさん。会員登録(無料)して質問・回答してみよう!

締切り済みの質問

Googleロボットがトップページ以外のページを見に来てくれない

あるサイトを2006年8月下旬に公開し、GoogleにURLを登録しました。
何ヶ月かして、一応トップページはインデックスに登録されたようです。
しかし、トップページからリンクしているその他のページはクロールされた形跡がありません。
ちなみにメタタグの検索ロボット制御は"index,follow"にしてあります。
この場合、トップページの構造自体に問題があると思えるのですが、以下にトップページの概要を記述しましたので、どのあたりがクロールしてくれない原因になっているのかご教授いただけませんか。
よろしくお願いいたします。

・テーブルレイアウトではなくCSSレイアウトを採用
・テキストは一切なく、画像のみで構成されている
・その他のページへのリンクは、テキストリンクではなく画像リンク(リストタグでマークアップし、Aタグのalt属性に代替テキストを入れてある)
・サイト名の画像など、重要な文言の画像は<h1>タグなどでマークアップ(<h1>タグなどで<img>タグを囲んでいる状態)
・JavaScriptを使ってFlashを表示させている箇所がある
・Googleウェブマスターツールを利用し、sitemap.xmlとrobots.txtをアップロードしている
・インデックス登録はされているが、サイト名で検索してもひっかからない
・被リンク数はゼロ
・ページランクは割り当てられていない
・ドメインは7年前から取得していたが、上記の日付までは何もなかった
・Yahooでは、サイト名で検索すると1位で、サブページもクロールされているようである
・MSNでは、Googleと同じように全く検索にひっかからない

(自分的には、2番目と3番目あたりが怪しいのではと思っていますが、
テキストを入れることやテキストリンクにすることはできる限り避けたい状況です。)

投稿日時 - 2006-12-12 17:21:06

QNo.2596669

困ってます

このQ&Aは役に立ちましたか?

0人が「このQ&Aが役に立った」と投票しています

回答(2)

ANo.2

私も今年の8月下旬にサイトを公開し,Google に URL を登録しました.
11日後,ようやくトップページだけが検索できるようになりました.
しかしそれ以外のページは,トップページと同じ日に一つ一つ URL を
登録したにもかかわらず,なかなか検索できるようになりませんでした.

しかもその後,そのトップページさえ検索できなくなることが2回ありました.
公開から約1ヶ月経って,ようやくトップ以外のページも検索できるようになりました.

どういうわけか,トップページ以外が検索できるようになるには
かなり時間がかかるようです.他の人も同様の経験をしているようです.
http://oshiete.nikkeibp.co.jp/qa2487901.html
http://oshiete.nikkeibp.co.jp/qa2517203.html


ところで,AyakoNeco さんは重要な点を誤解なさっています.

> ・テキストは一切なく、画像のみで構成されている
> ・その他のページへのリンクは、テキストリンクではなく画像リンク
> (リストタグでマークアップし、Aタグのalt属性に代替テキストを入れてある)
> ・サイト名の画像など、重要な文言の画像は<h1>タグなどでマークアップ
> (<h1>タグなどで<img>タグを囲んでいる状態)

これらは,(alt 属性の代替テキストを除き) 検索ロボットにとっては
何の意味もありません.なぜならば,検索ロボットには「目がない」からです.
つまり,画像ファイルを見て,そこに書かれてある文字を読み取ることはできません.
画像を見て,そこに何が写っているか理解することは,人間には簡単でも
機械には非常に困難です.

世の中には,実用化されている文字読み取り装置 (郵便物に書かれている郵便番号
と住所を読み取る装置や,通過する車のナンバープレートを読み取る装置など) も
ありますが,これらはあらかじめどういう画像で,どこに何があるかということが
想定できるからなんとか実現できているのです.

これに対し,Web 内にある画像は非常に多種多様で,検索ロボットはどういう画像に
遭遇するか,まったく想定できません.このような状況に対応できる文字読み取り
装置は,現在の技術ではほとんど実現不可能です.

ではなぜテキストは読めるのか,と思われるかもしれませんが,コンピュータは
「文字の形を見て」いるわけではありません.文字の一つ一つに「背番号」
(文字コード) を割り当て,その数字の列を読み取っているのです.例えば半角の
"A","B","C" にはそれぞれ 65,66,67 という背番号が割り当てられています.
したがってコンピュータが "ABC" というテキストを読むとき,"A","B","C"
の形を見ているわけではなく,65,66,67 という数字の列を読み取っているのです.
これは (画像の理解とは異なり) コンピュータが非常に得意とする仕事です.


そういうわけで,検索ロボットは画像ファイルをクロールすることはおそらく
ないし,もしあったとしても画像を「見る」わけではなく,せいぜい画像の
フォーマットとサイズを調べるだけでしょう.「画像検索」というのもありますが,
これらは画像を理解してキーワードに関連付けているわけではなく,画像への
リンク元のページ内のキーワードや ALT 属性の代替テキストに関連付けている
だけです.


> テキストを入れることやテキストリンクにすることはできる限り避けたい状況です。

どうしてそこまでテキストを避けたいのか理解できませんが,
それは事実上「検索拒否」をしていることになります.
既に述べたように検索ロボットにとっては画像は何の情報にもならず,
テキスト情報だけがすべてです.検索できるようにするには,
テキスト情報をたくさん入れるしかありません.

自分のホームページにメールアドレスを公開している人の中には,
それを画像で掲載している人がいます.これはスパム対策で,自分の
メールアドレスを「検索できないようにする」ための方法です.
テキストで掲載してしまうと,スパマーのメールアドレス収集ロボットに
収集されてしまい,迷惑メールを送りつけられるはめになります.
それを防ぐのが目的です.

投稿日時 - 2006-12-15 02:46:29

googleは、同一ドメイン内では、トップページのみリンクされるようです。
私の管理してるサイトでは、トップページと、その下に一部内部メニューの構造が表記されます。
同一ドメインでは、トップページがリンクされ、
ツリー構造のサブページは、別に表記されるのではないでしょうか?
Googleは最も優れたサーチエンジンと言われていますので、その辺りも優れていると言えるんじゃないでしょうか。
ちなみに、サブページのタイトルを検索すれば、そのページが表示されますよ

投稿日時 - 2006-12-14 10:33:13

補足

groovyrealityさん、回答ありがとうございます!
残念ながら上記のサイトのサブページは表記されません。
なお、トップページのタイトル(企業名)でさえも、検索しても表示されない状態です。
ただ、「allintitle:タイトル名」ではきちっと表示されますのでインデックスはされているようです。
同一ドメイン内の英語ページのトップページはインデックスされているようです。
ここ最近はインデックスの登録が確認できない状態ですが・・・。
サブページは「allintitle:」を付けても表示されません。
Googleではスパム扱いなんですかね?
不思議です・・・。
ちなみに、Lynxでもブラウジング可能な構造です。

投稿日時 - 2006-12-14 14:21:19

あなたにオススメの質問