千葉県のSEO対策ならアガルトマーケティング!代表の春田です。WEBサイトに公開した情報は、クロール→インデックス登録→検索結果の表示(ランキング)の順を辿り、ユーザーが検索エンジンからWEBページを閲覧することができるようになっています。SEO講座の第三回目は、インデックス登録に焦点をあててお届けしていきます。
インデックス登録とは?
ページが検出されると、Google はそのページの内容を把握しようとします。このプロセスは「インデックス登録」と呼ばれます。Google では、ページのコンテンツを分析し、ページに埋め込まれている画像や動画ファイルのカタログを作成して、ページの内容を把握します。この情報は、「Google インデックス」に保存されます。Google インデックスは、膨大な数のコンピュータに格納された巨大なデータベースです。
引用:https://developers.google.com/search/docs/beginner/how-search-works?hl=ja
Googlebot は、ページのコンテンツを把握するために、クロール対象の各ページを処理します。 これには、テキスト コンテンツ、主要なコンテンタグや属性(
<title>
タグや alt 属性)、画像、動画などの処理が含まれます。引用:https://developers.google.com/search/docs/advanced/guidelines/how-search-works?hl=ja
<解説>
クロールにより検出されたページを理解するために、テキストコンテンツや属性、画像を処理することインデックス登録と呼びます。そして、処理したデータはGoogleインデックスと呼ばれるデータベースに保存されます。
Googleインデックスとは?
Google ではキーワードやウェブサイトの新しさといった主要なシグナルに注目し、検索インデックスにそのすべての情報を記録しています。
Google 検索のインデックスには何千億ものウェブページが登録されており、その容量は優に 1 億 GB を超えます。Google のインデックスには、本の巻末にある索引と同じように、各ウェブページに含まれているすべての語が 1 つずつ追加されています。つまり、インデックスにウェブページが登録されると、そのページに含まれるすべての語がインデックスに追加されるということです。
引用:https://www.google.com/search/howsearchworks/crawling-indexing/
<解説>
インデックス登録により処理されたデータが格納される「Googleインデックス」には、どのようなワードが入っているか、画像が入っているかを記録し、それらが追加されます。
Googleが公式に出している上記動画では、マットカッツ氏がこのように述べています。
Google検索が行われるとき、Googleがウェブ上で見つけることができたものの中から(ユーザーは)検索しているのです。
<解説>
ユーザーが検索ボックスで入力すると、Googleインデックスに含まれた膨大なWEBサイトの中から探しだし、最適な答えと思われるものから順番に検索結果に表示します。つまり、Googleインデックス内に記録されているデータ内から抽出されているということですので、インデックス登録がなされなければ、検索結果にも表示されないということです。
記事を更新したにも関わらずコンテンツが検索結果に表示されないという場合には、クロールがまわってきたのか?Googleインデックスに記録されているのか?という点の確認が必要です。
インデックスに登録する/されるとは?
「インデックスに登録する」とは、Google がページを取得し、そのページを読み込んで、インデックスに追加することを意味します。たとえば、「今日、私のサイトのいくつかのページを Google がインデックスに登録しました」のように使います。
引用:https://developers.google.com/search/docs/beginner/seo-starter-guide?hl=ja
<解説>
インデックスに登録された、という言葉はSEOについて触れていると聞き馴染みのある言葉と思いますが、これはGoogleインデックス(検索結果の表示に使われるデータベース)に登録されたことを示しています。
クロールからインデックス登録の間に行われること~重複・正規ページの判断~
Google は、クロールからインデックス登録までの間に、ページが別のページの重複または正規ページかどうかを判断します。ページが重複していると見なされると、ページのクロール頻度が大幅に低下します。
引用:https://developers.google.com/search/docs/advanced/guidelines/how-search-works?hl=ja
重複ページは完全に同一である必要はありません。たとえば、リストを表示するページで並べ替えやフィルタリング(価格による並べ替えやアイテムの色によるフィルタリングなど)がわずかに違っているだけでは、別個のページと見なされません。正規 URL は、重複 URL と別のドメインに存在することがあります。
引用:https://developers.google.com/search/docs/advanced/crawling/consolidate-duplicate-urls?hl=ja
<解説>
正規ページとは、例えば、A・B・Cの類似(同様の内容)するページがあった場合の中で、最も代表的なページであると Google が判断したページの URL です。重複ページに該当するのは、全く同一のページ、わずかに違いのあるページのことを指します。また、重複ページは同一ドメイン内だけでなく、別ドメインの場合であっても判断されます。
重複ページと見なされたページに関してはクロールの頻度が大幅に低下するということですので、そのページはGoogleにとって重要なページではないと判断されるわけです。
類似したページは 1 つの「ドキュメント」にグループ化されます。これは、1 つ以上のページからなるグループで、正規ページとその重複として検出されたすべてのページで構成されます。
引用:https://developers.google.com/search/docs/advanced/guidelines/how-search-works?hl=ja
<解説>
Googleは重複しているか否かの判断をして、さらに類似しているページ同士をグループ化してまとめています。(賢いですね)
Googleにインデックス登録させないためには?
特定のページを検索結果に表示させたくない場合には、そもそも抽出に使われるGoogleインデックスに記録させないようにする必要があります。
noindex
ディレクティブ(ヘッダーまたはタグ)が実装されたページは Google のインデックスに登録されません。ただし、クローラがディレクティブを認識できるようにする必要があります。robots.txt ファイル、ログインページ、他のデバイスなどによってページがブロックされている場合、Google がページにアクセスしていなくてもインデックスに登録されてしまう可能性があります。引用:https://developers.google.com/search/docs/advanced/guidelines/how-search-works?hl=ja
<解説>
Googleインデックスに記録させないためには、noindexディレクティブを使います。しかし、このnoindexディレクティブを有効に機能させるためには条件があり、しっかりクローラが読み込みできるようにしなければなりません。その条件とは、下記の通りです。
・robots.txt ファイルでクローラをブロックしていない
・匿名ユーザーが入れないログインが必要なページではない
・他のデバイスなどによってブロックしていない
この条件を満たしていなければ、noindexを利用していたとしても、正しく機能しない(検索結果に表示されてしまう)ことがあります。
重要:
noindex
ディレクティブが有効に機能するようにするためには、robots.txt ファイルでページをブロックせず、クローラがページにアクセスできるようにする必要があります。ページが robots.txt ファイルでブロックされるか、クローラがページにアクセスできないと、クローラはnoindex
ディレクティブを認識しません。そのため、たとえば他のページからリンクされていると、ページは検索結果に引き続き表示される可能性があります。引用:https://developers.google.com/search/docs/advanced/crawling/block-indexing?hl=ja
<解説>
クローラが巡回し、noindexディレクティブを発見することにより検索に表示されなくなるのですが、robots.txtでクロールさせないとnoindexディレクティブを発見することができなくなり、ページが表示されてしまう可能性があります。しかし、ここで疑問に思う方もいるでしょう。クロールされないのであれば、そもそも表示もされないはずではないかと。その答えは下記になります。
robots.txt でブロックされたページはクロールされませんが、別のページにリンクされている場合には、インデックスに登録される可能性があります。Google は、ページへのリンクをもとにページの内容を推測し、コンテンツを解析せずにそのページをインデックス登録することがあります。
匿名ユーザーがアクセスできないページはクロールできません。したがって、ログインなどの認証によって保護されたページはクロールされません。
引用:https://developers.google.com/search/docs/advanced/guidelines/how-search-works?hl=ja
<解説>
基本的には、クロール→インデックス登録→検索結果の表示になるのですが、コンテンツを解析せずにページへのリンクだけでコンテンツの中身を推測し、インデックス登録することがあるのです。あくまで推測になりますが、リンク元のページとリンク先のアンカーテキストによってある程度予測しているのではないかなと思います。というのも、これぐらいの情報しかありませんからね。この点をより深く考えると、強化したいページがある場合には、内部リンクを貼り付ける際に、関連したページ同士、適切なアンカーテキストが大切であると、この点からも考えられます。
リンクテキストとは、リンク内に表示されるテキストです。このテキストはユーザーや Google に対して、リンク先のページについての情報を伝えます。ページ上のリンクには内部的なリンク(サイト上の他のページを参照しているもの)もあれば、外部的なリンク(他のサイトのコンテンツにつながるもの)もあります。どちらの場合も、アンカー テキストが効果的であればあるほど、ユーザーはナビゲートしやすくなり、Google はリンク先のページを理解しやすくなります。
引用:https://developers.google.com/search/docs/beginner/seo-starter-guide?hl=ja
こちらにも、アンカーテキスト(リンクテキスト)の重要性が記載されていますね。
効果的にインデックス登録させるためには?
Google がページのコンテンツを適切に把握できるようにするには、以下のようなさまざまな手法があります。
noindex
タグを使用して、非表示にするページを Google がクロールまたは検出することを防ぎます。ただし、robots.txt によってブロックされているページで「noindex」を使用しても、noindex
が認識されず、ページがインデックス登録される可能性があります。Google のウェブマスター向けガイドラインを遵守します。
その他のヒントについては、SEO スターター ガイドと上級ユーザー向けガイドをご覧ください。
引用:https://developers.google.com/search/docs/advanced/guidelines/how-search-works?hl=ja
短くわかりやすいページタイトルを作成します。
ページの内容が伝わる見出しを付けます。
画像ではなくテキストを使用して、内容を伝達します。Google では一部の画像や動画については理解できますが、テキストの方が理解しやすくなります。少なくとも、代替テキストや他の属性を適宜使用して、動画や画像にアノテーションを付けるようにしてください。
引用:https://developers.google.com/search/docs/beginner/how-search-works?hl=ja
<解説>
いかにGoogleインデックス(データベース)に理解されやすい形でコンテンツを作成して格納させるか、というのが効果的なインデックス登録方法になります。なるべく画像ではなくテキストを使用するというのがポイントですが、一時期こちらをはき違えて理解されていた方が、テキストをマージン-9999pxなどで表示外に飛ばしていたりしましたが、そういった行為は不要です。
サイトが Google のインデックスに登録されているかどうかの確認方法
「
site:
」検索を使用してサイトのホーム URL を検索します。検索結果が表示されたら、インデックスに登録されていることがわかります。引用:https://developers.google.com/search/docs/beginner/seo-starter-guide?hl=ja
<解説>
検索エンジンでsite:URLと入力して検索結果にページがヒットすれば、インデックス登録されており、検索結果表示(ランキング)もされていることがわかります。しかし、インデックス登録がなされていても、検索結果表示されていないこともあります。site:以外のインデックス登録確認はサーチコンソールのカバレッジより可能です。
Googleにインデックス登録されない原因とは?
サイトがウェブ上の他のサイトから十分にリンクされていない。
新しく立ち上げたばかりのサイトで、Google がまだクロールできていない。
サイトのデザイン上の問題により、Google がコンテンツを効果的にクロールできない。
Google がサイトをクロールしようとした際にエラーが発生した。
サイトのポリシーによって Google によるサイトのクロールをブロックしている。
引用:https://developers.google.com/search/docs/beginner/seo-starter-guide?hl=ja
<解説>
クローラは基本的にリンクとリンクを辿りページを発見しますので、リンクがなされていない場合や、そもそもクロールされなければインデックス登録はされません。(例外もあります)
Googleにより理解してもらうためには?
情報が豊富で便利なサイトを作成し、コンテンツをわかりやすく正確にページに記述します。
ユーザーがサイトを検索するときに入力する可能性の高いキーワードを検討し、そのキーワードを実際にサイトに含めるようにします。
<title>
要素とalt
属性をわかりやすく、具体的で正確なものにします。コンセプトに基づいたわかりやすいページ階層となるようにサイトをデザインします。
画像、動画、構造化データに関するおすすめの方法に沿って対応します。
コンテンツ管理システム(Wix や WordPress など)を使用する場合は、検索エンジンによるクロールが可能なページとリンクが作成されることを確認します。
Google がサイトのコンテンツを完全に把握できるよう、サイトにおいてページのレンダリングに大きく影響するアセット(ページの把握に影響する CSS や JavaScript ファイルなど)がすべてクロールされるようにしてください。Google インデックス登録システムは、画像、CSS、JavaScript ファイルを含めて、ユーザーが実際に閲覧する場合と同じようにウェブページをレンダリングします。Googlebot がクロールできないページアセットの確認には、URL 検査ツールを使用し、robots.txt ファイル ディレクティブのデバッグには、robots.txt テスターツールを使用します。
サイト内の移動経路をトラッキングするための URL パラメータやセッション ID がなくても、検索ロボットがサイトをクロールできるようにします。これらの技術は個々のユーザーの行動をトラッキングする場合には便利ですが、ロボットがアクセスするパターンとはまったく異なります。そのため、これらの技術を使用すると、実際は同じページにリンクしている別の URL をロボットが排除できず、そのサイトのインデックスが不完全なものになる可能性があります。
サイトの重要なコンテンツをデフォルトで表示します。Google はタブや展開するセクションなどのナビゲーション要素内に含まれる非表示の HTML コンテンツをクロールできますが、こうしたコンテンツはユーザーがアクセスしにくいものとみなされ、また、最も重要な情報はページの表示時にデフォルトで閲覧可能となっているものと解釈されます。
ページ上の広告リンクが検索エンジンの掲載順位に影響を与えないように、適切な対処をします。たとえば、robots.txt、
rel="nofollow"
、rel="sponsored"
を使用して、クローラが広告リンクをたどらないようにします。引用:https://developers.google.com/search/docs/advanced/guidelines/webmaster-guidelines?hl=ja
<解説>
引用が長くなってしまいましたが、いずれも重要なものなので抜粋しました。コンテンツを分かりやすくするためには、適切な見出し設定で構造を理解しやすくする必要があります。また、ユーザーが検索するであろうキーワードを対策キーワードとし、コンテンツに含めます。上記の中で見落としがちなのが、重要なコンテンツをデフォルトで表示しておく点です。記載ある通り、クロールすることはできるものの、その中身は重要でないと判断されてしまい、そこに含まれる文章としての評価は得られにくくなります。その内容がユーザーにとっても、Googleに対しても重要である場合は、なるべくデフォルトで表示させておくようにしましょう。
まとめ:インデックス登録とは?効果的なインデックス登録方法について|Google検索の仕組み
いかがでしたか?今回はインデックス登録についてお届けしましたが、インデックス登録と一口にいっても奥深いものであると理解いただけたかと思います。ガイドラインなど解説しきれない部分などは別講座でお届けしていきます。次回は、Google検索の仕組みの3フェーズ目となる検索結果の表示(ランキング)をテーマにお届けしていきますので、次回も是非ご覧ください。