クローラーとは？仕組みやクローラビリティ向上のポイント、インデックスの制御と確認方法を紹介

SEO

2022年 7月 5日

クローラーは、Webサイトを巡回してデータを集める検索エンジンのロボットプログラムです。クローラーに適切なサイト情報を渡すことも重要なSEO施策です。クローラーの仕組みやクローラビリティ向上のポイント、インデックスの制御と確認方法を紹介します。

クローラーとは？

クローラーとは、検索エンジンがWebサイトの情報を収集するためにインターネット上を巡回させているロボットのことです。

英語で「這いまわる」という意味の「crawl」を語源としており、自動で動くプログラムであるため「ボット」、あるいはWeb（クモの巣）を巡回することから「スパイダー」とも呼ばれます。

クローラーはリンクを辿ってWebサイト上を移動し、Webサイト内のコンテンツなどを解析・収集してデータベースに登録します。これによりGoogleなどで検索したとき、検索結果にWebサイトが表示されるようになるのです。

そのため、自社のWebサイトを検索結果の上位に表示させたい場合、Webサイトをクローラーに発見されやすくし、コンテンツを正しく解析・収集してもらうことが重要になります。

クローラーの種類

クローラーは検索エンジンによっていくつか種類があり、代表的なものは以下のとおりです。

Google：Googlebot
Bing：Bingbot
百度：Baidu Spider
Naver：Yetibot

ただし、日本向けのSEOでクローラーを意識する場合は、基本的にGooglebotのみを考慮すればよいとされています。というのも日本国内のGoogleシェア率は70％を超えており、同じくGoogleの検索エンジンを利用しているYahoo! JAPANと合わせると80％以上になるからです。

クローラーとインデックス、検索順位の関係

クローラーはGoogleの検索結果にWebサイトを表示させるだけでなく、その順位決定にも間接的に関係してきます。

クローラーが自社サイトを訪れて検索順位がつくまでの流れは、大きく「クローリング」「インデックス」「検索順位決定」の3つの段階に分けられます。

1：クローリング

自社サイトにクローラーが訪れてサイトの情報を収集することを「クローリング」と呼びます。

Googleの検索結果に自社Webサイトを表示させるためには、まずクローラーの巡回を待つ必要があります。クローラーはWebサイト内のリンクを辿って移動しますが、クローラーがいつ、どのくらいの頻度で巡回してくるのかは決まっていません。

クローリングの対象はHTMLだけでなく、テキストやPDF、画像などのファイルも含まれます。

2：インデックス

クローラーが収集してきた情報をGoogleのデータベースに登録することを、「インデックスする」と言います。

クローリングされたWebサイトは何について書かれているかを分析され、インデックスされることで検索結果に表示されるようになります。

3：検索順位決定

インデックスした内容を元に、Googleが検索順位を決定します。

検索順位を決めるアルゴリズムは200以上の項目で構成されており「コンテンツの質」や「被リンク数」などが評価に関係していると言われていますが、詳細は非公表です。

検索アルゴリズムは頻繁にアップデートされていますが、検索上位に表示されるにはユーザーのニーズに応えるコンテンツであることが重要だとされています。

なお、Webサイトの構造はユーザー目線で設計することが重要です。最適な情報設計のポイントは、下記の資料をご参照ください。

【無料】ユーザー目線の情報設計を実現する方法

資料ダウンロード

クローラビリティとは？

クローラビリティとは、クローラーの訪問しやすさやコンテンツの把握しやすさのことです。

上述したとおり、クローラーが収集した情報を元にインデックスが行われるため、クローラーがWebサイトを巡回しない限り、検索からの流入は発生しません。また、クローラーが正しくWebサイトの内容を読み取れないと、意図した検索結果に表示されない場合もあります。

「いつまで経ってもGoogle検索に自社サイトが表示されない」「コンテンツが検索結果に反映されない」ということがないよう、クローラビリティを意識したWebサイトにしましょう。以下で、クローラビリティを向上させるポイントを解説します。

クローラビリティ向上のポイント1：Webサイトの認知

クローラーにWebサイトを認知してもらうには、以下の2つの方法が有効です。

インデックス登録をリクエストする
XMLサイトマップを送信する

どちらも、Googleサーチコンソールを利用して行います。

インデックス登録のリクエスト

コンテンツを公開したときやリライトを行ったときなど、特定のWebページを早めにインデックス登録してもらいたい場合は「URL検査」を使います。

Googleサーチコンソールの左サイドメニューの「URL検査」をクリックし、検索窓にインデックス登録したいURLを入力しましょう。検査結果の「インデックス登録をリクエスト」をクリックすることで、Googleにクローラーの訪問を要請できます。

Googleサーチコンソールの左サイドメニューの「URL検査」

XMLサイトマップを送信する

初めてWebサイトを公開したときや、リンクのないページがあるWebサイト、外部からの被リンクが少ないWebサイトなどは、XMLサイトマップをGoogleに送信しましょう。

XMLサイトマップとは、検索エンジン向けの「Webサイト全体の目次」です。ユーザーの目には触れませんが、検索エンジンにWebサイト内のページを的確に伝える役割を持ちます。

無料のサイトマップ作成ツールやWordPressのプラグインを利用してサイトマップを作り、Googleサーチコンソールの左サイドメニューにある「サイトマップ」から登録しましょう。「新しいサイトマップの追加」にサイトマップのURLを入力し、送信するとGoogleにWebサイト内のページをすべて伝えられます。

Googleサーチコンソールの左サイドメニューにある「サイトマップ」から登録

クローラビリティ向上のポイント2：内部構造の整理

内部構造を整理して、クローラーがWebサイト内を巡回しやすいようにするためには、以下の施策が有効です。

内部リンクを関連性の高いページに設置する
パンくずリストを設置する
ディレクトリ階層を不必要に増やさない

これらに気を配ると、クローラーだけでなく、ユーザーにとっても見やすいサイトとなります。

内部リンクの設置

クローラーはWebサイト内のリンクを辿って移動するため、リンクが貼られていないページは発見されづらく、リンクが多く貼られているページほど巡回されやすくなります。

そのため、内部リンクを適切に設置することで重要なページとその内容がクローラーに伝わる確率が高まるでしょう。

ただし、Webページ内に無意味に多くのリンクを貼るとユーザーにとって利用しづらいものになるため、グローバルメニューやフッターメニューなどの共通ナビゲーションも活用し「関連性の高い」「できるだけ質の高い」コンテンツにリンクを貼ることが重要です。

リンクは<a>タグで設置し、画像やURLではなくキーワードを適切に含めたアンカーテキスト（テキストにリンクを張ったもの）にするとよいとされています。例えば「Web接客についてなら>こちら」よりも「株式会社Sprocket公式サイト」のように、リンク先を明確にすることで、ユーザーからもクローラーからもわかりやすいリンクになるでしょう。

パンくずリストの設置

パンくずリストとは、Webサイト内の階層をリスト化し、ユーザーがWebサイトのどのページを閲覧しているのかを分かりやすく示したものです。コンテンツ上部にある、以下の赤枠部分がパンくずリストです。

パンくずリスト

パンくずリストは、クローラーがWebサイトの構造を理解するのを助けるだけでなく、内部リンクとしても機能し、ユーザーの利便性向上にもつながります。

パンくずリストを作る際は、わかりやすく関連性のあるカテゴリー構造にし、階層を深くしすぎないようにしましょう。

ディレクトリ階層を不必要に増やさない

Webサイトは、パソコン内のフォルダにファイルを入れて整理するように、サイトのトップページから順番に「TOPページ>カテゴリページ>記事ページ」のようなツリー状の階層が形作られています。

これがディレクトリ構造で、構造の深さがディレクトリ階層です。このディレクトリ階層が浅いほうがクローラーが辿り着きやすく、インデックスされやすくなるため、不必要に階層を細かく分けたり、空の階層を作ったりしないようにしましょう。

クローラビリティ向上のポイント3：サーバーやネットワークの適切化

サーバーやネットワークを適切にして「見やすい」「アクセスしやすい」Webサイトにすることもクローラビリティに影響します。

具体的には、以下の点に気をつけましょう。

URLを正規化する
ページの表示速度を高める

URLを正規化する

「URLを正規化する」とは、簡単に言えば「1つのページに対応するURLを1つだけに統一する」ことです。例えば「https://www.✕✕✕.com」「https://✕✕✕.com」で同じWebページが表示される場合、クローラーはそれぞれを別のページとして認識してしまうため、2回クロールを行ったり評価を分散させたりしてしまいます。

重複コンテンツだと認識されペナルティを受ける可能性もあるでしょう。対策として、どちらか一方にURLを統一し、もう一方のURLには301リダイレクト（転送）を設定する方法があります。

ページの表示速度を高める

ページの表示速度が高いと、その分クロールの速度も上がるため、1回のインデックス量や巡回ページ数が多くなる可能性が高まります。

Webサーバーを整備する、画像を圧縮し、不要なソースコードを削除してファイルのサイズを小さくするなどの工夫で、表示速度を高めましょう。この施策により、クローラーだけでなくユーザーの利便性も高まります。

インデックスの制御と確認

SEO評価を上げるためには、クローラビリティを上げて多くのページをインデックスしてもらうだけではなく、状況に応じて「インデックスされないページ」を設定することも必要です。

例えば、Googleに評価されないHTMLサイトマップページや、色違いの商品ページなどの類似コンテンツ、修正が間に合っていない低品質なコンテンツなどは、Googleのデータベースへの登録を回避してWebサイト全体の評価の低下を防ぎましょう。

HTMLのhead部分にnoindexタグを埋め込むことで、クロール後のインデックスを回避できるようになり、Googleの検索結果にも反映されなくなります。

実際にnoindexタグが働いているかは、Googleのサーチコンソールから確認できます。左サイドメニューの「カバレッジ」をクリックすると、エラーやインデックスされたページ数が表示されます。

ステータスとインデックスの関係は以下のようになります。

「エラー」：インデックスに登録できなかったページ
「有効」：インデックスされているページ
「除外」：noindexタグやエラーなどの理由でインデックスされなかったページ

ページ数をクリックすると下に理由とそのページ数などの詳細が表示され、更にその部分をクリックすると具体的にどのページが該当するのかURLが表示されます。自社Webサイトのページが正しく登録されているか、あるいは除外されているか確認しておきましょう。

“ユーザー目線”をどう実現する？社内政治に負けないWebサイトの情報設計

Webサイトの構造はユーザー目線で設計することが重要です。しかし、さまざまな要因からユーザー目線を第一に情報設計を行えない場合もあります。そうした際にはどのような情報設計で対応していけばよいのでしょうか。具体的なパターン例とあわせてご紹介していきます。

この記事を書いた人

Sprocket編集部

Sprocket

サービス資料ダウンロード

Sprocketの特徴、MA・CDP・BIの機能、コンサルティングサービス、事例などをご紹介します。

資料ダウンロード

導入検討の相談・見積もり

新規導入、乗り換えのご相談、MA・CDP・BIの各ツールの比較などお気軽にお問い合わせください。

お問い合わせ

03-6420-0079（受付：平日10:00～18:00）