ハウツーガイド

robots.txtとサイトマップ(sitemap)ファイルの作り方・SEO最適化ガイド【2026年版】

robots.txtとサイトマップ(sitemap)ファイルの作り方・SEO最適化ガイド【2026年版】

robots.txtとサイトマップ(sitemap)は、検索エンジンがあなたのウェブサイトをどのようにクロール(巡回)し、どのページを発見するかを制御する、テクニカルSEOの基本となる2つのファイルです。robots.txtはGooglebotなどの検索エンジンロボットに「どこにアクセスして良いか・どこはダメか」を指示し、サイトマップは重要なURL・更新日時・サイト構造などを伝えます。要するに、robots.txtはクロールの仕向け、サイトマップは発見の促進です。正しく作られたrobots.txtとサイトマップは、新規サイトやECサイト、企業サイト、大規模なコンテンツアーカイブのインデックス効率を飛躍的に高めます。

このガイドではrobots.txtとサイトマップの作成方法、推奨ルール、WordPressやカスタムCMSの場合の注意点、エラーの検証方法、Googleへの提出手順をステップごとに解説します。Hostragonsブログ向けに2026年SEO基準でまとめており、ユーザー意図・テクニカル正確性・クロールバジェット・インデックス可能性・実務的な運用に焦点を当てています。

robots.txtとは?

robots.txtは、サイトのルートディレクトリ(トップ階層)に設置するテキストファイルです。通常 https://あなたのドメイン/robots.txt でアクセスできます。このファイルは検索エンジンロボットに、どのフォルダやページをクロールしてよいか・してほしくないかを指示します。重要なのは、robots.txtはセキュリティツールではなく、善意のロボットに向けたクロール指示であるという点です。

例えば管理画面、カートページ、フィルタURL、検索結果ページ、テストディレクトリなどは検索エンジンにクロールされないようにできます。しかし、robots.txtでは機密情報は守れません。なぜならファイル内容は誰でも閲覧できるからです。本当のセキュリティ対策にはパスワード制限、サーバー側のアクセス制御、セキュアなホスティング構成、SSL導入が必要です。この観点で、サイトの基本的な安全確保には SSL証明書、パフォーマンス向上には ウェブホスティング サービスも要チェックです。

robots.txtファイルの役割

  • 検索エンジンロボットのクロール挙動をコントロールする
  • 不要・重複ページのクロールを減らす
  • クロール予算を重要なページに集中させる
  • サイトマップファイルの場所をロボットに通知する
  • テスト・管理画面・内部検索・パラメータ付きURLなどのクロールを制限できる

特に商品やカテゴリ・タグ・フィルターが大量にあるサイトではrobots.txtの設定ミスで、Googleが主要ページを発見し損ねることがあります。逆に制限しすぎると、CSSやJavaScript・画像ファイル・カテゴリページまでブロックされ、SEOに悪影響が及ぶ場合も。

サイトマップ(sitemap)とは?

サイトマップ(日本語で「サイトの地図」)は、サイト内の重要なURLを検索エンジンにリスト化して伝えるXMLファイルです。通常 https://あなたのドメイン/sitemap.xml に置きます。サイトマップは「このページは重要なので発見してほしい、インデックス対象に加えてほしい」というメッセージになります。

サイトマップにはURL、最終更新日時、更新頻度、優先度などの情報を記載できます。2026年のSEOでは特に「最終更新日」が重要視されます。検索エンジンは新鮮で質の高いコンテンツを効率良く発見したいからです。ただし、サイトマップがインデックスを保証するわけではありません。サイトマップに載せても、ページが質・アクセス性・インデックス可能性・正しいカノニカル設定・ユーザー意図を満たしていなければGoogleで表示されません。

サイトマップが必要なケース

  • 新規ウェブサイトを立ち上げた
  • ページ・商品・ブログ記事が多数ある
  • 内部リンク構造が弱い
  • 画像・動画・ニュースなど情報量が多い
  • ECサイトで頻繁に商品更新がある
  • 古いコンテンツを定期的に更新している

小規模で内部リンクが整ったサイトでも、サイトマップ導入は良い習慣です。なぜなら、サイトマップは検索エンジンに明確なURLリストを渡し、発見遅延を防ぐからです。

robots.txtとサイトマップの違い

robots.txtとサイトマップは連携しますが役割が異なります。robots.txtはクロール許可・制限を担当し、サイトマップは「発見してほしいURL」のリストです。下表で主な違いをまとめます。

robots.txtとサイトマップの違い
特徴robots.txtサイトマップ
主目的ロボットのクロール範囲を指示重要URLを検索エンジンに通知
ファイル設置場所ルートディレクトリ:/robots.txt通常 /sitemap.xml
形式テキストXML
インデックス保証なしなし
誤設定リスク重要ページをクロール不可にする恐れ質の低いページやnoindexページを送信してしまう
SEO効果クロール予算の最適配分URL発見と更新通知の強化

robots.txtファイルの作り方

robots.txtの作成は技術的には簡単ですが、SEO面で慎重さが必要です。ファイル名は小文字で robots.txt、サイトのルート(トップ)ディレクトリにアップします。正しいURLは https://あなたのドメイン/robots.txt。サブフォルダへ設置したrobots.txtは無効です。

1. 基本のrobots.txt構成を作成

一番シンプルな構成は、全てのロボットにサイト全体のクロール許可+サイトマップ場所通知です:

  • User-agent: *
  • Allow: /
  • Sitemap: https://あなたのドメイン/sitemap.xml

User-agent: * は全ロボットを意味します。Allow: / は全ページ許可。Sitemap行でサイトマップの場所を伝えます。新規サイトやインデックス促進したい場合、この構成が安全なスタートとなります。

2. クロール禁止したい領域を指定

全てのページをクロールさせる必要はありません。特にユーザー限定、臨時、重複、SEO価値が低いページはrobots.txtで制限します。例:

  • Disallow: /wp-admin/
  • Disallow: /cart/
  • Disallow: /payment/
  • Disallow: /search/
  • Disallow: /test/

WordPressの場合 /wp-admin/ ディレクトリのクロール禁止が一般的ですが、WordPressのAJAX動作には /wp-admin/admin-ajax.php への許可が必要です。WordPress向け例:

  • User-agent: *
  • Disallow: /wp-admin/
  • Allow: /wp-admin/admin-ajax.php
  • Sitemap: https://あなたのドメイン/sitemap.xml

管理画面はクロール不可、テーマ・プラグインが必要なAJAXは許可というバランスです。WordPressサイトの高速・安定運用には WordPressホスティング サービスもおすすめ。

3. ECサイトのパラメータ・フィルター管理

ECサイトではフィルター、並び替え、カラー、サイズ、価格帯、在庫、検索パラメータが大量のURLを生成します。例えば /shoes?color=black や /shoes?size=42 など。制御しないとGooglebotが価値の低いパラメータページまでクロールします。

こうした領域はrobots.txt、カノニカルタグ、Google Search Consoleデータを合わせて検討しましょう。robots.txtだけで全パラメータを禁止するのが正解とは限りません。例えば「黒 メンズ スニーカー」などニーズがあるページは独立したカテゴリーとしてインデックス対象に構築するべきです。

4. CSSやJavaScriptファイルをブロックしない

現代SEOではGoogleはHTMLだけでなくレンダリング後のページを評価します。CSSやJavaScriptをブロックすると、Googleがレイアウトやモバイル対応・ナビゲーション・コンテンツ表示を正しく把握できません。昔は Disallow: /assets/ や /js/ など広範囲禁止が使われましたが、現在ではリスクです。

2026年の安全な方針は「ユーザー体験を構成するCSS・JS・画像・フォントファイルはロボットに公開」。本当にクロール不要な管理・臨時・プライベートディレクトリのみ制限しましょう。

5. robots.txtファイルのテスト

アップ後は必ず動作をテストします。確認するポイント:

  • https://あなたのドメイン/robots.txt が200ステータスで開くか
  • ファイルが空・誤記・別ドメインになっていないか
  • Sitemap行が正しいURLか
  • 重要なカテゴリ・商品・サービス・ブログページがブロックされていないか
  • CSS・JS・画像リソースが誤って禁止されていないか

Google Search ConsoleのURL検査ツールで主要ページのクロール可否をチェックできます。サーバーログでGooglebotの訪問URLを分析する方法も有効です。高性能なサーバーや適切な構成には VPSサーバー または 法人ホスティング も検討しましょう。

サイトマップ(sitemap)ファイルの作り方

サイトマップ作成の目的は、検索エンジンに「インデックスさせたい質の高いURL」を明確・整理して渡すこと。すべてのページがサイトマップに載る必要はありません。noindex・リダイレクト・エラー・重複ページを含めるとSEOに悪いシグナルとなります。

1.インデックス可能なURLのみ追加

サイトマップに載せるページは以下条件を満たしましょう:

  • 200ステータスコードを返す
  • noindexタグを含まない
  • robots.txtでブロックされていない
  • カノニカルタグが正しい(自己指向または正しいターゲット)
  • オリジナルで価値あるコンテンツがある
  • モバイル対応&高速表示

例えば削除済み商品ページ、在庫切れで永久削除した商品、内部検索結果、カート・決済ページはサイトマップに含めません。一方、主要カテゴリ、重要なサブカテゴリ、サービスページ、ブログ記事、現役商品はサイトマップへ。

2.XMLサイトマップの正しいフォーマット

シンプルなXMLサイトマップは次の構成:

  • <urlset>が全体のコンテナ
  • <url>ブロックが各ページ
  • <loc>に完全なURL
  • <lastmod>に最終更新日

例:<loc>https://あなたのドメイン/services/</loc>、<lastmod>2026-01-15</lastmod>。日付はYYYY-MM-DD推奨。lastmodは自動・正確な更新が重要で、Googleを騙すために毎日全URL更新はNGです。

3.大規模サイトではサイトマップ分割

XMLサイトマップは最大50,000URL・非圧縮50MBまで。大規模サイトはサイトマップインデックスを使って分割推奨:

  • /post-sitemap.xml
  • /page-sitemap.xml
  • /product-sitemap.xml
  • /category-sitemap.xml
  • /image-sitemap.xml

これで検索エンジンの処理効率が上がり、インデックス問題の分析も容易。例えば商品サイトマップの2万URL中8千だけインデックスなら、商品説明・在庫・重複・表示速度・フィルター構造を再検討できます。

4.WordPressのサイトマップ作成

WordPress5.5以降は標準でXMLサイトマップ機能があります(/wp-sitemap.xml)。ただし本格運用ではRank Math, Yoast SEOなどのプラグインの方が詳細管理できるため利用が多いです。プラグインならサイトマップに含めるコンテンツ種別・タグアーカイブ・著者アーカイブの管理も柔軟です。

よくあるWordPressのミスは、価値の低いタグページをサイトマップに含めること。タグページにオリジナル説明・強力な内部リンク・検索需要がなければサイトマップから除外が賢明。コンテンツ戦略強化には SEOに最適なブログ記事の書き方 の記事もおすすめ。

5.カスタムCMSサイトでサイトマップ自動化

独自システムの場合は手動作成もできますが、動的サイトは自動生成が必須。商品追加・ブログ投稿・サービスページ更新時にサイトマップも自動更新が必要です。開発チームは以下ルールを適用推奨:

  • 公開中ページは自動でサイトマップ追加
  • 削除・404ページはサイトマップから削除
  • noindexページはサイトマップに含めない
  • カノニカル先が異なるページは慎重管理
  • lastmodは実際の更新時のみ変更

この自動化は、頻繁に内容が変わるニュース・求人・予約・教育・ECサイトのテクニカルSEO健全性に必須です。

robots.txt内でサイトマップを指定する方法

robots.txtの末尾にサイトマップURLを記載するのが推奨です。例:

  • User-agent: *
  • Allow: /
  • Sitemap: https://あなたのドメイン/sitemap.xml

複数サイトマップがある場合は1行ずつ記載:

  • Sitemap: https://あなたのドメイン/post-sitemap.xml
  • Sitemap: https://あなたのドメイン/product-sitemap.xml
  • Sitemap: https://あなたのドメイン/category-sitemap.xml

SSL利用の場合はURLもhttpsに統一。HTTPやwww/非wwwの混在は避けるべきです。ドメイン・SSL・リダイレクト構成は最初から正しく設計を。新規プロジェクトなら ドメイン検索SSL証明書 もテクニカルSEO計画と一緒に検討を。

Google Search Consoleへサイトマップ提出

Google Search Consoleへサイトマップ提出

サイトマップを作成したら、Google Search Consoleから提出しましょう。手順:

  • Google Search Consoleにログイン
  • 該当プロパティ(ドメイン)を選択(ドメインプロパティ推奨)
  • 左メニュー「サイトマップ」へ
  • サイトマップURL入力(例 sitemap.xml)
  • 「送信」ボタン
  • ステータスで「成功」や発見URL数を確認

提出直後に全ページインデックスを期待しないでください。GoogleはまずURLを発見→クロール→処理→品質シグナルに基づきインデックス可否を判断します。新規サイトでは数日~数週間かかることも。強力な内部リンク・質の高いコンテンツ・高速サーバーがこのプロセスを促進します。

robots.txtとサイトマップでよくあるミス

1.サイト全体を誤ってブロック

最も致命的なミスは「Disallow: /」が本番サイトに残ること。これは全ページクロール不可を意味します。開発環境用の設定が本番移行時に解除されないとGoogleが新ページを発見できません。本番移行チェックリストにrobots.txt確認は必須。

2.noindexページをサイトマップに含める

noindexを付与しつつ同URLをサイトマップに載せると矛盾したシグナルになります。サイトマップは「このページは重要だ」と伝え、noindexは「インデックスするな」と伝えます。インデックスさせたいURLだけサイトマップに含めましょう。

3.301・404・500ページをサイトマップに残す

サイトマップ内URLは原則200コードを返すべき。リダイレクト・存在しない・サーバーエラーのURLは定期的に整理しましょう。月1回のテクニカルSEOチェックで早期発見が可能です。

4.ドメインやプロトコルの誤記

https://www.あなたのドメイン を使うならサイトマップ内URLも同じ形式で統一。異なるプロトコルやドメインバリエーションがあるとGoogleのシグナル統合が難しくなります。カノニカル・サイトマップ・robots.txt・リダイレクトはすべて同じメインURLを指すよう設計しましょう。

5.不要なURLを大量にサイトマップへ

サイトマップは「ゴミ箱」ではありません。全URLを載せるのではなく、本当にインデックスさせたい質の高いページだけを含めます。質の低い・重複・弱いページは除外し、検索エンジンにクリアなシグナルを送るのがベスト。

2026年版テクニカルSEOチェックリスト

robots.txt・サイトマップ作成時は以下チェックリストを活用:

  • robots.txtがルートディレクトリにあり、アクセス可能か
  • サイトマップURLがrobots.txt内で正しく指定されているか
  • 重要ページがrobots.txtでブロックされていないか
  • CSS・JavaScript・画像リソースがクロール可能か
  • サイトマップに200コードでインデックス可能なURLだけ含まれているか
  • noindexページがサイトマップ外になっているか
  • lastmod日付が実際の更新を反映しているか
  • 大規模サイトではサイトマップインデックスを利用しているか
  • Google Search Consoleでサイトマップが正常処理されているか
  • サーバー応答速度がクロール効率を支えているか

テクニカルSEOはファイル作成だけではなく、ホスティング性能・SSL設定・DNS正確性・リダイレクト・モバイル対応・コンテンツ品質も直結します。インフラ設計時は ホスティングパッケージドメイン移転ウェブサイトセキュリティ も合わせて検討を。

robots.txtとサイトマップの運用例

シンプルな企業サイトなら、トップページ・サービス・会社概要・問い合わせ・ブログをサイトマップに含め、管理画面・フォームサンクスページ・臨時キャンペーン・内部検索結果はrobots.txtやnoindexで制御します。サイトマップは20〜200URL程度のケースが多いです。

中規模ECサイトでは商品・カテゴリ・ブランド・ブログサイトマップを分けます。現役商品のみサイトマップに追加、削除商品は除外、類似商品は301リダイレクト。フィルターURLを個別分析し、検索や転換価値のあるものは特別カテゴリに、その他はrobots.txt・カノニカル・noindexで管理します。

大量コンテンツのブログ・ニュースサイトでは公開日・更新日・カテゴリ構造・内部リンクが重要。古い記事の更新時はlastmodを正確に変更、無理な日付更新は避けます。Googleが信頼するのは「真のコンテンツ改善」です。

よくある質問

robots.txtでインデックスを完全に防げますか?

いいえ。robots.txtはクロールを防ぐだけで、インデックスまで完全に制御できません。他サイトからリンクがある場合、Googleはクロールせずともインデックス表示することがあります。インデックスを防ぐにはnoindexタグや適切なアクセス制限が必要です。

サイトマップでGoogle検索順位が上がりますか?

サイトマップ自体は順位を保証しません。ただし重要ページの発見を早くし、更新通知やテクニカルSEOの健全化に役立ちます。順位向上にはコンテンツ品質・リンク・ユーザー体験・速度・信頼シグナルも必要です。

robots.txt内でサイトマップ指定は必須?

必須ではありませんが推奨です。robots.txtにサイトマップURLを記載することで検索エンジンが容易に発見できます。Google Search Consoleでのサイトマップ提出も良い習慣です。

WordPressのサイトマップURLは?

標準は /wp-sitemap.xml。SEOプラグイン使用時は /sitemap_index.xml や /sitemap.xml の場合も。どのプラグインを使うかでURLが変わるので要確認。

サイトマップに含めるURLの上限は?

1つのXMLサイトマップは最大50,000URL・50MBまで。より大きい場合はサイトマップインデックスを使い、ページ・投稿・商品・カテゴリ・画像などで分割するのが最適です。

まとめ

robots.txtとサイトマップはテクニカルSEOの「小さな巨人」。robots.txtはロボットのクロール挙動を制御し、サイトマップは重要URLの発見を促進します。正しい運用には、主要ページは公開、不要領域は適切に制限、インデックス可能なURLだけサイトマップに追加、Google Search Consoleで定期チェックを。

サイトの技術基盤を強化するなら、信頼できるホスティング・正しいドメイン管理・SSL設定から始めるのが効果的です。Hostragonsの ウェブホスティングドメインSSL証明書 サービスを参考に、速く・安全でSEOに強いサイト環境を構築しましょう。

この記事を共有する:
Alihan Yıldırım

ウェブパフォーマンススペシャリスト

ウェブパフォーマンス分析と速度最適化分野で10年以上の経験を持つ。CDNやキャッシュシステムに関する業務を行っている。

すべての記事 →