ウェブマスターツールの「URLパラメータ」で重複ページを統合する

私がWordpressで運営している固定ページ主体のサイトにおいて、同じ内容のページに対しパラメータ付URLの重複ページが複数できてしまうという問題について取り上げ、その対処法について掲載してきました。
(→同一コンテンツに対しパラメータ付URLの重複ページが複数できてしまう

その原因としてリビジョン機能をあげ、リビジョン機能の無効化と消去方法について述べました。
(→リビジョン機能を無効にし過去のリビジョンを消去する方法

リビジョン機能を無効にしたことにより、とりあえず、新たにパラメータ付URLの重複ページができるということは現段階では解消されたようです。

しかしながら、site:で自サイトのインデックス状況を確認したところ、パラメータ付URLの重複ページがまだ残っています。

このすでにインデックスされてしまった重複ページをインデックスから消すために、robots.txtに下記コードを書き込み、「?」付きURLのブロックを試みました。

Disallow: /*?*
Disallow: /*?

これで、確かに正規のURLの後に「?」が付く重複URLがブロックされたのが確認できました。

【追記】
その後、このrobots.txtによるブロックが、モバイルユーザビリティエラーの原因ともなってしまいましたので、robots.txtによるブロックという方法ではなく、以下で説明するウェブマスターツールの「URLパラメータ」で制御した方がいいかと思います。
(詳しくは⇒「モバイルユーザビリティエラーの原因はrobots.txtだった」)

しかし、それまでインデックスされていた既存の重複ページ以外に、さらに「?」付き重複ページが増えてしまっていたのです。

なぜ、さらに増えてしまったのか・・・、原因を考えてみましたが、それもそのはず、各ページ内のcanonicalタグがブロックされたことにより、Googleに読み込まれず、重複ページの正規化、一本化ができなくなってしまっていたからです。

つまり、Wordpressでは、固定ページや個別ページにはデフォルトで各ページの内に、メタタグでそのページのURLがcanonicalで吐き出されるようになっていますが、今回、robots.txtで「?」付きURLをブロックする設定にしてしまったため、ページのを含め、ソースを読み込む手前で、弾いていたからです。

読み込めないから正規化できず、結果として、「?」付き重複ページが増えてしまったのです。

robots.txtでブロックするのは、すでにインデックスされてしまった重複ページがcanonicalタグで正規化が行われ、解消されてから以降の対策として設定すべきだと気づきました。

順序が違っていたのです。

早速、robots.txtから上記設定を削除し、クローラーにcanonicalを読み込ませるようにしました。

そして、Googleウエブマスターツールの「URL パラメータ」で重複ページの統合を促しました。

「URL パラメータ」での設定

Googleウエブマスターツールの「URL パラメータ」では、今回のようにパラメータによる重複ページが存在した場合、1つの代表URLに統合するなどの指定ができます。

詳しい設定方法や注意点については、下記Googleのウエブマスターツールのヘルプを参照ください。
https://support.google.com/webmasters/answer/1235687?hl=ja

Googleウエブマスターツールの左の[クロール]→①[URL パラメータ]をクリックすると、以下のような画面になります。
(すでに、一度設定済みの画面ですので、初めに表示される画面と異なる場合があるかもしれませんのでご注意ください。)

ウエブマスターツールのurlパラメータ管理画面

②がグーグルが監視対象としているパラメータurlの数です。

このパラメータの取り扱いを指定するには、③[編集]をクリックします。

すると、以下のような画面に変わります。

urlパラメータの設定画面

「このパラメータで、ユーザーに表示されるページ コンテンツが変化しますか?」に対し、「いいえ」と「はい」の選択肢があります。

コンテンツが変化する場合には、「はい」を選択し、ページのコンテンツには影響しない場合には、「いいえ」を選択します。

今回、私の場合は、コンテンツには影響しませんので、「いいえ」を選択しました。

そして[保存]を押します。

この設定を行い、しばらく様子を見てみました。

すると、約10日~2週間ぐらいで、Googleのインデックス上、パラメータ付urlの重複ページが消えていました。