新着記事
2008年01月27日

メタタグでの検索ロボット拒否をしている人は「百度」に要注意

「noindex,nofollow」のMETAタグは百度には通用しないらしい
Googleなどの検索エンジンのデータベースに登録されないようにするには、サーバーに「robots.txt」か「.htaccess」を置いておくのが一番確実。しかしこれは自前サーバーかレンタルサーバーでないと不可能です。無料ブログサービスを利用しているブログの場合でHTMLファイルの編集が可能であれば、検索ロボットのクロールを拒否するタグを挿入します。

ところで中国の検索エンジンサイト「百度(Baidu、バイドゥ)」が上陸してきました。ネット上では、高速だとか、広告が入らないから良いとか、画像検索に強いとか(特にある種の…笑)という評判が挙がってきています。
百度(Baidu、バイドゥ)

「百度の検索ロボットはお行儀が悪い」という情報もありました。実は私はこのブログのほかにメタタグで検索クロールを拒否し、仲間内だけに読んでもらっているブログもあるので、実際はどうなのか確認してみました。

まさかと思っていたのに、やはりインデックスされていました。メタタグでのクロール避けは完璧を保証されるものではないことはわかっていました。それでも「Google」も「Yahoo! Japan」も「goo」もその他諸々の検索エンジンも、きちんとお約束を守ってインデックスしないようにしてくれていたのにですよ!百度のロボットは本当に無礼なヤツのようです。そのくせこのブログ「終わりのない旅」に関しては、ブログのサイト名で検索するとインデックスされていましたが、「ブログの記事から」のキーワード検索ではまったく出てきません。う〜む。

試しにココログ有料プランでクロール拒否設定をしている、知人のブログでも確認。こちらは登録されてはいないもよう。ところが念のためYahoo! のブログ検索を行うと、右の「ブログとの一致」の第一位に表示されてしまっていました。

何が原因なのか?
いろいろ調べてみると、「noindex,nofollow」のMETAタグを挿入する正しい位置は、<head>の真下だそうで、私の場合その点を無視していました。表記するとこうなります(便宜上「http」は「*ttp」に書き換え)。
<?xml version="1.0" encoding="Shift_JIS"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "*ttp://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="*ttp://www.w3.org/1999/xhtml" xml:lang="ja" lang="ja">
<head>
<meta name="robots" content="noindex,nofollow" />
<meta *ttp-equiv="Content-Type" content="text/html; charset=Shift_JIS" />
<title>なんとかかんとか</title>
<meta name="description" content="なんとかかんとか" />
<meta name="keywords" content="なんとかかんとか" />
<meta *ttp-equiv="Content-Style-Type" content="text/css" />
<meta http-equiv="Content-Script-Type" content="text/javascript" />
<link rel="stylesheet" href="*ttp:/xxx/styles-index.css"
type="text/css" />
<link rel="alternate" href="http:/xxx/index.rdf"
type="application/rss+xml" title="RSS" />
</head>
正しく書き換えておきましたが、結果はどうなるんでしょうねえ。
ちなみにココログ有料プランでの設定の場合は「更新通知をしない」にチェックを入れると自動でタグが挿入されるらしく、自分でHTMLファイルを書き換えられるのかどうかは私はユーザーではないので知りません。

百度の検索利用者がすぐに増えるのかどうかはわかりませんが、絶対にナイショにしておきたいブログの場合は、今後はメタタグではなくパスワードによる認証機能を利用するなり、完全な非公開にしておいたほうが良いでしょう。

ついでに。
反対に百度にインデックスしてほしい場合は…
登録ページが設けられています。
ブログの登録
サイト登録



拍手してくださるとうれしいです→ 拍手する

このエントリーをはてなブックマークに追加
posted by Masako at 05:00 | Comment(2) | TrackBack(0) | ネット | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
あわせて読みたいから当ブログに訪れました。百度のロボットはそんな動きをするのですね(汗)
稀に他人様のHPをお作りする際に、content="noindex,nofollow"として安心しておりましたが、全然安心できませんね(笑)
今後は横着せずにbasic認証などを利用しようと思いました。ためになる記事を有り難うございます。

また、話は全く変わりますが、
長野県の山へスノーシューへ行かれるのですね!私は今年より始めようと思っておりましたが、乗鞍の記事を見て更に始めたい衝動に駆られています(笑)
Posted by Satoshi at 2008年01月31日 17:54
Satoshiさま
コメントをありがとうございます。
タグ挿入場所を変えてその後検証しましたところ
ブログタイトルでのインデックスは消え、一部のキャッシュが残るのみになりました。
とはいえ百度のロボットは、他のサーチエンジンとは異なる登録をしていて気味が悪いです(笑)

スノーシューは楽しいですよ!
技術も体力も要らず、気楽に始められます。是非やってください。
別にスノーシュー普及委員ではありませんが(笑)
Posted by Masako at 2008年01月31日 21:13
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック
×

この広告は180日以上新しい記事の投稿がないブログに表示されております。