こんにちはゲストさん。会員登録(無料)して質問・回答してみよう!

解決済みの質問

ブログのURLとタイトルを取得したい

ブログの記事のURLがたくさんあります。
url.txt内部に
---
http://blog.jp/foo/4321.html
http://site.jp/foo/bar/17167.html

----
みたいに一行ずつ2000行ほどずらっとあるのですが、

1./がある場合はその最後の指定されたURLの/以下の部分を削除する。ない場合はそのまま。
2.削除した結果、同じURLがあったらそれを削除する
3.そのURLのタイトル(<title>タグの文字列)を取得して、URL+タイトルの形で出力する

という3工程を踏んで、自分がよくいくブログのURLとブログ名がほしいです。
http://blog.jp/foo/4321.htmlならhttp://blog.jp/foo/
http://site.jp/foo/bar/17167.htmlならhttp://site.jp/foo/bar/になります。

ですがパースがうまくいかないのか同じサイトへの過剰アクセスを避けるためにsleep(1)を入れたせいかはわかりませんが、自分ではうまく成功しませんでした。

模範回答が知りたいです。このようなphpのコードをどなたかご教示ください。

どうかよろしくお願いします。

投稿日時 - 2011-12-27 13:26:15

QNo.7211629

困ってます

質問者が選んだベストアンサー

file_get_contentsでソースを取得して後は
「DOM拡張モジュール」や「PHP Simple HTML DOM Parser」でhtmlを解析して必要なタグの情報を取得するだけ

投稿日時 - 2011-12-27 15:06:33

お礼

ありがとうございます。

投稿日時 - 2011-12-30 18:42:51

このQ&Aは役に立ちましたか?

0人が「このQ&Aが役に立った」と投票しています

回答(1)

あなたにオススメの質問