2011年12月19日月曜日

とあるディレクトリ以下のファイルのURLをすべて取得する 最終夜

とあるディレクトリ以下のファイルのURLをすべて取得する


シリーズ最終夜です。




結果として、scan_image以外は検出した個数に変化は無く、599個配列に収まりました。
何が違うのかというと、ディレクトリもそのまま配列に入っているから,,,なのか?
scan_imageはディレクトリであれば配列に収めないという処理をしていますので、
その違いかと思われます。

実行速度については下記を参照してください。

スクリプト名 実行速度 配列カウント 
get_files 0.0091230869293213秒 599ファイル個数 
scan_image 0.0050339698791504秒 500ファイル個数
getFileList($dir_path) 0.00760817527771秒 599ファイル個数
getFileList($dir) 0.0069351196289062秒 599ファイル個数
glob3 0.0072281360626221秒 599ファイル個数
Linux find . 「-type f」有り 0.035500049591064秒 599ファイル個数
Linux find . 「-type f」無し 0.035002946853638秒 635ファイル個数


Linuxコマンド直打ちだけにいっちばん早いんじゃ?!なんて息巻いて実行。
あえなく玉砕。ダントツで遅かったです。


厳密にファイルパスだけ欲しい場合は、scan_imageがいいね!



あるディレクトリ以下のファイルのURLをすべて取得する

第一夜
http://sharzaqslab.blogspot.com/2011/12/url.html

第二夜
http://sharzaqslab.blogspot.com/2011/12/url2.html

第三夜
http://sharzaqslab.blogspot.com/2011/12/url3.html



とあるディレクトリ以下のファイルのURLをすべて取得する 第三夜


(とあるディレクトリ以下のファイルのURLをすべて取得する 2)からの続きです。

PHPには関数としてそのようなものは見つけられませんでした。
いろいろ検索をしていると、皆さんさまざまにアプローチしてらっしゃるのがわかります。

大まかに手法を分けると以下の2通りのようです。

scandir関数を使う
opendir関数を使う

scandir関数はPHP5から搭載された便利な関数ですね。
基本的にやってることはどれもほとんど代わりがないです。
実行速度の違いがあるのか幾つかの手法をテストしてみました。

検索対象の内容として、全文検索システム Namazu http://www.namazu.org/index.html.ja
ファイル群が対象です。



それと自作の関数とか他のテクニックも試してみたので、ご参考までに。
試したのは以下の通りです。


■get_files
PHP でサブディレクトリ内のファイル名をすべて取得 ≪ メモとか
http://wokamoto.wordpress.com/2011/09/22/get-all-files-name/


■scan_image
PHP ディレクトリ以下のファイルを再帰的に取得 - 130単位
http://d.hatena.ne.jp/deeeki/20100602/get_files_recursive
→画像だけでなくすべてのファイルを取得するように変更

■getFileList($dir)
指定したディレクトリ以下のファイルを取得(サブフォルダ内も) - pirokyunの日記
http://d.hatena.ne.jp/pirokyun/20080118/1200631677


■getFileList($dir_path)
ファイル名を再帰的に取得する関数 - handlename::blog
http://d.hatena.ne.jp/handlename/20101006/1286355256


■sharzaqオリジナル
・glob3(http://sharzaqslab.blogspot.com/2011/12/url.html
・cmd_find(http://sharzaqslab.blogspot.com/2011/12/url2.html


比較の結果は次の記事で!

とあるディレクトリ以下のファイルのURLをすべて取得する 第二夜

前の記事(あるディレクトリ以下のファイルのURLをすべて取得する 1)の続きです。




sharzaq謹製というにはおこがましいコードをご覧ください。





function cmd_find($file='.'){
$o = shell_exec('find ' . $file . ' -type f');
return $o;
}

こちらは配列では帰ってきません。ただの文字列が固まりで帰ってきます。


echo $oするとこんな感じ。
















preタグで囲むとこんな感じ。










使い勝手はよろしくないでしょう。この後、\n|\n|\r\n なんかで区切って配列に入れれば何とか。


次の記事では、さらに皆さんのアイデアを比較してみます。

とあるディレクトリ以下のファイルのURLをすべて取得する 第一夜

とあるディレクトリ以下のファイルのURLをすべて取得する。
こんな場面、あると思います。

PHP4もPHP5も共通で使えて、簡単で、早くてっていうコードを探しておりました。
自分でもいろいろ試行錯誤して作ってみたので晒します。

といってもたいしたこと無いですが、一つはPHPに搭載のglob関数を使うもの、もう一つはLinuxコマンドを実行する方法です。


ザ・シークレットサービス

大層ななまえですが、選択した文字列をシークレットウインドウ内で、 Google検索するというものです。 https://docs.google.com/open?id=0B58uK3aQr15IM0ItWk1WVnFUWnVleXJVWEhqUktCdw 1...