あぁるぴぃ広島 Vol.5


■情報コーナー■

メールでホームページを受信(www-mailシステムについて)

 Yです。私の自前サーバに、メール送信によってホームページを取得できるシ ステム (www-mail)を設けてます。
具体的には
 ・宛先: www-mail@pandr.box.dyn.to
 ・件名: 何でもかまいません
 ・本文: 取得したいページのURL
という形式のメールを送ると、指定したホームページがメールとして返信されて きます。このシステムに関する詳細については
www-help@pandr.box.dyn.to
に宛てて何かメールを送信すると、解説文(ヘルプファイル)が返信されてくるの でよかったらご覧ください。
 また、「なんでも掲示板」というところにこのシステムによって書き込みをし たり読んだりする方法については
○ メールソフトで「なんでも掲示板」
http://www.lares.dti.ne.jp/~tomof/bbs/mail.htm
に詳しく説明されています。

 このwww-mailシステムの特徴的な部分を下に上げてみます。

(1) 毎日定刻に該当のホームページを取得(配信予約 www-timer)  例えば、asahi.comの日替わりページを毎日午前8時に得るため次のようなメ ールを一度送信します。

−−
・宛先: www-timer@pandr.box.dyn.to
・件名: set 8
・本文:
# asahi.com-総合
http://www.asahi.com/paper/front.html
# asahi.com-社会面
http://www.asahi.com/paper/national.html
# asahi.com-経済
http://www.asahi.com/paper/business.html
# asahi.com-スポーツ
http://www.asahi.com/paper/sports.html
# asahi.com-社説
http://www.asahi.com/paper/editorial.html
# asahi.com-天声人語
http://www.asahi.com/paper/column.html
#end
−−

 そうすると、毎日午前8時に上の asahi.com のページ6通が送られてくるよ うになります。
 asahi.comの更新時刻は午前7時になっていますが、日によって多少遅れるこ どがあるので(といっても15分くらいまでにはほぼ確実に更新されているように 思いますが。) www-timer を利用して確実に新しい記事を得たい場合は、7時で はなく8時以降に設定しておくのが無難です。

 余談ですが、こうしたシステムを設けることが asahi.com の著作権に触れな いかどうかについて朝日新聞社・著作権センターに問い合わせたことがあります。 そうしたところ、私が最初に設定していたシステムだと著作権に触れるというの で、同センターとやりとりする中でシステムを一部修正しました。今は問題あり ません。
 私のサーバは、最高でも2MBのあまり速くない通信速度の下にあるので、可能 なかぎり流通データ量を抑制するようにシステムを組んでいたのですが、細かな ことは省きますが著作権絡みではそれが問題になるというので改めました。
 ということで?サーバの時計は正確に保たれるようシステム設定していますが、 ホームページへのアクセスと利用者への返送に時間がかかり、午前8時に設定し ていても実際にメールが届くのは8時3分とか5分とかになってしまうかもしれ ません。


(2) レイアウトを整えた結果の取得
 例えば、次のようなメールを送って表が含まれているページを取得します。

−−
・宛先: www-mail@pandr.box.dyn.to
・件名: 何でもかまいません
・本文:
# 2001年の障害者の雇用状況
-layout w98
http://www.mhlw.go.jp/houdou/0112/h1226-1.html
#end
−−


 例として上げたページには表がいくつか含まれています。一つのカラムの中に 細かいカラムが含まれるなど少し複雑な表もあります。これをwww-mailにより通 常どおりの方法で取得しても、おそらく表の意味がつかめないのではないかと思 います。そこで
-layout w98
のような行をURLの直前に置きます。そうすると、全角罫線文字を使って表が形 成され、それが送り返されてきます。表に限らず、センターリングなどをはじめ とするレイアウト整形も可能な限り HTML 記述に忠実に行われます。
 w98 というのは、1行の幅を98桁(全角49文字)にするという意味です。上のサ イトの表は、その幅にしておくと都合がいいようです。このwオプションの指定 がない時は、1行の幅が80桁になります。

 実は、この layout を指定すると lynx というブラウザではなく w3m という ブラウザがサーバ上で動作します。w3m も画像を扱わないテキストブラウザです が、lynx よりもレイアウトを整える機能が優れていると言われています。
 あと、layout の代わりに layout2 にすると、表を箇条書きに変換した結果を 返します。箇条書きに変換するといっても「人が表の意味を理解した上で箇条書 きふうに読み下してくれる」というようなわけにはいきません。機械的に変換す るに過ぎませんが、それなりに把握しやすくなるような気はします。
 この layout, layout2 の指定は、あまり頻繁に使うものではないと思います が、ホームページ上の表の扱いに苦慮した時にでも思い出してみていただければ と思います。ホームページリーダーなどでも表の扱いにはそれなりに配慮がなさ れているようですが、ブラウザ上だけでなく、テキストの形で入手して他のソフ ト上でも確認したりデータとして再利用したいといったことはあると思うので。


(3) リンクページ複数の一括取得
 例えば、ヤフーのニュース検索を行うため次のようなメールを送信します。

−−
・宛先: www-mail@pandr.box.dyn.to
・件名: なんでもかまいません
・本文:
# 障害者のニュース検索
yahoo-news 障害者
!!$ymd
#end
−−


 そうすると、「障害者」という語を含む今日発表のニュース記事が送られてき ます。最大で25通までに限られますが...
 $ymd という4文字は、内部的に 20020527 のような8桁からなる今日の年月 日に置き換えられます。この '!!$ymd' という6文字からなる1行を置くことで、 最初のページからリンクされている「記事本文が含まれている各種ページ」を一 括して取り寄せることができます。もしこの行がないと最初のページ(ニュース 記事本体に対するリンク集)1通だけしか届きません。
 なお、上の
yahoo-news 障害者
!!$ymd
という2行は、
yahoo-news-today 障害者
という1行で書くこともできます。today でなく yesterday にすると昨日発表 の記事になります。

 私の経験だと、「障害者」をキーワードにした場合、まる1日分でも通常は十 数件程度です。それでも、それなりに情報源として役に立つように思います。
 先に上げた www-timer による配信予約で、夜中の1時あたりに前の日の記事 を取得するようにしておくと、資料としての蓄積にはいいかもしれません。例え ば、次のようにするとそれが行えます。

−−
・宛先: www-timer@pandr.box.dyn.to
・件名: set 1
・本文:
# 障害者のニュース検索
yahoo-news-yesterday 障害者
#end
−−

 ちなみに、ヤフーの辞書検索を利用する場合は次のようなメールを送ると便利 です。

−−
・宛先: www-mail@pandr.box.dyn.to
・件名: なんでもかまいません
・本文:
# 点字の辞書検索
yahoo-dic2 点字
#end
−−

 上の yahoo-dic2 の数字の2を除いて yahoo-dic にした場合はメールが1通 だけしか届きませんが、上のように dic2 にすると、単語に関する更に詳しい説 明にリンクがはられている場合はそのリンク先のページも送られてきます。



 www-mailシステムの特徴的な面は、おおよそ以上のようなところでしょうか。
 蛇足ですが、私のところのサーバは、トシマNETというケーブルテレビ会社 の回線で世間様につながっています。そこがたまに(2ヶ月に1回もないとは思 いますが) メンテナンス作業のため通信できなくなることがあります。通常は夜 中の2時あたりから朝の7時とか8時くらいまでです。
 また、ドメイン名の box.dyn.to は、トライアルソフト研究所というところの ダイナミックDNSサービスを利用して確保していますが、ここの管理・運営が少 しあまちゃんで、たまにではありますが、土曜・日用などまる2日間もサービス 停止になってしまったりすることがあります(実は一昨日と昨日もそれで泣きま した。このメールもほんとは昨日送信するつもりだったんですが)。
 そうしたメンテナンスやトラブルの時にひっかかってしまうと、www-timerで 予約設定していてもメールが届かないということがあるのでご了承ください。ト ラブルが1日か2日だけで終わった時はその種の事柄だと思っていただいていい と思います。トラブルが何日も続くようでしたら(汗) 私のサーバそのものの問 題である可能性が高いので必要に応じてご連絡ください。サーバは、 FreeBSD(v4.3), qmail(v1.03) などによって動いているのでソフト的にはかなり 安定なものだとは思いますが。


 以上、説明としてはかなり端折ってしまっている上に部分的なので解りにくい と思いますが、もし関心を持たれるようなことがありましたらヘルプファイルを 参照していただければと思います。
2002年5月27日(月曜日)


目次へ戻る      次へ