したらばTOP ■掲示板に戻る■ 全部 1-100 最新50 | メール | |

テストその2

72 ◆/vmukiyuzw:2006/11/06(月) 22:46:50
http://yy14.kakiko.com/test/read.cgi/mirror/1158402994/85

LISPを使ったものではなくあくまで手動ですが、xyzzyの正規表現置換機能で
UTF-8のHTMLをdatに変換してみました。
対象にしたスレは http://jbbs.livedoor.jp/bbs/read.cgi/computer/1929/1038588508/336 に上げて頂いた
http://web.archive.org/web/20030425012552/world2ch.net/test/read.cgi/accuse/1048754153/1-100 です。

検索:
<dt>\([0-9]+\).*?\(?:<a href="mailto:\(.*?\)">\)?<b>\(.*\)</b>\(?:</font>\|</a>\): \(.*?\)</dt><br><dd>\(.*\)<br><br></dd>
置換:
\3<>\2<>\4<>\5<>

スレの前後の不要な部分は手動で取り除き、スレタイはレス1の最後に手動で付加すると。

…ところで、これをJaneNidaで正常に読ませるにはどうしたらいいんでしょうか…
適当なフォルダにおいて読ませるだけではSJIS扱いされて文字化けしちゃうんですが。

73 ◆/vmukiyuzw:2006/11/06(月) 23:02:22
ところでこれは>>66で書いたように「どんなツールでもできるはず」をふとやってみようと思っただけです。
結局(楽なので)正規表現使っちゃいましたが^^;

ちなみにxyzzyで使える正規表現はこちら
ttp://xyzzy.s53.xrea.com/reference/wiki.cgi?p=%C0%B5%B5%AC%C9%BD%B8%BD%A4%CE%C9%BD%B5%AD
を参考にしました。
基本はhtmltodatでやってることと変わらないのですが、使える表現が微妙に異なり
括弧とかの前にいちいち\を付けないといけないのが面倒かなと思いました。


新着レスの表示


名前: E-mail(省略可)

※書き込む際の注意事項はこちら

※画像アップローダーはこちら

(画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります)

掲示板管理者へ連絡 無料レンタル掲示板