ReadMe.txt
ReadMe.txt
#
# 発言まとめ抽出プログラム
# matome.cs 作成 ◆69lHqflwlU
#
サバ兄のまとめが欲しかったので作成しました。
2ch互換のdat形式なら大体使えると思います。
プログラム自体はC#で記載してあります。
.net Framework 2.0が入っていればコンパイルできるはずです
matome.exe.config内のフォルダ配下のdatを探し
コマンドラインで指定した名称を頭に持つ勇者の酉、IDを抽出し
その酉かIDと一致する発言とリンク先を抜き出します。
添付してあるhtmlは matome サバで実行しました。
使い方
.net Framework 2.0 SDKまで入れる→コマンドプロンプトからcsc matome.csでコンパイル
できたmatome.exeを置いた場所でmatome (任意の勇者名)で抽出の流れ
設定は設定ファイルを見れば大体分かるかと・・・
.net FrameWorkの入れ方はこの辺り見ると分かるかも
ttp://d.hatena.ne.jp/yaneurao/20060524
再配布とか
ソースのままなら自由(ウィルスを混入させ辛い為)
exe形式で配布する場合は.netのインストール等の質問に対応する気があって
誰でも自由に書けるところでなければよいです。
2006/07/21 Ver 0.1 初版 なんとなく作ってみた公開はするが反正は難しい
2006-07-24 Ver 0.2 cssを分離
拾えない分のIDと酉を指定可能にした(取り付ける前の発言を拾うため)
除外対象IDと酉を指定可能にした(自分でもやったが酉割れ後の偽者と
かを除外するため特に偽サバ多すぎ・・・)
ReadMeを書いてみた
安価を適当に判断してみた(勇者の発言中の未来安価なら安価と判断)
2006-07-25 Ver 0.3 範囲安価対応 >>xxx-xxx >>xxx,xxx のみそれ以上のもの>>xxx-xxx,xxx
>>xxx,xxx,xxxは手動かな
いきなりログ収集から始めるモードを用意(酉とIDのみで検索できるよう)
勇者名省略時のデフォルトを設定ファイルに記載可能にした(引数が指定さ
れなければ設定ファイルの勇者)
tikage対策\d{20}が本文に含まれたらtikage扱い(000000000000000000って
文があったので数値20繰り返しで)
全角で数字が書いてあるものにも対応
名称検索モード追加(テストはあまりしてない)
2006-07-27 Ver 0.4 範囲安価対応 -xxxで最後が含まれなかった件修正
範囲安価検出部変更(ミスってたらゴメン)
次スレ立て指定対応(1からのリンクは無視)
1乙対応 リンク先の1は拾わないように変更
出力先フォルダ指定(予めフォルダは作成して置いてください。)
指定フォルダが無いか指定されてないときは現在のフォルダに作成
安価が「>」一つというのも対応したかも、単に「>xxx」で拾うようにした
正規表現を設定ファイルで指定できるように変更
安価からの安価も安価にしたつもり
css外だし(同一フォルダの指定cssのコピーもします)
フォルダ検索をサブフォルダまで探すように変更
出力順にナンバリング可能にした(自動判別で切るための前準備として)
出力ファイル名の名前を指定可能にした、省略時は指定勇者名+ファイル名
指定時は指定名称+ナンバリング
メール抽出部で sage age は削除(それ以外はメール欄で話してることもあるので残す。)
アンカーが全角のものに対応
タグモード TRUE:通常出力 FALSE:レス部分しか出力しないモード
上書きモード TRUE:全て同一ファイルに出力するモード FALSE:別ファイルに出力するモード
(現状では見つかったファイル順に書くので実用性は低いです、ソート実装したら使えるかも)
↓、↑対応 ↑一段まで↓は結構拾うはず(安価内での↑↓のみ拾う)
2006-07-28 Ver 0.5 リンクタグ削除時のバグ対応(ID:HUFz2oLI 指摘 Thx)ついでに正規表現置換に変更
関係ないけど酉作った◆69lHqflwlU
IndexOfで >0 になってたところ修正 >=0が正しいですorz
↓の↓だけ対応
2006-08-01 Ver 0.6 土曜日暇だったからHP作った(http://69lhqflwlu.web.fc2.com/)
ついでにブログ(http://69lhqflwlu.blog56.fc2.com/)も作ったけど書くこと無いかも知れない
勇者名省略時は勇者名が設定ファイルに書かれているときはそれで検索のはずが代入忘れてた
milky対策(名前がmilkyならmilky)
強制収容モード(本文中に指定文字を含めば出力)本人がいないところでの話題に使えるかも
(ログ多くなりすぎるから使わないほうが良いかも)
出力日付モード TRUE:最初の勇者の発言時刻(スレ立て日付) FALSE:現日付
鯖の発言整理中に気づく勇者の発言に対するレスを拾わなくていい気がしてきた
ってことでレスモード TRUE:勇者の発言に対するレスも拾う FALSE:勇者の付けたレスは拾う
2006-08-24 Ver 0.7 上書きモードが死んでたので直した・・・直しきれていません(そもそも最初に日付順に並べないと・・・)
勇者名_yyyyMMddhhmmss.htmlでファイル名を作成するモード追加
避難所のID変わったから落とすときには自分のページの方に上げて酉つけて連絡という形にします。
IDの無い場合に対応(と言っても日付を取得できるようにしただけと言う話も・・・)
未対応:
ほとんどを関数化して使いまわせるように構造変更・・・したい
抽出部:
特殊範囲安価対応 >>xxx->>xxx >>xxx-xxx,xxx >>xxx,xxx,xxx とか
↑の↑とか↓×2とかだと拾えないので手動で
GUIをつける(やらない可能性大、面倒なのとGUIあると仕事中に出来ないため)
まとめ部:
1案:普通に出力後タグ内だけ抽出
時刻部分を利用してソート(別ファイルだと時刻順、同一スレだとスレ番順)
2案:全部読み込んでから処理
時刻部分を利用してソート(別ファイルだと時刻順、同一スレだとスレ番順)
どちらにせよメモリ馬鹿食いしそうな気がする・・・別プログラムにするか?
3案:
スレ毎に中間ファイルを作成しIndexをみながら読み込んで比較しながらループ
まとめ時は別形式でworkを作成
サバでトータル1.9MBのファイルをメモリに読み込む・・・メモリ的には楽勝な気がする
全部のログ読み込み後処理
表1-589,裏1-169+1,表避難所1-41,裏避難所1-9くらい?,3chとyyとかは置いとく
荒されて500KB,通常200KB程度 250KBで見積もると283500KB≒277MB
オンメモリでもなんとかなるかも・・・
ここまで考えて気づいた、時間でソートしてもレス元とか裏と表とか行き来されると入り乱れて困るサバ
スレ単位で順番ソートぐらいしかなくなり結局手動の手間は対して変わらなくなる
分割方法、1ファイル1000行程度で分割しタグ付けてファイル出力
出力時にIndex用のhtmlも作成する。
01で 20毎に
挿入
メモ:cssのclassタグの使い分け
res 対象勇者のレス
ires ちょっかい対象者降臨時(ハル妹とか)らしい プログラムでは判別不可
yres 他の勇者のレス
tres その他対象勇者関連(友人とか)(うか◆Di0nNgpfsoにおける陽とか) プログラムでは判別不可
unc 安価
tit タイトル
制限事項:携帯勇者には使わないほうが無難です、他人の発言を大量に巻き込みます。
駄文:
ソースのままの配布について
ソースのままだと知識は要るけどウィルスが入り込む余地が少なくてよいかなと
いうそれだけの理由です。
そのほかにexeだと動かない時にどうしてと聞かれるけどソースだとある程度
調べる気のある人しか使わないってのもあります。
あと飽きたらほっぽりだす可能性が高いのでそのときにソースがあれば引き継ぐことも
可能かなと・・・飽きること前提です。
wiki更新要請&連絡に書いて一週間ばかり音沙汰が無かったら死んだ(接続環境が無くなった
含む)か飽きたと思ってください。
あと神はまとめてくれる人です、私は神の手伝い及び新しい神の誕生の手助けになれば満足です。
(訳:まとめwktk)