04月≪ 2013年05月 ≫06月

12345678910111213141516171819202122232425262728293031
2013.05/27(Mon)

2ちゃんねるdat変換作業記録

手順

秀丸では正規表現で置換

0)最初と最後の不要な行を削除 以下も削除
あぼーん:あぼーんあぼーん 削除
管理人削除
事務局削除


1)<>があれば<>全角に


2)秀丸置換 「1 :」の前に<>
 検索
\n[0123456789]{1,4} :
 置換
\n<>\0


3)空白除去して前の文の文末に<>を移動
 検索
\n\n<>
 置換
<>

繰り返し
 検索
\n<>
 置換
<>

4)西暦の統一 05/12/31 → 2005/12/31
 検索
:([0123456789]{2})(/[0123456789]{2}/[0123456789]{2})
 置換
:20\1\2

5) 12:23:56 → 12:23  秒の削除
検索
([0-9]{2}):([0-9]{2}):([0-9]{2})
置換
\1:\2


6)秀丸置換 数字 :を削除して<>を挿入
1 :著者 :2003/10/28(火) 07:48 →1 :著者<><>2003/10/28(火) 07:48<>
 検索
^([0-9]{1,3} :)(.*)(:)([0-9]{4}/[0-9]{2}/[0-9]{2})(.+)([0-9]{2}:[0-9]{2})
置換
\1\2<><>\4\5\6<>


7)本文内の改行は<br>なので(<>は半角)
\nを<br>に置換


8)最初の 1 :名前のところを改行にしてデータ区切り
[0123456789]{1,4} :
\n


9)最初の一行のみ最後に<>スレッドタイトルを付加して末尾の<>を削除
 最後の行の最後に<>


10)スレッドタイトルの後ろに<>
がついていたら削除


終了のはず

実際には内容が空のレスはエラーになるので,エラーメッセージを
みてその箇所を検索し,見つけて削除
スポンサーサイト
13:19  |  コンピュータ  |  TB(0)  |  CM(0)  |  EDIT  |  Top↑
2013.05/24(Fri)

2ちゃんねる形式 dat

訳あって,2ちゃんねる形式のdatファイルを作成する必要に迫られた。別なデータファイルを2ちゃんねる形式に変換して,一括データ登録するため。

2ちゃんねる形式 dat
-----------------------------
名前<>E-mail<>日付とIDとBE<>本文<>スレッドタイトル
名前<>E-mail<>日付とIDとBE<>本文<>
名 fusianasan.2ch.net前<>E-mail<>日付とIDとBE<>本文<>
名前
◆ozOtJW9BFA <>E-mail<>日付とIDとBE<>本文<>
キャップ ★<>E-mail<>日付とIDとBE<>本文<>
名前
◆ozOtJW9BFA @キャップ ★<>E-mail<>日付とIDとBE<>本文<>
あぼーん<>あぼーん<>あぼーん<>あぼーん<>あぼーん
...
-----------------------------

例えば,こんな感じでテキストファイルでdatファイルを作成
名無しさん<><>2010/12/30 12:30<>これから本文だ。
これから2行目だ。
<>このスレッド全体のタイトル
名無し2<><>2011/10/12 14:23<>これが本文だ。
これから2行目本文だ。
<>
・・・

最初の1行目だけ最後にタイトルをつける。この一行の最後だけは<>をつけない。
本文中の改行は
で表現
他の行の最後は<>
上記の例ではE-mailを省略して<><>としている。


02:14  |  コンピュータ  |  TB(0)  |  CM(0)  |  EDIT  |  Top↑
2013.05/20(Mon)

秀丸の正規表現

1 :本文一2 :本文二3 :本文三・・・

1 :本文一
2 :本文二
3 :本文三
 ・・・
 ・・・
と秀丸の正規表現で変えるには

検索
 [0123456789]+[ ]:
置換
 \n\0
と指定する。一番最初には改行が入ってしまうが,そこは愛嬌。

検索文字列は\0で表現していることに注意
19:57  |  コンピュータ  |  TB(0)  |  CM(0)  |  EDIT  |  Top↑
2013.05/16(Thu)

Moodleのロール

Moodleって,しばらくアクセスしていないとteacherからstudentへロールが変えられてしまうということを知らなかったので,ちょっと戸惑った。
17:25  |  教育  |  TB(0)  |  CM(0)  |  EDIT  |  Top↑
2013.05/08(Wed)

CATDAP Xのエラー

久々にSPSSのスクリプトでCATDAP Xを走らせたところエラーがでる。

データ数は1500程度なので,以前分析した数より少ない。心当たりがないので
メモリーエラーかとメモリ領域を増やしたりしたが効果なし。

最終的に,分かったことはCATDAPの方で使わない変数であってもSPSSのデータ
ファイルに文字列変数があるとエラーになるということ。

たぶん,最初に全データを行列化するのだろう。
01:51  |  統計  |  TB(0)  |  CM(0)  |  EDIT  |  Top↑
 | BLOGTOP |