Last modified : Jun 26 2011
Created: Jun 08 2011

OED → Logophileテキスト形式 変換

特徴
変換手順
  1. CD-ROM データのテキスト化
    いつもの通り、「OED テキスト化スクリプト」のお世話になります。
    なお、出力されるテキストファイルのファイル名は、1.txt ~ 10.txt にしておいて下さい。
  2. テキストファイルを Logophileテキスト形式 に変換
    oed2lpud.el をバイトコンパイルしてから emacs にロード、
      M-x oed2lpud-conv
      

      WinXP(SP3) + GNU Emacs 23.3.1 にて動作確認しています。Windows 特有の機能—例えばコンソールコマンド等—は使用していませんので、他の環境でも動作すると思いますが、未確認です。

    入力および出力フォルダは、起動直後にダイアログで指定します。
    所要時間は30~50分程度。Logophileテキスト形式ファイルの規模は、指定するオプションにより変わり、個数は15~23個、総容量は800MB~1.3GB 程度となります。

    以下のようなカスタマイズ変数がありますので、必要に応じて .emacs などで設定して下さい。
      ・入力フォルダのパス指定
       変数名:oed2lpud-conv-input-dir (デフォルトは nil)
      	nil	スクリプト起動時に、入力ファイルのあるフォルダ名をダイアログで指定。
      	パス名	そのパス名を入力フォルダとして使用します。(ダイアログは起動されません。)
      
      	【注】区切り記号は、Windows 的な "\"(yen マーク) ではなく "/" になります。
      		例えば、
      			(setq oed2lpud-conv-input-dir "D:/oed2txt110/data")
      
      ・出力フォルダのパス指定
       変数名:oed2lpud-conv-output-dir (デフォルトは nil)
      	nil	スクリプト起動時に、出力ファイルを置くフォルダ名をダイアログで指定。
      	パス名	そのパス名を出力フォルダとして使用します。(ダイアログは起動されません。)
      
      ・Date Chart 生成(サンプル)
       変数名:oed2lpud-conv-gen-datechart (デフォルトは nil)
      	nil	Date Chart を生成しません。
      	t	Date Chart を生成します。
      
      ・Navigation Bar 生成(サンプル)
       変数名:oed2lpud-conv-gen-navi-bar (デフォルトは nil)
      	nil	Navigation Bar を生成しません。
      	t	Navigation Bar を生成します。
      
      ・表示色指定
       変数名:oed2lpud-conv-qt-color (デフォルトは "#002653")
      	Quotation 部分の文字色を指定します。
       変数名:oed2lpud-conv-qt-background-color (デフォルトは "#f0f0f0")
      	Quotation 部分の背景色を指定します。
       変数名:oed2lpud-conv-navi-color (デフォルトは "#002653")
      	Navigation Bar 部分の文字色を指定します。
       変数名:oed2lpud-conv-navi-background-color (デフォルトは "#f0f0f0")
      	Navigation Bar 部分の背景色を指定します。
      
      ・LPText ID フィールド 指定
       変数名 oed2lpud-lptext-id 
      	デフォルト値には、手許の環境で LogophileDicManager が生成した値(の一つ)を
          そのまま使用しています。
      	当面、特に設定する必要はないと思われます。
      
      ・インデックス情報の設定先、抽出範囲
       変数名:oed2lpud-conv-lpfindex (デフォルトは '(forms))
      	<div class="lpfindex">...</div> に設定するインデックス情報を指定します。
       変数名:oed2lpud-conv-lpkindex (デフォルトは '(phrs))
      	<div class="lpkindex">...</div> に設定するインデックス情報を指定します。
      
      	但し、
      	  forms: Forms 抽出分。
      	  phrs:  派生語/フレーズ抽出分。
      	使用例
      	  ;; lpfindex に、Forms 抽出分および派生語/フレーズ抽出分とも詰込む場合:
      	  (setq oed2lpud-conv-lpfindex '(forms phrs))
      	  ;; lpkindex を空っぽにしておく場合:
      	  (setq oed2lpud-conv-lpkindex '())
      
    例えば以下のような感じです。
      (setq oed2lpud-conv-gen-datechart t)
      (setq oed2lpud-conv-gen-navi-bar t)
      
      ;(setq oed2lpud-conv-input-dir "D:/oed2lpud/src")      ;;; test data
      ;(setq oed2lpud-conv-input-dir "D:/oed-txt")           ;;; v3.0
      (setq oed2lpud-conv-input-dir "D:/oed2txt110/data")   ;;; v3.1
      
      (setq oed2lpud-conv-output-dir "D:/oed2lpud/LogophileUD/")
      
      ;(setq oed2lpud-conv-lpfindex '(forms))  ;; default= '(forms)
      ;(setq oed2lpud-conv-lpkindex '())  ;; default= '(phrs)
      
  3. Logophileテキスト形式ファイルを Logophile にインポート
    Logophileテキスト形式ファイル(15~23個)全てを、同一の辞書名を指定してインポートします。
    LogophileDicManager の [ツール] → [別形式の辞書をインポート] にて:
      ・「インポートする辞書データ」
       「ファイル形式」は「Logophileテキスト形式」。
      ・「インポートによって作られる辞書」
       「ファイル形式」は「Logophileバイナリ形式」。
       「保存先」はインポートされるファイル毎に別フォルダにします。
      
    Logophileバイナリ形式ファイルの総容量は、例えばLogophileテキスト形式ファイルの総容量が約1.3GBの場合で、360MB 程度となります。

    なお、同梱の dcs.gif、hr.gif は、この「Logophileバイナリ形式」の「保存先」フォルダ全てに別途コピーしておきます。
  4. Logophile としてのインデックスを作成
    LogophileDicManager にて、インポートされた辞書(15~23個)全てを選択して「インデックス作成」。
    所要時間は、Logophile への他の辞書の登録状況や PC の処理能力に応じて変わり、5~10分以上。
使用方法
ダウンロード
対応辞書バージョン
使用条件
ご注意
今後の予定
参考リンク
変更履歴

inserted by FC2 system