ツールの使い方 - aksgibm/spi01 GitHub Wiki
このツールの役割
テキスト中の固有名詞などを伏字にします(サニタイズ)。
sanitize.html
左側のテキストを右側にサニタイズ出力します。
使用方法:
- [hostname:port]/sanitize.htmlをブラウザで開きます
- 左側の入力用と書かれたテキストボックスに対象の文書をコピーします。
- 真ん中の変換ボタン(->)を押し、右側の出力結果を利用します。
- (Optional)伏せ字にしたい単語で抜けがある場合は、一番上の追加の人名に、","で区切りを入れて追加し、3.の手順を行います。
補足事項:
- 入力されたテキストの中から、ブラウザ内で品詞分解と正規表現によって単語抽出を行い、必要に応じて伏せ字にします。
- 入力されたテキストはブラウザのjavascriptで処理され、サーバーなどネットワーク上の他のマシンにアップロードされることはありません。(変換ロジックをダウンロードするためにネットワーク回線は必要です)
- 伏せ字にする単語は人名、地域名(住所)、電話番号、メールアドレス、クレジットカード番号が含まれます。ただし、使用している辞書により人名によっては伏せ字にならないものがあります。その場合は、手順4.により追加処理を行ってください。
- 伏字のデフォルトの文字は"○"です。変更したい場合、URLに、?outchr=Aと指定してください、例えば、×に変更したい場合、 [hostname:port]/sanitize.html?outchr=× となります
sanitize_files.html
指定したフォルダ内のテキストファイルを、santize.htmlと同じ方法で変換します。 変換結果は、ファイルリスト、あるいはそれらを圧縮したzipファイルを選べます。 Google Chromeの最新版を使用してください。
使用方法:
- [hostname:port]/sanitize_files.htmlをブラウザで開きます
- 入力フォルダ横の”ファイルを選択”ボタンから、対象となるファイルの入っているフォルダを選択します。(選択後ファイル一覧が表示されます)
- 変換(個別にファイルを変換)、変換+圧縮(全てのファイルを変換後、一つのzipファイルに圧縮)を選びます。
- (Optional)伏せ字にしたい単語で抜けがある場合は、一番上の追加の人名に、","で区切りを入れて追加し、3.の手順を行います。
- (Optional)必要に応じて、入力ファイルの文字コードを選びます(デフォルトはUTF-8)
- (Optional)ファイル名匿名化の必要に応じて、"ファイル名も匿名化する"のチェックボックスを設定します。(デフォルトはOn)
- (Optional)入力ファイルが.eml(.msgファイルをmapitoolを使って汎用形式に変換したもの)で、ヘッダーを取り除きたい場合は、"elmファイルのヘッダを削除し、txtファイルにするのチェックを入れます (デフォルトはOn)
補足事項:
- 指定されたテキストファイルの中から、ブラウザ内で品詞分解と正規表現によって単語抽出を行い、必要に応じて伏せ字にしたファイルを出力します。
- 入力ファイル、および出力ファイルはブラウザのjavascriptで処理され、ブラウザのローカルストレージに保存されます。サーバーなどネットワーク上の他のマシンにアップロードされることはありません。(変換ロジックをダウンロードするためにネットワーク回線は必要です)
- 伏せ字にする単語は人名、地域名(住所)、電話番号、メールアドレス、クレジットカード番号が含まれます。ただし、使用している辞書により人名によっては伏せ字にならないものがあります。その場合は、手順4.により追加処理を行ってください。ここで、sanitize.htmlで使用した、伏字にしたい単語リストを使うことも可能です。
- 伏字のデフォルトの文字は"○"です。変更したい場合、URLに、?outchr=Aと指定してください、例えば、×に変更したい場合、 [hostname:port]/sanitize_files.html?outchr=× となります
- 作業結果保存はブラウザのFile APIのFile systemで行います。 その容量を確認する場合、こちらのツールなどをお使いください。https://demo.agektmr.com/storage/