3.7
日本語データ特有の前処理
まとめ
- 全角半角の正規化やカタカナ・ひらがな統一など、表記ゆれを体系的に処理する方法を学ぶ。
- 和暦変換・住所分割・漢数字変換など、日本語データ固有の整形レシピを身に付ける。
- ストップワード除去・ルビ処理・文分割で、テキスト分析に使える状態へ加工する手法を押さえる。
直感 #
日本語データには、全角と半角の混在・和暦と西暦の併存・踊り字・漢数字など、英語圏のデータにはない特有の課題がある。これらを放置すると名寄せや集計で不整合が起き、分析結果の信頼性が損なわれる。このチャプターでは、ビジネスデータやログに潜む日本語固有の「クセ」を体系的に整えるための10のレシピを用意した。
詳細な解説 #
このチャプターで学べること #
- 全角・半角のゆれを正規化する方法(
unicodedata.normalizeと正規表現の組み合わせ) - カタカナ・ひらがなの統一で名寄せ精度を高める手法
- 々・ゝなどの踊り字を展開して検索やマッチングに対応させる方法
- 漢数字をアラビア数字へ変換する実装パターン
- 和暦(令和・平成・昭和など)を西暦へ変換するルールベースの処理
- 住所を都道府県・市区町村に分割してジオコーディングや集計に使う方法
- 氏名から敬称やカッコ書きを除去するクレンジング手法
- 日本語ストップワードの除去でテキスト分析のノイズを減らす方法
- ルビ付きテキストから読み仮名を抽出・除去する処理
- 日本語文を安全に分割してNLPパイプラインに投入する方法
これがわかるとできること #
- 日本語データの表記ゆれを自動的に正規化し、名寄せや重複排除の精度を高められる
- 和暦・住所・漢数字など日本固有の形式を標準形式に変換し、分析基盤に統合できる
- テキストデータのクレンジングからトークン化までの前処理パイプラインを構築できる
学習の進め方 #
- まず全角半角正規化とカタカナ・ひらがな統一で、表記ゆれ処理の基本パターンを押さえる
- 次に踊り字展開・漢数字変換・和暦変換で、日本語固有の数値・記号処理を学ぶ
- 住所分割と敬称除去で、構造化データのクレンジング手法を確認する
- 最後にストップワード除去・ルビ処理・文分割で、テキスト分析向けの前処理を身に付ける