Pythonにおける日本語処理について - arosh/arosh.github.com GitHub Wiki

Pythonにおける日本語処理について

目次

  • ASCIIコード
  • 日本語の代表的な文字コード
  • Unicode , UTF-8/16/32
  • Pythonにおける日本語処理について
  • 補足:文字コードの闇

ASCIIコード

EBCDIC

日本語文字コード

Unicode , UTF-8/16/32

Unicodeを送られてLINEを初期化されたんですけど、強力なUnicodeありませんか? お願いします。

http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q11116062531

LINEでアカウントが死ぬくらい強力なUnicode下さい

http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q12116672477

符号化文字集合, 文字符号化方式

Pythonにおける日本語処理について

バイト列とUnicode文字列

b'あいう' # バイト列
u'あいう' # Unicode文字列
'あいう' # ???

Python2系では

深く学ぶための資料

  • プログラマのための文字コード技術入門, 矢野 啓介, 技術評論社 (2010)
  • http://hayashibe.jp/tr/charcode/
  • ユニコード戦記 ― 文字符号の国際標準化バトル, 小林龍生, 東京電機大学出版局 (2011)