Linuxシステムでテキストの文字符号化を変更する方法

2021-12-09

私たちが知っているように、コンピュータは低レベルのバイナリ値しか処理できず、文字を直接処理することはできません。1つのテキストファイルが格納されると、ファイル内の各文字はバイナリ値にマッピングされ、実際にハードディスクに格納されているのはこれらの「バイナリ値」です。その後、プログラムがテキストファイルを開くと、すべてのバイナリ値が読み込まれ、元の読み取り可能な文字にマッピングされます。この「保存と開く」プロセスは、このファイルにアクセスする必要があるすべてのプログラムが、その符号化、すなわちバイナリ値から文字へのマッピングを「理解」できる場合にのみ、よく完了し、データの往復プロセスを理解することができます。

異なるプログラムが同じファイルを異なる符号化で処理すると、ソースファイルの特殊文字が正常に表示されません。ここでの特殊文字とは、アクセントのある文字(例えば?,á,ü)など、英字以外の文字を指す。

ステップ1

ファイルの文字符号化を決定するには、「file」というコマンドラインツールを使用します。fileコマンドは標準的なUNIXプログラムなので、すべての現代のLinuxリリース版で見つけることができます。

次のコマンドを実行します。

コードのコピー

$ file --mime-encoding filename

ステップ2

次に、Linuxシステムでサポートされているファイル符号化の種類を確認します。このため、iconvという名前のツールと「-l」オプション(Lの小文字)を使用して、現在サポートされているすべての符号化をリストします。

コードのコピー

$ iconv -l

ステップ3

Linuxシステムでサポートされている符号化でターゲット符号化を選択した後、次のコマンドを実行して符号化変換を完了します。

コードのコピー

$ iconv -f old_encoding -t new_encoding filename

例えばiso-8859-1符号化をutf-8符号化に変換する:

コードのコピー

$ iconv -f iso-8859-1 -t utf-8 input.txt

Linuxシステムでテキストの文字符号化を変更する方法

ジョン・レノンのギター4億5千万円で落札

制作期間「足りていなかった可能性」

小学館も来週に報告書公表

むのたけじ賞、名称変更　「生前に障害者差別発言」

「ねこクラゲ」被告、脱税認める　原稿優先で申告せず、福岡地裁

韓国HYBE傘下の代表続投　和解望む意向

【光る君へ】平安時代、強烈なエピソードで知られた２人の受領とは

ビルケンシュトック、創業から250年の歴史を振り返る2冊を出版

死後に再評価が進んだ作曲家の筆頭、ビゼー。その裏には友人の存在が【クラシック今日は何の日？】

大阪はアートとデザインの街となるか？ Osaka Art & Design 2024の見どころをレポート

“20世紀音楽”の発展に貢献した指揮者、クーセヴィツキー。その偉業とは【クラシック今日は何の日？】

「CLAMP展」が国立新美術館で7月より開催。展示数は史上最多の約800点

akakilikeの新作ダンス公演『希望の家』が松本・東京の2都市で上演へ

今週末に見たい展覧会ベスト12。山武市百年後芸術祭、版画の青春、北斎に三島喜美代まで

今年の「アートウィーク東京」は11月に開催。「AWT FOCUS」の監修には片岡真実

五木ひろし歌手生活60年…ふるさと福井へ恩返しの新曲

第55回星雲賞・自由部門に「巨大ロボット展」　日本SFファングループ連合会議

「Osaka Art & Design 2024」（大阪市内）開幕レポート。何気ない日常のなかで多様なカルチャーに触れる

藤井八冠、5連覇へ白星発進　将棋棋聖戦、山崎八段破る

写真家の吉田ルイ子さん死去