コラムバックナンバー
Option合同会社 柳井 隆道
発信元:メールマガジン2019年5月22日号より
これを読んでいるのはデータにかかわる仕事をしている皆さんということで、誰もがCSVファイルを扱ったことがあるでしょう。データを他の人やコンピュータに受け渡す、あるソフトウェアで保存したデータを違うソフトウェアで開く、そんな時に使います。
今回はこのCSVファイルを扱う上で知っておかなければならないことを紹介します。意外とテクニカルにもかかわらず誰もが扱うことのある形式で、知らずに躓くことが多いです。永久保存版の説明記事として役立てていただければ幸いです。
■CSVファイルとExcel
CSVファイルはおなじみのExcelでも開けますが、これはテキストファイルなので他のどんなソフトウェアでも開ける形式です。
一方で同じExcelで編集できるファイルでも拡張子が.xlsxになっているのはExcelなど一部のソフトでしか開けないものです。参考までにこの中身はzipファイルで、解凍ソフトを使えば解凍ができてしまいます。
Excelでしか開かないのであればxlsxで保存してもいいのですが、Excelでは扱いきれない大きなデータを別のソフトで開く場合などでは、xlsx形式では困るのです。たとえばMySQLなどのデータベースソフトではxlsxは扱えませんが、CSVであれば扱えます。
CSVファイルはサイズの大小を問わずデータを保存し、さまざまなソフトで開く。そのままテキストとして人間が読んで中身を確認することも可能な、汎用的にデータを扱うのに適した形式なのです。
■テキストの文字コード
CSVファイルを含むテキストファイル一般で考慮しなければならないのは文字コードと改行コードです。人間からの見た目が同じテキストでも、コンピュータ内部では異なるデータの保持の仕方をする場合があり、その代表的な設定が文字コードと改行コードなのです。同じ「あいうえお」という日本語5文字を書いたテキストを保存する際も文字コードが違うと実際には全然違うファイルになっています。
代表的な文字コードに「Shift-JIS」(SJIS)「UTF-8」があります。
UTF-8は最近メジャーで、LinuxやMacで主流になっている形式です。これは日本語や中国語、ヘブライ語など世界各地のローカル文字を世界共通で扱えるようにするために新しく作られた形式です。
Shift-JISは古くからWindowsやMicrosoftのソフトウェア(MacのMS Officeも)で使われてきた形式で、今でもWindowsのソフトウェアで保存するテキストファイルはこの形式であることが多いです。日本でしか使われない形式です。
※アドバンストな方のために、厳密にはWindowsで使われているのはSJISの亜種であるCP932という文字コードで、ほとんど同じですが一部異なるものです。SJISだと思っていたテキストをSJISとして開くとエラーが発生することがごくまれにあり、その場合はCP932として開けばうまくいきます。
ExcelでCSV形式を指定して保存するとSJIS形式で保存されます。そのCSVファイルをMacのソフトでUTF-8だと思って開くと文字化けが発生することもあるというのはこの文字コードの違いによるのです(最近は文字コードを自動推定して文字化けが起こらないように開くケースが多いですが)。
■改行コード
改行もコンピュータの内部では文字として扱われています(制御文字)。この改行コードも主にOSによって3パターンあります
– CR(キャリッジリターン:現在単体で使われることはない)
– LF(ラインフィード)
– CR+LF(上のCRとLFを組み合わせて使う)
文字化けが起こることはなく、CSVファイルとして扱う場合は気にしなくていいケースがほとんどですが、サイズの大きいデータを扱うソフトではCSVファイルを読み込むときの設定でどれを改行コードとして使っているかを明示的に指定を求められるケースがあります。プログラムのソースコードではこれが文字コードが混在しているとエラーになる場合があります。
Windowsは「CR+LF」、MacとLinuxは「LF」が使われます。WindowsとMacとでは前提としている文字コードや改行コードが違うので、お互い配慮するようにしましょう。
■区切り文字
CSVは「character-separated values」つまり「特定の文字で区切られた値」のことです。区切り文字にはカンマが使われることが多いですが、タブ区切りでもいいのです。タブ区切り形式はExcelではそのまま開けませんが、テキストエディタで開いてコピー&ペーストでExcelに貼り付けたときに意図した通りセルに収まる利点があります。データベースや統計ソフトで開くときも、区切り文字としてカンマでなくタブを指定することができます。
CSVファイルにも形式の違いがあり、特にサイズの大きいデータを扱うケース(データベースやDWH、RやPythonなどのプログラム)では意識が求められる機会が増えます。これらの違いを意識し、取り扱いを間違えないようにしてくださいね。
東京大学を卒業後、webマーケティングやサービス企画、システム開発などに従事。
デジタルマーケティングの世界に落ち着き、事業会社、広告代理店を経て2014年に独立。
現在は大小さまざまの事業会社、広告代理店などに対して、テクノロジー観点からデジタルマーケティングの支援を行っている。データ計測の設計、実装から分析、マーケティングオートメーションや広告運用などの施策との連携まで扱う。
さまざまな規模の経験から、企業の身の丈にあったデジタルマーケティングの企画に強い。フリーランスで活動していたが、2017年から法人化。
2026/05/20(水)
セミナー「事故から学ぶ理想のGoogle タグ マネージャー運用 ― 計測トラブルを防ぐルール設計と運用の現実解」 【a2i DEEP Connection】|2026/5/20(水)
誰も全体を管理していない、複数の支援会社がそれぞれのルールで触っている、気付かないまま計測トラブルが起きている。そんなGoogle タグ マ …
2026/04/22(水)
オンラインセミナー「「AIで分析」と聞いて身構えるみなさんへ。コード不要で進める時短ウェブサイト改善」|2026/4/22(水)
「AIで分析」と聞いて身構えていませんか?まずは30秒で内容をご確認ください 「AIで分析」と聞いた瞬間、急にハードルが跳ね上がる感覚はあり …
2026/03/18(水)
オンラインセミナー「GA4×生成AIで改善提案の精度を高める ― AIから「使える施策」を引き出す実践アプローチ ―」|2026/3/18(水)
GA4によるサイト改善は、生成AIと組み合わせることで新しい段階に入りつつあります。 しかし一方で、「AIに分析させても表面的なコメントしか …
【コラム】AIで支援会社の仕事はどう変わる?──意思決定支援の超伴走型へ
アナリティクスアソシエーション 大内 範行支援会社はお役御免になるのか? 「生成AIがすごすぎて私の仕事がなくなるか不安です」 支援会社やコンサルティングのそんな声を、よく耳にするよ …
【コラム】生成AI時代だからこそ、私はペルソナを大切にしたい
株式会社A-can 白砂 ゆき子「ペルソナなんて、いらないのでは?」 最近、そんな声を聞く機会が増えました。 私がペルソナの要・不要を改めて考えるきっかけとなったのは、最近 …
【コラム】「生成AIで人員を減らせる」は本当?─デジタルマーケティング組織はむしろ強化すべき
アナリティクスアソシエーション 大内 範行デジタルマーケティングやデータ分析の仕事がどう変わるか、というのが私の今年のテーマです。それは事業会社と支援会社の関係の変化につながり、「支 …