EXCELをEXCELのまま放っておいてはもったいない

2022.08.26

EXCELのファイルは、どうしても日々増えてしまいます。しかし、増えた後、どうやって活用できるかが問題です。

データベースのように検索したりできれば、利用価値もあがるのですが、 Apache Drill を使ってSQLで検索するという試みは、残念ながら日本語があるとうまくいかないようでした。

記事:Apache Drill でローカルのEXCELファイルに、SQLを実行する

Databricks社の eブック『データエンジニアリングのビッグブック』では、

組織が保持するデータの80% 以

上が非構造化および半構造化形式であると推定されています。データの収集が増え

続けるなか、データの73% が分析や意思決定に使用されないままになっています。

https://www.databricks.com/jp/p/ebook/the-big-book-of-data-engineering

という問題意識より、Databricks社の提唱する「データ・レイクハウス」というプラットフォームがどのようにこの問題に対処するかを詳しく説明してあります。この eブックに記載されているのは、大変大きなプロジェクトばかりなので、そのまま自社に当てはめるのは難しいと感じる方も多いのではないでしょうか。(ところでこの eブックは 57ページにも及び、様々なケースを図示して説明してくれていて、大変役に立ちます。お時間あればご一読下さい。)

しかし、上に引用した「データの73% が分析や意思決定に使用されないままになっています」という部分は、大いに頷けるところがあるのではないでしょうか?

「使用されないままになっています」というのは言い過ぎかもしれません。でも、1度使用された後、再度使用されることが少ないデータはたくさんあるのではないでしょうか?

EXCELの利点

EXCELファイルはどうしてこんなに便利なのか。簡単なことですが復習をしておきます。

  1. 多くの人が扱えるアプリケーションである
  2. データを記録したり集計したりするのに便利である
  3. 書類を見せるための装飾も出来る(罫線を引く、色を付ける、画像を入れる、など)

以上3点が、EXCELを便利にさせている点だと思います。

1. EXCELは多くの人が使えるアプリケーションである

これは、事実として、多くの方がEXCELは、使えます。今やビジネスで EXCEL が使えないというのは、鉛筆が使えないのと同じくらい基本的なスキルになりました。

Officeのインストールしてあるコンピュータがありさえすれば、EXCELはすぐに使えます。

一方でたとえば、「データベース」となると、ごく一部の人しか使えませんし、いつでもどこでも、という訳にはいきません。

2. EXCELはデータの記録や集計に便利である

表計算ソフト、というのが正式な呼び方ですので、やはり表の計算をするには便利です。「表」とは、データと言っても良いので、表計算ソフトであるEXCELは、データを集めるにも便利なツールになります。

しかし、「データを集める」という点に関しては、圧倒的にデータベースの方が便利ですし、強力です。EXCELに大量のデータを入れると大変なことにもなります。

マクロを多用されるところもあると思います。VBAは基本的にプログラミング言語ですから、あらゆることが出来ます。

しかし、プログラミング言語としては、勿論、もっと良い言語がたくさんありますし、ノーコード・ローコードのツールもたくさんあります。

3. EXCELはドキュメントの装飾が出来る

罫線を引く、セルに色を付ける、写真を貼る。

これは、表計算としては無意味な機能ですが、EXCELを便利にさせている、最大の理由は、これではないかと思います。

データの重要性の変化

EXCELでデータを扱う目的に、表計算としての機能に加えて、ドキュメントとしての装飾性があるのは、否定できないと思います。

強調したいところを強調したり、数値の裏付けとしての画像や写真を添付したり、経緯や分析を加えたりして、1つの資料にまとめるというのは、ビジネスではとても重要な仕事です。

しかし、今の時代、データの重要性の高まりの中で、EXCELのこの3つ目の利点は、重要性を失いつつあると言わざるを得ません。ドキュメントとしての重要性は、プレゼン用ソフトウェアなどに移っていて、データそのものをいかに扱うかが、重要になっています。

結果的に、ビジュアルにデータを説明するのに使われるのは、今や、ビジネス・インテリジェンス(BI)や、ダッシュボードになりました。

また、データは、会社内で横断的に見て分析すべきで、個人のコンピュータ上のデータで分析するべきではありません。

さらにはビッグデータも含めた、社外のデータも、すぐに使える状態にあるべき時代になりましたので、データは1か所に集めて、様々な角度から見直すことが、大切になりました。

EXCELデータを活用するために

3つ目の役割が重要性が下がったといっても、日々の業務でEXCELが便利なことには変わり有りません。

EXCEL以外のシステムを導入出来ていればいいのですが、そのようなシステムの導入が未だ難しい企業もたくさんあります。(弊社も出来ていません!)

それでも、増え続けるEXCELのデータを、もっと活用するためには、使いやすい形でデータベースに登録出来る必要があります。

様々なデータを一か所に集めるために使われる、ETLツール

ETLとは、

  • Extract 抽出
  • Transform 整形
  • Load 格納

の頭文字をとって作られた言葉で、例えばEXCELのデータを、整形して、データベースに格納するツールのことを、指します。

冒頭で引用しました、Databricks社の eブック『データエンジニアリングのビッグブック』でも、ETLツールの使われ方が説明されています。

「データ・ウェアハウス」などの大規模データベースを保持している会社であれば、巨大なデータベースに、あらゆる情報を詰め込んで、全社で活用できることを目指してきました。

近年では、それでも間に合わないということで、1つの大きな「データ・ウェアハウス」にまとめるのではなく、「データ・レイク」と呼ぶ、大きな入れ物(池)に、とにかくデータを放り込んでおいて、それを後から ETL ツールで処理をしよう、という考え方が広まりました。

しかしそうすると、「データの池」となるべきところが、「データのゴミダメ」になってしまい、これではダメだ、もう少し整理しなければ、、、、といったことが最近は強く議論されてきました。

Databricksなどは、そういう問題に積極的にソリューションを提供していて、事例が eブック では紹介されています。

この記事では、データ・レイクやデータ・ウェアハウスといった大きなデータベースのことは触れません。

しかし、EXCELのデータをもっと活用するためには、EXCELの中のデータを、広く共有しやすいようにしないと、もったいないです。

その為には、ETLを使って、関係者全員がアクセスできるデータベースにデータを入れて、全員がそれを可視化出来る仕掛けが必要です。

1)表形式のEXCELをデータベースに入れる

2)単純な表形式ではないEXCELを、データベースに入れる

また、おまけとして:

3)PDFファイルの中身を抽出して、データベースに入れる

について、いくつかの記事に分けて紹介していこうと思います。

EXCELに限らず、社内のデータを活用するプラットフォームを作りたいという会社様は、是非、ご一読下さい。

もしくは、下記からお問合せ頂ければ、御社にとって役立つデータ・プラットフォームを、ご一緒に考えたいと思います。お気軽にお問合せ下さい。

(Image by Rosy – The world is worth thousands of pictures from Pixabay)

連載記事「EXCELデータをデータベースに入れる」

表形式のEXCELならばデータベース化は簡単です
表形式でないEXCELでも、工夫次第です。ここでは「ドキュメントDB」を活用します。
まずは正規化しないまま、リレーショナルDBへ入れてみます。
番外編:PDFファイルもデータベース化を検討します。