不要なものを捨てる重要性

古本屋

 ビッグデータがブームになっています。大量のデータからなんらかの法則のようなものを見つけ出し、利用しようという動きです。

 機械翻訳でも、以前は文法をコンピュータに覚えさせ、論理的に翻訳しようとしていましたが、行き詰ってしまいました。現在は、実際に使われている文章の用例を頼りに翻訳する方式が主流です。いわばコーパスを大量に覚える方式です。

 ビッグデータで問題になってくるのは、データ量です。昔、コンピュータの記憶装置の容量が少なく高価であった時代には、データ量を少なくすることは大きな課題でした。

 磁気ディスクが大容量になったおかげで、データ量を気にする必要がなくなってきました。普通の事務処理であれば、昔は不要になったデータは削除していましたが、最近は削除する必要もなくなってきました。

 それが、ビッグデータでは再びデータの削除が問題になってきます。ビッグデータをすべて保存していては、データ量は爆発的に増えてしまいます。

 ビッグデータの削除の方法には、法則化できたデータは削除するという方法があります。法則は抽象的な式で記述できます。法則化できない例外データだけは、そのまま使うことになります。

 また、10年、20年という長期間使われなかったデータは、削除するという方式もあります。用例として参考にならない文章というところでしょうか。

 いずれにしても、どのデータを削除するかというのは、難しい問題です。

 私の家は本であふれています。もう読まないだろうと思われる本もありますが、それを選び出すのに時間がかかるので、手をつけられずにいます。もうすぐ眠るところもなくなりそうです。

 ビッグデータから不要なデータを削除することと、私の家から不要な本を捨てること、データの規模はけた違いですが、難しさは同じぐらいに感じます。

  • このエントリーをはてなブックマークに追加

フォローはこちらからお願いします。

会社勤めから起業するためのウェブ集客セミナー
会社勤めから起業するための7つのステップ