IT技術者のAIに関する雑記

AI関連のMicrosoft技術やデータサイエンスの話をメインに。

データサイエンスにおけるETL vs ELT

ETLといえば、昔からBIの領域で様々なマスター/トランザクションデータを収集するために使われている技術です。すなわち、Extract (抽出) - Transform (変換) - Load (読み込み) という3つのプロセスで、BI側に役立つ形にデータを加工して取り込むことです。

 

これに対してELTという技術もあります。これはTransformとLoadの順番が逆のプロセスになっているもので、ETLアーキテクチャでは中間層がボトルネックになりやすいという問題を解消させる考え方です。例えばOracle社のData Integratorは、ELTアーキテクチャを採用してデータ変換をOracle Databaseのエンジン内で行うことにより、中間層がボトルネックになることを避けています。

 

このようにETLとELTという言葉はアーキテクチャの視点でのみ使われていると思っていたのですが、以下のブログから、データサイエンスの領域では異なった視点からELTという言葉が使われていることに気が付きました。

https://buckwoody.wordpress.com/2016/11/18/data-wrangling-elt-not-etl/

データサイエンスの目的は、BIのようにデータを可視化することではなくデータから答えを見つけ出すことにあるため、オリジナルのデータが非常に重要になります。このため、データ変換は最後にすべきことからETLプロセスではなくELTプロセスであるべきだということです。

 

機械学習のみでなく統計処理でもデータ処理のプロセスは確かにELTだったのですが、この言葉が使われているということには、うかつにも気が付きませんでした。