incremental_update とは#

前回までの Unification 結果を使用し、更新されたレコードに対してのみ新しく縫い合わせを行う処理にすることで、処理時間を減らすことができる仕組みである。

incremental_update でどれくらい効率が上がるか#

  1. (incremental_columns: [time] が指定された場合) Unification Algorithm が前回の最終 graph と新規追加分のレコードによる graph を合わせたものになるため、縫い合わせがほとんど完了している状態からスタートできるため、収束が早くなる。

  2. (incremental_columns: [time] が指定された場合) エンリッチ処理の際に、差分レコードだけに canonical_id をエンリッチするので (全レコードに canonical_id をエンリッチする場合に比べて) 処理時間が短くなる。