incremental_update とは#
前回までの Unification 結果を使用し、更新されたレコードに対してのみ新しく縫い合わせを行う処理にすることで、処理時間を減らすことができる仕組みである。
incremental_update でどれくらい効率が上がるか#
(
incremental_columns: [time]
が指定された場合) Unification Algorithm が前回の最終 graph と新規追加分のレコードによる graph を合わせたものになるため、縫い合わせがほとんど完了している状態からスタートできるため、収束が早くなる。(
incremental_columns: [time]
が指定された場合) エンリッチ処理の際に、差分レコードだけに canonical_id をエンリッチするので (全レコードに canonical_id をエンリッチする場合に比べて) 処理時間が短くなる。