データセット#
この章は前章の Exapmle1 を前提にしているため、いくつかの重複する解説は省略されている。Example1 を必ず先に目を通した上で読み進めるようにして欲しい。
この章では、複数サイトの td_client_id, td_global_id, td_ssc_id, email を縫い合わせることで同一人物と特定されるケースを扱っていく。 4つのサイトがあるが、テーブルごとに持っている key の組み合わせが異なる。
site_aaa |
site_aaa |
site_aaa |
site_xxx |
site_xxx |
site_yyy |
site_yyy |
site_zzz |
site_zzz |
|||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
日付 |
td_client_id |
td_global_id |
td_ssc_id |
td_ssc_id |
td_global_id |
td_ssc_id |
td_client_id |
||||||
1月 |
5日 |
aaa_001 |
3rd_001 |
ssc_001 |
a@ex.com |
ssc_001 |
|||||||
15日 |
aaa_001 |
3rd_002 |
ssc_001 |
zzz_001 |
a@ex.com |
||||||||
25日 |
aaa_001 |
3rd_003 |
ssc_001 |
||||||||||
2月 |
5日 |
aaa_001 |
3rd_004 |
ssc_001 |
ssc_001 |
3rd_004 |
|||||||
15日 |
ssc_001 |
3rd_005 |
a@ex.com |
ssc_001 |
|||||||||
25日 |
a@ex.com |
ssc_001 |
zzz_003 |
a@ex.com |
|||||||||
3月 |
5日 |
zzz_003 |
a@ex.com |
||||||||||
15日 |
ssc_001 |
3rd_008 |
zzz_003 |
a@ex.com |
|||||||||
25日 |
aaa_002 |
3rd_009 |
ssc_002 |
ssc_001 |
3rd_009 |
||||||||
4月 |
5日 |
aaa_002 |
3rd_010 |
ssc_002 |
b@ex.com |
ssc_003 |
|||||||
15日 |
b@ex.com |
ssc_003 |
zzz_004 |
b@ex.com |
|||||||||
25日 |
ssc_002 |
3rd_010 |
zzz_004 |
c@ex.com |
|||||||||
5月 |
5日 |
aaa_003 |
3rd_013 |
ssc_003 |
ssc_002 |
3rd_013 |
|||||||
15日 |
aaa_003 |
3rd_014 |
ssc_003 |
||||||||||
25日 |
aaa_003 |
3rd_015 |
ssc_004 |
c@ex.com |
ssc_003 |
zzz_005 |
c@ex.com |
||||||
6月 |
5日 |
aaa_003 |
3rd_016 |
ssc_004 |
ssc_003 |
3rd_016 |
|||||||
15日 |
ssc_003 |
3rd_017 |
zzz_005 |
c@ex.com |
|||||||||
25日 |
c@ex.com |
ssc_004 |
zzz_005 |
c@ex.com |
データの準備#
上記のデータは以下の site_aaa テーブルのように、サイトごとに site_aaa、site_xxx、site_yyy、site_zzz という名前でTDのテーブルに格納されていることを前提に話を進める。このテーブルは Ch12. Workflow Samples を利用すれば生成できるものになっている。TD 上では値の入っていないセルは NULL となっている前提で進める。
site_aaa#
time |
site |
td_client_id |
td_global_id |
td_ssc_id |
---|---|---|---|---|
2023/01/05 |
aaa.jp |
aaa_001 |
3rd_001 |
ssc_001 |
2023/01/15 |
aaa.jp |
aaa_001 |
3rd_002 |
ssc_001 |
2023/01/25 |
aaa.jp |
aaa_001 |
3rd_003 |
ssc_001 |
2023/02/05 |
aaa.jp |
aaa_001 |
3rd_004 |
ssc_001 |
2023/02/15 |
aaa.jp |
|||
2023/02/25 |
aaa.jp |
|||
2023/03/05 |
aaa.jp |
|||
2023/03/15 |
aaa.jp |
|||
2023/03/25 |
aaa.jp |
aaa_002 |
3rd_009 |
ssc_002 |
2023/04/05 |
aaa.jp |
aaa_002 |
3rd_010 |
ssc_002 |
2023/04/15 |
aaa.jp |
|||
2023/04/25 |
aaa.jp |
|||
2023/05/05 |
aaa.jp |
aaa_003 |
3rd_013 |
ssc_003 |
2023/05/15 |
aaa.jp |
aaa_003 |
3rd_014 |
ssc_003 |
2023/05/25 |
aaa.jp |
aaa_003 |
3rd_015 |
ssc_004 |
2023/06/05 |
aaa.jp |
aaa_003 |
3rd_016 |
ssc_004 |
2023/06/15 |
aaa.jp |
|||
2023/06/25 |
aaa.jp |
site_xxx#
time |
site |
td_ssc_id |
td_global_id |
---|---|---|---|
2023/01/05 |
xxx.jp |
NULL |
NULL |
2023/01/15 |
xxx.jp |
NULL |
NULL |
2023/01/25 |
xxx.jp |
NULL |
NULL |
2023/02/05 |
xxx.jp |
ssc_001 |
3rd_004 |
2023/02/15 |
xxx.jp |
ssc_001 |
3rd_005 |
2023/02/25 |
xxx.jp |
NULL |
NULL |
2023/03/05 |
xxx.jp |
NULL |
NULL |
2023/03/15 |
xxx.jp |
ssc_001 |
3rd_008 |
2023/03/25 |
xxx.jp |
ssc_001 |
3rd_009 |
2023/04/05 |
xxx.jp |
NULL |
NULL |
2023/04/15 |
xxx.jp |
NULL |
NULL |
2023/04/25 |
xxx.jp |
ssc_002 |
3rd_010 |
2023/05/05 |
xxx.jp |
ssc_002 |
3rd_013 |
2023/05/15 |
xxx.jp |
NULL |
NULL |
2023/05/25 |
xxx.jp |
NULL |
NULL |
2023/06/05 |
xxx.jp |
ssc_003 |
3rd_016 |
2023/06/15 |
xxx.jp |
ssc_003 |
3rd_017 |
2023/06/25 |
xxx.jp |
NULL |
NULL |
site_yyy#
time |
site |
td_ssc_id |
|
---|---|---|---|
2023/01/05 |
yyy.jp |
a@ex.com |
ssc_001 |
2023/01/15 |
yyy.jp |
NULL |
NULL |
2023/01/25 |
yyy.jp |
NULL |
NULL |
2023/02/05 |
yyy.jp |
NULL |
NULL |
2023/02/15 |
yyy.jp |
a@ex.com |
ssc_001 |
2023/02/25 |
yyy.jp |
a@ex.com |
ssc_001 |
2023/03/05 |
yyy.jp |
NULL |
NULL |
2023/03/15 |
yyy.jp |
NULL |
NULL |
2023/03/25 |
yyy.jp |
NULL |
NULL |
2023/04/05 |
yyy.jp |
b@ex.com |
ssc_003 |
2023/04/15 |
yyy.jp |
b@ex.com |
ssc_003 |
2023/04/25 |
yyy.jp |
NULL |
NULL |
2023/05/05 |
yyy.jp |
NULL |
NULL |
2023/05/15 |
yyy.jp |
NULL |
NULL |
2023/05/25 |
yyy.jp |
c@ex.com |
ssc_003 |
2023/06/05 |
yyy.jp |
NULL |
NULL |
2023/06/15 |
yyy.jp |
NULL |
NULL |
2023/06/25 |
yyy.jp |
c@ex.com |
ssc_004 |
site_zzz#
time |
site |
td_client_id |
|
---|---|---|---|
2023/01/05 |
zzz.jp |
NULL |
NULL |
2023/01/15 |
zzz.jp |
zzz_001 |
a@ex.com |
2023/01/25 |
zzz.jp |
NULL |
NULL |
2023/02/05 |
zzz.jp |
NULL |
NULL |
2023/02/15 |
zzz.jp |
NULL |
NULL |
2023/02/25 |
zzz.jp |
zzz_003 |
a@ex.com |
2023/03/05 |
zzz.jp |
zzz_003 |
a@ex.com |
2023/03/15 |
zzz.jp |
zzz_003 |
a@ex.com |
2023/03/25 |
zzz.jp |
NULL |
NULL |
2023/04/05 |
zzz.jp |
NULL |
NULL |
2023/04/15 |
zzz.jp |
zzz_004 |
b@ex.com |
2023/04/25 |
zzz.jp |
zzz_004 |
c@ex.com |
2023/05/05 |
zzz.jp |
NULL |
NULL |
2023/05/15 |
zzz.jp |
NULL |
NULL |
2023/05/25 |
zzz.jp |
zzz_005 |
c@ex.com |
2023/06/05 |
zzz.jp |
NULL |
NULL |
2023/06/15 |
zzz.jp |
zzz_005 |
c@ex.com |
2023/06/25 |
zzz.jp |
zzz_005 |
c@ex.com |