Clustered comments

	A	B	C	D	E	F	G	H	I	J	K	L	M	N	O	P
1		HDBSCAN() Results								https://zoom.us/j/98764352308?pwd=M0cya1IyNDBqTHRIYnlvOVBlZFVzZz09
2		df0.labels.value_counts().iloc[:15]
3	min_cluster_size	(default)	10	20	30	50	10	200	50	100	120	80	100	20	100	80
4	min_samples	(default)	10	20	10	50	30	50	200	100	80	120	20	100	1	30
5		-1 44536	-1 42373	-1 43735	-1 41228	-1 42760		-1 42829	-1 44973	-1 44334	-1 43118	-1 43510	-1 42324	-1 43808	0 41661 -1 9016 2 107 1 105	-1 41389
6		302 214	83 4516	42 2945	24 5442	13 6056		2 6198	1 4941	1 4665	2 6204	1 5700	12 4058	8 4665		9 6442
7		133 212	100 204	37 851	36 508	4 327		4 777	2 269	2 616	5 571	2 518	10 1418	9 616		13 1021
8		169 162	39 191	41 474	45 216	18 205		0 504	3 244	6 504	4 359	5 439	14 630	13 504		12 388
9		177 159	58 170	16 280	17 191	15 160		3 367	4 214	5 337	0 302	3 329	5 484	12 337		6 317
10		103 140	45 139	39 184	20 191	2 139		1 214	0 126	0 221	3 214	4 214	9 390	5 221		0 209
11		124 132	46 137	18 181	32 170	17 136			5 122	4 107	1 121	0 179	4 256	11 107		7 195
12		361 115	20 122	32 168	37 165	3 109				3 105			7 248	10 105		5 149
13		22 111	19 121	24 122	34 151	10 107							13 184	2 92		1 121
14		8 107	3 107	11 115	23 139	9 106							6 181	7 90		8 117
15		9 105	2 105	7 107	25 137	11 105							0 146	3 89		2 113
16		259 76	4 105	23 106	16 127	7 105							8 142	1 77		10 110
17		138 71	13 82	8 105	27 126	0 105							3 115	6 75		3 107
18		270 71	32 78	33 101	11 122	1 83							1 107	4 55		11 106
19		282 71	50 75	22 95	10 121	6 78							2 105	0 48		4 105
20
21	50k samples. So less than 5k (10%) we don't feel like that is a core idea. So min_cluster_size is 5k.
22	min_samples if larger (means more conservative).
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100