ABCDEFGHIJKLMNOPQRSTUVWXYZ
1
STEP작업세부 기능세부 내용Output data file
관련 SOURCE FILE
함수
2
step 0프로젝트 정의하기프로젝트 명 지정project_lib.csv에 프로젝트명, GMF등 환경 변수 지정project_lib.csvPRT###
3
*불필요한 캐릭터 제거용 LibraryCC_LIB.CSV나라별로 캐릭터가 다양함. (지속적으로 업데이트해야 함)
4
Fishing KW 선정이 LIB에 있는 단어 포함된 메시지를 제거하기 위한 라이브러리CW_LIB.CSV
5
의미없는 단어(-) 기본 라이브러리
meaningless keyword list.csv
예: 영어의 경우 er, tion, 리라, 에서 등등 빈번하게 나오는 집합체이나 핫키워드 안될 것 미리 지정해 둠. (각 나라 언어를 모두 이 화일에 넣어놓음. 나중에는 나라별로 이것 분리하고 사용할 것.)
6
유사 표현을 특정 표현으로 변경할 리스트rep_lib.csv
각 줄에서 첫번째 단어가 대체된 키워드, 두번째 부터는 대체될 키워드 지정하기. 각줄 마지막에 * 표시함
7
step 1Crawling
crwaling data 명: ###-hotkeyword-data.csv
8
9
10
step 2Cleaning Textscrawling data받으면
11
###-hotkeyword-data.txt
DATAANALYZER.CPP
deleteoverlapped
12
ok동일 메시지 중복 없애기1. 동일 어드레스 & 동일 컨텐츠 인지 비교 후 동일한 메시지들 제거(광고, 중복메시지)
13
겹치지 않는 메시지만으로 화일 (uniq), 중복메시지(ovlp) 내용 화일 작성, (uniq)기호만 앞으로 빼기
중복제거한 화일 생성 "(u)###.csv", 중복메시지 자료 생성 "(o)###.csv"
14
불필요한 기호,레터(표준형 library있는 것들) 제거제거하고 스페이스 넣기
마침표-제거이슈 (문장단위/문단단위)
핫키워드표시용 {}는 기존 메시지에서 제거
레퍼런스화일명 Clean_character_library###.txt, (csv도 상관 없음)-제거할 표준 캐릭터 기록
ㅁ제거하기 /눈웃음 ㅋㅋ 살리기
clean_character
15
내용 보고, 부적절한 메시지 제거 (광고, 동명이품의 경우 관련 키워드 제거)내용 보고 부적절한 메시지 제거 키워드 작성
레퍼런스화일명 Delete_Messages_library###.txt, (csv도 상관 없음)-제거할 표준 캐릭터 기록
16
대소문자 모두 소문자로 변환하기재식(러시아, 베트남, 말레이어 리스트 만들기)위 replace함수로 처리하자.
17
18
19
step 3major keyword list작성(u)###.csv를 가지고 빈도 분석 후, 주요 키워드 선정
20
주어진 텍스트 화일에 대해 빈도 분석을 통해 가장 많이 언급되는 단어부터 나열하기띄어쓰기 기반 언어의 경우
output:output file 프로젝트-hotkeyword-cleaned-data.csv
frequencyAnalyzer.c
topkeywordordering.c
21
22
내용 보고, 부적절한 메시지 제거 (광고, 동명이품의 경우 관련 키워드 제거)내용 보고 부적절한 메시지 제거 키워드 작성
레퍼런스화일명 Delete_Messages_library###.txt, (csv도 상관 없음)-제거할 표준 캐릭터 기록
23
24
25
?주요 키워드 본문에 해당키워드 앞뒤로 { } 삽입 insert_space.exe
26
하죠, 니다, . , ?,~, ㅎ, ^, ㅋ 뒤에 스페이스output file
27
28
Step 4기초 분석빈도분석 시행
29
30
31
32
keyword library(공용) db구축매번 분석한 메시지에서 주요 hotkeyword추출키워드 내림차순 정리
33
키워드별 %,기존 총 메시지수 기록
34
키워드 추출시 공통 library(나라별, 산업별, 시기별)도 활용할 것. 어떻게? 원메시지에서 공통library키워드 먼저 추출 후 나머지는 메시지에서 추출?
35
36
37
내용 분석긍부정 판독sample에 대해 사람이 긍부정 판정 (1/0/-1또는 모르겠음)
38
긍부정 판독 메시지를 통해 개별 단어별 리스트 작성특정 단어에 대한 긍부정 비율
39
두 단어 or에 대한 긍부정 비율
40
특정 브랜드포함한 문장내위치시, 다른 문장내 위치시 확률 계산
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100