| A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | STEP | 작업 | 세부 기능 | 세부 내용 | Output data file | 관련 SOURCE FILE | 함수 | |||||||||||||||||||
2 | step 0 | 프로젝트 정의하기 | 프로젝트 명 지정 | project_lib.csv에 프로젝트명, GMF등 환경 변수 지정 | project_lib.csv | PRT### | ||||||||||||||||||||
3 | * | 불필요한 캐릭터 제거용 Library | CC_LIB.CSV | 나라별로 캐릭터가 다양함. (지속적으로 업데이트해야 함) | ||||||||||||||||||||||
4 | Fishing KW 선정 | 이 LIB에 있는 단어 포함된 메시지를 제거하기 위한 라이브러리 | CW_LIB.CSV | |||||||||||||||||||||||
5 | 의미없는 단어(-) 기본 라이브러리 | meaningless keyword list.csv | 예: 영어의 경우 er, tion, 리라, 에서 등등 빈번하게 나오는 집합체이나 핫키워드 안될 것 미리 지정해 둠. (각 나라 언어를 모두 이 화일에 넣어놓음. 나중에는 나라별로 이것 분리하고 사용할 것.) | |||||||||||||||||||||||
6 | 유사 표현을 특정 표현으로 변경할 리스트 | rep_lib.csv | 각 줄에서 첫번째 단어가 대체된 키워드, 두번째 부터는 대체될 키워드 지정하기. 각줄 마지막에 * 표시함 | |||||||||||||||||||||||
7 | step 1 | Crawling | crwaling data 명: ###-hotkeyword-data.csv | |||||||||||||||||||||||
8 | ||||||||||||||||||||||||||
9 | ||||||||||||||||||||||||||
10 | step 2 | Cleaning Texts | crawling data받으면 | |||||||||||||||||||||||
11 | ###-hotkeyword-data.txt | DATAANALYZER.CPP | deleteoverlapped | |||||||||||||||||||||||
12 | ok | 동일 메시지 중복 없애기 | 1. 동일 어드레스 & 동일 컨텐츠 인지 비교 후 동일한 메시지들 제거(광고, 중복메시지) | |||||||||||||||||||||||
13 | 겹치지 않는 메시지만으로 화일 (uniq), 중복메시지(ovlp) 내용 화일 작성, (uniq)기호만 앞으로 빼기 | 중복제거한 화일 생성 "(u)###.csv", 중복메시지 자료 생성 "(o)###.csv" | ||||||||||||||||||||||||
14 | 불필요한 기호,레터(표준형 library있는 것들) 제거 | 제거하고 스페이스 넣기 마침표-제거이슈 (문장단위/문단단위) | 핫키워드표시용 {}는 기존 메시지에서 제거 | 레퍼런스화일명 Clean_character_library###.txt, (csv도 상관 없음)-제거할 표준 캐릭터 기록 | ㅁ제거하기 /눈웃음 ㅋㅋ 살리기 | clean_character | ||||||||||||||||||||
15 | 내용 보고, 부적절한 메시지 제거 (광고, 동명이품의 경우 관련 키워드 제거) | 내용 보고 부적절한 메시지 제거 키워드 작성 | 레퍼런스화일명 Delete_Messages_library###.txt, (csv도 상관 없음)-제거할 표준 캐릭터 기록 | |||||||||||||||||||||||
16 | 대소문자 모두 소문자로 변환하기 | 재식(러시아, 베트남, 말레이어 리스트 만들기) | 위 replace함수로 처리하자. | |||||||||||||||||||||||
17 | ||||||||||||||||||||||||||
18 | ||||||||||||||||||||||||||
19 | step 3 | major keyword list작성 | (u)###.csv를 가지고 빈도 분석 후, 주요 키워드 선정 | |||||||||||||||||||||||
20 | 주어진 텍스트 화일에 대해 빈도 분석을 통해 가장 많이 언급되는 단어부터 나열하기 | 띄어쓰기 기반 언어의 경우 | output:output file 프로젝트-hotkeyword-cleaned-data.csv | frequencyAnalyzer.c | topkeywordordering.c | |||||||||||||||||||||
21 | ||||||||||||||||||||||||||
22 | 내용 보고, 부적절한 메시지 제거 (광고, 동명이품의 경우 관련 키워드 제거) | 내용 보고 부적절한 메시지 제거 키워드 작성 | 레퍼런스화일명 Delete_Messages_library###.txt, (csv도 상관 없음)-제거할 표준 캐릭터 기록 | |||||||||||||||||||||||
23 | ||||||||||||||||||||||||||
24 | ||||||||||||||||||||||||||
25 | ? | 주요 키워드 본문에 해당키워드 앞뒤로 { } 삽입 | insert_space.exe | |||||||||||||||||||||||
26 | 하죠, 니다, . , ?,~, ㅎ, ^, ㅋ 뒤에 스페이스 | output file | ||||||||||||||||||||||||
27 | ||||||||||||||||||||||||||
28 | Step 4 | 기초 분석 | 빈도분석 시행 | |||||||||||||||||||||||
29 | ||||||||||||||||||||||||||
30 | ||||||||||||||||||||||||||
31 | ||||||||||||||||||||||||||
32 | keyword library(공용) db구축 | 매번 분석한 메시지에서 주요 hotkeyword추출 | 키워드 내림차순 정리 | |||||||||||||||||||||||
33 | 키워드별 %,기존 총 메시지수 기록 | |||||||||||||||||||||||||
34 | 키워드 추출시 공통 library(나라별, 산업별, 시기별)도 활용할 것. 어떻게? 원메시지에서 공통library키워드 먼저 추출 후 나머지는 메시지에서 추출? | |||||||||||||||||||||||||
35 | ||||||||||||||||||||||||||
36 | ||||||||||||||||||||||||||
37 | 내용 분석 | 긍부정 판독 | sample에 대해 사람이 긍부정 판정 (1/0/-1또는 모르겠음) | |||||||||||||||||||||||
38 | 긍부정 판독 메시지를 통해 개별 단어별 리스트 작성 | 특정 단어에 대한 긍부정 비율 | ||||||||||||||||||||||||
39 | 두 단어 or에 대한 긍부정 비율 | |||||||||||||||||||||||||
40 | 특정 브랜드포함한 문장내위치시, 다른 문장내 위치시 확률 계산 | |||||||||||||||||||||||||
41 | ||||||||||||||||||||||||||
42 | ||||||||||||||||||||||||||
43 | ||||||||||||||||||||||||||
44 | ||||||||||||||||||||||||||
45 | ||||||||||||||||||||||||||
46 | ||||||||||||||||||||||||||
47 | ||||||||||||||||||||||||||
48 | ||||||||||||||||||||||||||
49 | ||||||||||||||||||||||||||
50 | ||||||||||||||||||||||||||
51 | ||||||||||||||||||||||||||
52 | ||||||||||||||||||||||||||
53 | ||||||||||||||||||||||||||
54 | ||||||||||||||||||||||||||
55 | ||||||||||||||||||||||||||
56 | ||||||||||||||||||||||||||
57 | ||||||||||||||||||||||||||
58 | ||||||||||||||||||||||||||
59 | ||||||||||||||||||||||||||
60 | ||||||||||||||||||||||||||
61 | ||||||||||||||||||||||||||
62 | ||||||||||||||||||||||||||
63 | ||||||||||||||||||||||||||
64 | ||||||||||||||||||||||||||
65 | ||||||||||||||||||||||||||
66 | ||||||||||||||||||||||||||
67 | ||||||||||||||||||||||||||
68 | ||||||||||||||||||||||||||
69 | ||||||||||||||||||||||||||
70 | ||||||||||||||||||||||||||
71 | ||||||||||||||||||||||||||
72 | ||||||||||||||||||||||||||
73 | ||||||||||||||||||||||||||
74 | ||||||||||||||||||||||||||
75 | ||||||||||||||||||||||||||
76 | ||||||||||||||||||||||||||
77 | ||||||||||||||||||||||||||
78 | ||||||||||||||||||||||||||
79 | ||||||||||||||||||||||||||
80 | ||||||||||||||||||||||||||
81 | ||||||||||||||||||||||||||
82 | ||||||||||||||||||||||||||
83 | ||||||||||||||||||||||||||
84 | ||||||||||||||||||||||||||
85 | ||||||||||||||||||||||||||
86 | ||||||||||||||||||||||||||
87 | ||||||||||||||||||||||||||
88 | ||||||||||||||||||||||||||
89 | ||||||||||||||||||||||||||
90 | ||||||||||||||||||||||||||
91 | ||||||||||||||||||||||||||
92 | ||||||||||||||||||||||||||
93 | ||||||||||||||||||||||||||
94 | ||||||||||||||||||||||||||
95 | ||||||||||||||||||||||||||
96 | ||||||||||||||||||||||||||
97 | ||||||||||||||||||||||||||
98 | ||||||||||||||||||||||||||
99 | ||||||||||||||||||||||||||
100 |