1 of 12

Proceedings of HCI Korea 2024��시맨틱 문장 분석을 활용한 뉴스 인터페이스 디자인

이상아 SangAh Lee sangahlee718@snu.ac.kr

김정환 Junghwan Kim jhbale11@snu.ac.kr

송형우 Hyungwoo Song rotto95@snu.ac.kr

서봉원 Bongwon Suh bongwon@snu.ac.kr

서울대학교 지능정보융합학과��—��요약 발표: 2024년 3월 13일, http://x.com/_a6g_

2 of 12

요약문

뉴스 기사의 단편화 및 정보 홍수로 인해 사건의 주요 내용과 이슈 변화를 알아내기 어렵게 됨.

이 문제를 완화하고자 "뉴스 스냅샷" 시스템을 제안:

  • 동일 사건을 다루는 기사의 문장을 클러스터링하고 이를 바탕으로 뉴스 기사의 서브 토픽을 선정.
  • 지속적 이슈인 경우 타임라인에 따라 주요 내용을 시각화

22명의 참여자를 대상으로 사용자 평가를 수행, 효과 및 사용성을 검증.

3 of 12

서론

디지털 미디어의 발전으로 뉴스 제공 방법 및 소비 방법에 변화:

  • 여전히 포털 사이트를 통한 텍스트 기반 뉴스 소비가 가장 많은 비중을 차지.
  • 온라인 환경의 영향으로 뉴스 발행 주기가 짧아지고 개수가 증가 → 기사의 단편화.

본 연구의 차별점:

  • 대규모 뉴스 콜렉션에서의 이슈 별 토픽/서브 토픽 및 그 트렌드를 관찰하는 UI
  • 개별 문장, 개발 기사 → 대규모 뉴스 콜렉션
  • 범주 분포의 변화를 관찰 → 토픽/서브 토픽 및 그 트렌드를 관찰

RQs:

  • RQ1. 동일한 사건을 보도하는 중복된 뉴스 기사들의 주요 내용을 식별하는 데 도움을 줄 수 있는가?
  • RQ2. 시간이 지남에 따른 이슈의 주요 내용 변화를 파악하는 데 도움을 줄 수 있는가?

4 of 12

시스템 설계 및 구현 상세

데이터 수집 및 전처리: 2023년 7월 4일부터 10월 20일까지 네이버 뉴스홈의 헤드라인 기사를 수집, 텍스트를 추출.

문장 단위 임베딩: 기사를 문장 단위로 분리하여 임베딩. 유사도가 지나치게 같은 문장은 제거하는 등의 처리.

클러스터링:

  • Daily News Clustering: 동일 날짜 내에서, 각 이슈별 문장을 군집화. 각 날짜의 이슈별 주요 내용을 추출하기 위함.
  • Timeline News Clustering: 각 이슈에 대해, 모든 날짜의 기사에 포함된 문장을 군집화. 시간의 흐름에 따라 이슈의 주요 내용 변화를 추적하기 위함.
  • 각 클러스터의 중심(centroid)에 있는 문장을 해당 클러스터의 대표 문장으로 간주.
  • GPT-3.5 turbo에 대표 문장을 전달한 후 Subtopic title을 생성.

5 of 12

뉴스 스냅샷 인터페이스 - 서브 토픽 뷰

특정 날짜의 특정 이슈에 대한 서브 토픽을 보여준다.

  • 문장 군집을 원으로 표현 (문장 수를 원의 크기에 매핑, 비중이 큰 상위 세 개 군집은 색상으로 강조)
  • 하단 목록에서 특정 대표 문장을 클릭하면 해당 대표 문장이 추출된 원본 기사로 이동

6 of 12

뉴스 스냅샷 인터페이스 - 뉴스 기사 타임라인 뷰

심플 타임라인 뷰:

  • 날짜별 주요 이슈를 보여준다

다이나믹 타임라인 뷰:

  • 시간의 흐름에 따른 이슈의 트렌드 변화를 보여준다
  • 각 색상은 서브 토픽
  • 목록에는 각 영역 별 대표 기사로 가는 링크

7 of 12

사용자 평가 및 결과 1/4 - 개요

주요 내용 식별(RQ1) 및 이슈의 흐름 파악(RQ2)에 도움이 되는지 평가.

온라인 커뮤니티 및 눈덩이 표집 방법으로 22 명의 참여자를 모집.�(남: N=9, Mean=28.22, SD=5.72, 여: N=13, Mean=27, SD =6.58)

대조를 위한 인터페이스를 제작

각 참여자가 두 인터페이스를 모두 사용하여(within-subject) 두 개의 과업 수행 및 사후 인터뷰 형식으로 진행 (즉, 각 참여자가 과업을 4회 수행)

8 of 12

사용자 평가 및 결과 2/4 - 수행에 대한 평가

과업1: 한 사건에 대한 여러 기사 중에서 원하는 기사들을 선택하여 읽은 후, 화면을 끈 상태에서 사건에 대한 핵심 내용을 주요 키워드로 작성

과업2: 지속적 이슈에 대해 여러 날짜에 걸쳐 발행된 기사 중 원하는 기사들을 선택해 읽고, 화면을 끈 상태에서 이슈에 대한 핵심 내용을 시간의 흐름에 따라 작성

평가 항목:

  • Q1. 뉴스 기사의 주요 내용 및 주요 내용의 변화를 잘 전달한다.
  • Q2. 뉴스 기사를 추가적으로 봐야할 필요가 있다. (역코딩)
  • Q3. 어떤 기사를 읽을 지 선택의 어려움이 있다. (역코딩)
  • Q4. 뉴스 기사(이슈) 내용의 이해도를 높인다.
  • Q5. 뉴스 기사를 읽는 시간을 줄여준다.

9 of 12

사용자 평가 및 결과 3/4 - 사용성에 대한 평가

과업1: 한 사건에 대한 여러 기사 중에서 원하는 기사들을 선택하여 읽은 후, 화면을 끈 상태에서 사건에 대한 핵심 내용을 주요 키워드로 작성

과업2: 지속적 이슈에 대해 여러 날짜에 걸쳐 발행된 기사 중 원하는 기사들을 선택해 읽고, 화면을 끈 상태에서 이슈에 대한 핵심 내용을 시간의 흐름에 따라 작성

평가 항목:

  • 유용성: 뉴스 기사를 읽고 내용을 파악하는 데 유용하다.
  • 사용 용이성: 사용하기 쉽다.
  • 즐거움: 사용하는 것이 재미있었다.
  • 효과성: 과업 수행에 효과적이다.
  • 전반적인 만족도: 전반적으로 이 시스템에 만족한다.

10 of 12

사용자 평가 및 결과 4/4 - 사후 인터뷰

  • 뉴스 스냅샷을 통해 사건의 핵심 내용을 사전에 인지한 상황에서 뉴스 기사를 읽었을 때 이슈의 내용을 보다 수월하게 파악할 수 있었다.
  • 뉴스 기사의 대표 문장들을 모아둔 목록은 마치 요약된 뉴스 기사 한 부를 읽는 것처럼 느껴져서 유용했다.
  • 서브 토픽 뷰에서 항목 별 대표 문장이 함께 제시되어 관련 키워드의 내용을 디테일하게 알 수 있다는 것이 장점이라고 응답했다.
  • 뉴스 기사 타임라인 뷰에 대해서는 대부분의 응답자들이 매우 높은 선호도를 표시하며, 앞으로 계속 사용하고 싶은 기능으로 언급하였다.

11 of 12

결론

뉴스 스냅샷은 사용자가 뉴스 기사의 내용을 파악하고 이슈를 이해하는데 도움을 주는 것으로 나타났음.

한계:

  • 한정된 뉴스 기사 데이터셋으로 인해 뉴스 기사의 기한은 최대 3개월 로 제한.
  • 전처리 및 클러스터링 방법을 더 다양하게 적용하고 테스트했다면 콘텐츠의 품질을 전반적으로 향상시킬 수 있었을 것.

향후 더 나은 뉴스 시스템 및 서비스에 대한 아이디어를 연구할 것을 제안함.

12 of 12

의견

샘플 사이즈가 크지 않음에도 불구하고 눈덩이 표집 방법을 사용한 점이 아쉬움.

과업1과 과업2 모두 과업 수행의 정확도를 평가하지 않고 참여자의 주관적 인상을 자기보고하도록 한 점이 아쉬움.

전처리 및 클러스터링 방법을 더 다양하게 적용해보면 좋겠음 (연구자들이 밝힌 제한점 중 하나). 예:

  • 문장 단위 임베딩보다는 GPT를 통해 개별 기사를 요약한 후 해당 요약문을 임베딩하여 클러스터링 품질 높이기
  • 계층적 청킹(hierarchical chunking) 등 최근 RAG(Retrieval Augmented Generation)에서 사용되는 기법들을 적용해보면 좋겠음
  • 지식그래프 등 구조화된 데이터(structured data), 문장 생성(LLM), 임베딩, 정량데이터(주가 변화) 등을 복합적으로 사용하면 더 다양한 분석 및 활용이 가능할 것. https://newscord.org/, https://realtime.org/ 등.