We discover ideas, create meaning, and grow together.
Abstract
온라인 커뮤니티의 스레드형 대화(threaded conversation)의 지속 여부를 예측하기 위해, 본 연구는 텍스트 임베딩(Text Embedding), 그래프 신경망(GNN), 선택적 특성 집계(Selective Aggregation)를 통합한 딥러닝 모델을 제안합니다. Reddit 데이터를 기반으로 실험을 수행하였으며, 구조적·시간적·언어적 정보를 모두 반영한 설계를 통해 높은 예측 성능을 달성하였습니다. 핵심 알고리즘·응용 기술에 대한 국내 특허 출원 준비 중이며, 실제 커뮤니티 운영, 마케팅 전략 등에 폭넓게 응용될 수 있습니다.

Problem Formulation
본 연구는 온라인 커뮤니티(특히 Reddit)에서 발생하는 스레드형 대화의 지속 여부를 예측하는 문제를 다룹니다. 기존의 연구들이 개별 댓글의 반응성 또는 사용자 재참여 예측에 집중한 반면, 대화 단위의 지속성 예측이라는 새로운 문제 정의를 통해 기존 연구들과 차별화를 이루었습니다.
데이터 기반 커뮤니케이션 분석, 소셜 미디어 상호작용 예측, 의사결정 지원 등에 매우 유용한 응용 가능성을 지닌 문제이며, 다음과 같은 실질적 활용 방안도 제시하였습니다.
- 마케팅 및 제품 홍보 전략 최적화
- 인플루언서의 영향력 분석
- 온라인 커뮤니티 운영 및 관리 최적화
Architectural Design and Algorithm
언어적, 구조적, 시간적 특징을 복합적으로 반영할 수 있도록 구성되었습니다.
- 텍스트 임베딩(Text Embedding)
- BERT, RoBERTa 등 다양한 사전학습 모델을 적용하여 댓글 및 게시글의 언어 표현을 고차원 벡터로 정밀하게 추출하였습니다.
- 그래프 임베딩(Graph Embedding)
- 댓글 간 관계를 그래프 형태로 구성하고, GraphSAGE, GAT, TGAT 등 최신 GNN 아키텍처를 통해 대화의 구조적 및 시간적 특성을 반영하였습니다.
- 선택적 특성 집계(Selective Aggregation)
- LSTM과 Attention을 기반으로, 최근에 작성된 댓글 중 정보성이 높은 노드를 선별·집계함으로써 예측 정확도를 향상시켰습니다.
모델 구성은 모듈화되어 있으며, 각 구성요소의 역할과 효과를 실험적으로 검증하였습니다.
Tech Stack
- Language & Framework
- Python, PyTorch, HuggingFace, CUDA, Seaborn, Scikit-learn
- Algorithm & Models
- NLP (BERT, RoBERTa, GloVe, FastText, )
- GNN (GraphSAGE, GAT, TGAT, GCN)
- LSTM, Attention
Publication Title: Predicting Continuity of Online Conversations on Reddit
Published In: Telematics and Informatics – An international, peer-reviewed SCIE journal published by Elsevier
Publication Year: 2023
Journal Website: Telematics and Informatics – Elsevier