Purpose
The objective of this study was to develop a predictive model for the sexual experiences of adolescents using the random forest method and to identify the “variable importance.” Methods: The study utilized data from the 2019 to 2021 Korea Youth Risk Behavior Web-based Survey, which included 86,595 man and 80,504 woman participants. The number of independent variables stood at 44. SPSS was used to conduct Rao-Scott χ2 tests and complex sample t-tests. Modeling was performed using the random forest algorithm in Python. Performance evaluation of each model included assessments of precision, recall, F1-score, receiver operating characteristics curve, and area under the curve calculations derived from the confusion matrix.
Results
The prevalence of sexual experiences initially decreased during the COVID-19 pandemic, but later increased. “Variable importance” for predicting sexual experiences, ranked in the top six, included week and weekday sedentary time and internet usage time, followed by ease of cigarette purchase, age at first alcohol consumption, smoking initiation, breakfast consumption, and difficulty purchasing alcohol.
Conclusion
Education and support programs for promoting adolescent sexual health, based on the top-ranking important variables, should be integrated with health behavior intervention programs addressing internet usage, smoking, and alcohol consumption. We recommend active utilization of the random forest analysis method to develop high-performance predictive models for effective disease prevention, treatment, and nursing care.
The objective of this study was to develop a predictive model for the sexual experiences of adolescents using the random forest method and to identify the “variable importance.”
The study utilized data from the 2019 to 2021 Korea Youth Risk Behavior Web-based Survey, which included 86,595 man and 80,504 woman participants. The number of independent variables stood at 44. SPSS was used to conduct Rao-Scott χ2 tests and complex sample t-tests. Modeling was performed using the random forest algorithm in Python. Performance evaluation of each model included assessments of precision, recall, F1-score, receiver operating characteristics curve, and area under the curve calculations derived from the confusion matrix.
The prevalence of sexual experiences initially decreased during the COVID-19 pandemic, but later increased. “Variable importance” for predicting sexual experiences, ranked in the top six, included week and weekday sedentary time and internet usage time, followed by ease of cigarette purchase, age at first alcohol consumption, smoking initiation, breakfast consumption, and difficulty purchasing alcohol.
Education and support programs for promoting adolescent sexual health, based on the top-ranking important variables, should be integrated with health behavior intervention programs addressing internet usage, smoking, and alcohol consumption. We recommend active utilization of the random forest analysis method to develop high-performance predictive models for effective disease prevention, treatment, and nursing care.
청소년기는 다양한 위험한 성적 행동에 취약한 시기로 성에 대한 호기심은 발달단계에서 정상적인 성장의 과정이라고 볼 수 있다[1]. 그러나 이 시기의 신체적, 심리적 변화와 성숙은 청소년이 위험한 성적 행동의 참여할 가능성에 영향을 미치며[2], 청소년의 성경험이 신체적, 정신적 건강에 부정적인 영향을 줄 수 있어 이를 간과해서는 안 된다[1]. 청소년건강행태조사에 따르면 우리나라 중고등학교 학생의 성관계 경험률은 2016년 4.6%, 2017년 5.2%, 2018년 5.7%, 2019년 5.9%이었다가 코로나바이러스감염증-19(이후 코로나-19로 명칭)으로 2020년에 4.6%로 감소하다가 2021년 5.4%, 2022년에 6.2%로 가장 높게 나타났다[3]. 청소년의 성관계는 10대 임신, 성병, human immunodeficiency virus (HIV) 감염 등의 신체적 건강위험과 스트레스, 불안, 우울증 등의 정신건강 문제 등 다양한 부정적인 결과를 초래한다[4]. 특히 성 규범이 명확히 확립되지 않은 어린 나이의 성경험은 성인이 되어서도 다수의 성 파트너 등 성 관련 위험행동에 관여할 가능성이 현저히 높기 때문에[5], 영향요인을 미리 예측하고 이를 예방하는 것이 매우 중요하다.
청소년들의 성경험에 영향을 미치는 예측요인은 개인적 요인, 건강행태, 가족 및 학교 등 다양하다. 개인적 특성으로, 많은 연구에서 남학생이 여학생보다 성경험에 참여할 가능성이 높은 것으로 보고되었고[6, 7, 8, 9], 사회성, 신체적 성숙, 낮은 자기 통제력, 성태도와 같은 개인적 요인은 청소년들의 성경험과 위험한 성행동의 예측요인으로 나타났다[6, 10, 11, 12]. 음주, 약물 사용과 같은 건강행태도 성경험은 유의한 관계가 있으며[5, 13], 특히, 초기 성관계에서 청소년들의 약물 사용(알코올, 흡연, 불법 약물)과 반사회적 행동의 관련성이 높은 것으로 나타났다[14]. 가족의 특성 역시 청소년의 성경험에 중요한 예측요인으로 작용한다. 한 연구에서 가족은 청소년의 콘돔 사용과 한 명의 파트너만 갖는 것과 같은 긍정적인 성행동의 가장 강한 보호요인으로 나타났고[15], 가족의 종교성, 부모와의 동거, 부모-자녀 간 소통은 청소년들의 성적 활동의 조기 시작을 줄이는데 중요한 역할을 하는 것으로 나타났다[6, 9], 또한, 양부모 가정의 경우 부모의 통제가 중요한 보호요인으로 작용하여 청소년 자녀의 위험한 성행동 확률이 감소하였다[16]. 청소년기에는 학교생활과 또래집단의 영향도 많이 받아 선행연구에 따르면, 반사회적 동료 영향은 초기 성경험과 성적 위험 요인의 가장 큰 예측 변수로 나타났으며[17], 또래 집단의 압력이 청소년의 첫 성경험에 중요한 요인으로 보고되었다[9]. 이는 꾸준한 상호작용을 통해 발달하는 단계인 청소년기에 가족, 또래 등 주변 사람들의 영향이 크다는 것을 나타내며, 청소년의 가족 및 학교 특성을 이용하여 위험성을 조절할 수 있음을 시사한다.
청소년의 성경험과 이로 인한 부정적인 결과를 예방하기 위해서는 우선순위가 높은 위험요인들을 찾아내고 위험요인을 차단하기 위한 적절한 제도적 및 교육적 대처방안이 요구된다[1, 7, 8, 10]. 청소년 성경험은 개인, 동료, 학교, 가정, 지역사회 등 여러 요인이 상호 작용하여 나타나는 복합적인 상황에서 다양한 요인들의 상대적 중요도를 이해하는 것이 필요하다.
머신러닝은 주어진 데이터를 기반으로 학습하는 인공지능의 한 방법으로, 머신러닝 알고리즘을 사용하면 다양한 요인 변수들 간의 상호작용을 고려한 모델링이 가능하고 비선형적인 변수 관계나 복잡한 패턴을 발견할 수 있어 보다 우수한 예측 성능을 얻을 수 있다는 장점이 있다[18]. 특히, 머신러닝 방법 중 랜덤 포레스트(random forest)는 간단하면서도 널리 사용되는 결정트리 모델에 배깅(bootstrap aggregating, bagging)과 앙상블(ensemble) 기법이 더해져 정확도가 높은 모델링이 가능하고 과적합을 방지할 수 있어 일반화 성능이 우수하다[19]. 또한, 랜덤 포레스트는 결정트리를 기반으로 하므로 예측에 사용된 변수들의 상대 중요도를 계산할 수 있고, 결측치를 포함한 데이터에서도 잘 작동하며, 병렬적인 트리 구조를 통해 대규모의 데이터를 빠르게 처리할 수 있다는 장점이 있다[20, 21]. 랜덤 포레스트는 수치형과 범주형을 포함한 다양한 유형의 데이터를 정규화나 인코딩과 같은 전처리 과정이 없이도 처리할 수 있는 장점이 있어 다양한 요인들의 상호작용을 고려한 모델링에 매우 적합하다고 할 수 있다[19]. 이러한 장점을 이용하여 2차 자료를 기반으로 머신러닝을 활용하여 청소년의 건강행동의 위험요인을 예측한 선행연구가 다수 있다. 예를 들면 인구사회학적, 심리적, 학교에서의 일상생활과 관련된 29개의 변수를 이용한 몬타나주의 청소년의 자살시도의 위험 요인 연구[22], 청소년의 대마초 사용과 관련된 사회심리적 및 신경생물학적 위험요인 연구[23], HIV 예방을 위한 기초자료로 청소년의 성경험과 여러 명의 성파트너 위험요인 예측 모델을 개발한 연구가 있다[24]. 마지막 연구는 머신러닝 방법은 청소년의 성경험 관련 요인을 찾아내는 데 효과적인 방법이라고 제언하였다[24].
따라서, 본 연구에서는 랜덤 포레스트를 활용하여 청소년의 성경험에 영향을 주는 변수 중요도(variable importance)를 탐구하고자 한다. 이 방법을 통해 다양한 요인들 간의 복잡한 상호작용을 고려하고 이를 바탕으로 청소년 성경험에 영향을 미치는 주요 요인들을 식별할 수 있다. 랜덤 포레스트는 청소년의 성경험 관련 위험요인 연구에서 주로 사용된 로지스틱 회귀분석의 한계, 즉, 비선형 관계를 정확하게 모델링하지 못하고, 변수들 간의 상호작용을 고려하기 어려우며, 이상치와 다중공선성에 민감한 특성을 극복하여 청소년의 성경험 관련 요인을 더욱 정확하게 분석할 수 있을 것으로 기대된다[19, 20, 21]. 연구결과는 추후 청소년 성병, HIV 예방 및 건전한 성 건강 증진을 위한 교육 및 정책마련의 기초자료로 활용될 수 있다.
본 연구 목적은 첫째, 대상자의 인구사회학적, 건강생활습관, 건강, 가정, 지역 및 학교 환경에 따른 성경험률 차이를 파악한다. 둘째, 성경험 예측모델을 구축하고 각 모델의 성능을 평가한다. 셋째, 검증된 예측모델을 이용하여 대상자의 성경험에 영향을 미치는 변수 중요도를 선별하여 비교한다. 각 연구결과는 성별에 따른 차이와 연도별 변화를 파악하기 위해 여학생, 남학생, 2019, 2020, 2021년으로 나누어 분석하였다. 부가적으로 코로나-19가 청소년의 온라인 활동 증가와 학업 및 학교 환경의 변화로 성경험에도 영향을 주었을 것으로 예상되어 코로나-19 발생전인 2019년과 발생 후인 2020, 2021년 사이의 변수 중요도의 변화도 살펴보았다.
본 연구는 교육부, 보건복지부, 질병관리청이 직접 수행한 제 15, 16, 17차(2019~2021년) 청소년건강행태조사를 이용한 이차 자료 분석연구이다.
연구자료는 「질병관리청 원시자료 공개 절차 등에 관한 규정」에 의거하여 제15~17차(2019~2021년) 청소년건강행태조사 원시자료를 제공 받아 활용하였다. 청소년건강행태조사는 우리나라 청소년의 흡연, 음주, 비만, 식생활, 신체활동 등의 건강행태를 파악하기 위해 중학교 1학년~고등학교 3학년 학생을 대상으로 실시하는 익명성 자기기입식 온라인조사이다. 표본추출을 위해 층화집락추출법(stratified cluster random sampling)을 사용하며, 시도별, 도시규모별, 지역군별, 남/여/공학에 따라 전국에서 중학교 400개교, 고등학교 400개교를 추출하였다. 1차 추출은 층별로 영구난수추출법(permanent random number sampling)으로 표본학교를 선정하며, 2차 추출은 선정된 표본학교에서 학년별로 1개 학급을 무작위로 추출한다. 조사항목은 흡연, 음주, 신체활동 등 총 15개 영역에서 103개 문항으로 구성되며, 세부적인 자료 이용방식은 ‘제1차(2005년)~제17차(2021년) 청소년건강행태조사 원시자료 이용지침서’를 참고하였다.
종속변수는 성관계 경험 유무이다. 성관계 경험은 ‘성관계를 해본 적이 있습니까?’라는 질문에 대해 ‘해본 적이 있다’, ‘해본적이 없다’로 응답하도록 되어 있다. 본 연구에서는 해당 변수를 원시자료 그대로 사용하였다.
독립변수는 2019년부터 2021년까지 공통적으로 조사된 변수(총 44개)를 모두 포함하였다.
개인적 특성은 학업 성취도와 학년을 포함하며, 학년은 중학교 1학년부터 고등학교 3학년까지 총 6단계로, 학업 성취도는 ‘상’, ‘중상’, ‘중’, ‘중하’, ‘하’로 구분하였다.
건강생활습관 특성에는 흡연, 음주, 약물, 식습관, 인터넷 사용시간, 앉아서 지내는 시간, 양치 횟수를 포함하였다. 흡연은 흡연여부를 ‘예’, ‘아니오’로 조사하고 흡연 시작 연령과 하루 흡연량을 포함하였다. 음주의 경우도 음주 경험 유무, 음주 시작 연령, 한 번에 얼마나 마시는지 음주량을 포함하였다. 식습관은 일주일 간 아침식사 횟수와 편의점 음식과 같은 패스트푸드 소비 빈도에 대한 정보를 포함하였다. 청소년의 일상 생활 패턴에서 주말과 주중의 활동 차이가 청소년 성경험에 미치는 영향을 더욱 정밀하게 분석하기 위하여 인터넷 사용시간은 공부하는 시간을 제외하고 주말과 주중의 각 하루 평균 이용시간을 이용하였고, 앉아서 지내는 시간도 학습 목적과 학습 목적이 아닌 경우로 구분하여 주말과 주중의 하루 앉아있는 평균 시간을 이용하였다. 마지막으로 일주일 동안 점심을 먹고 한 양치 횟수를 포함하였다.
건강 관련 특성은 건강 상태, 수면의 질, 성교육 이수 여부, 폭행을 당한 경험을 포함하였다. 지각된 건강상태는 자신의 건강과 체형을 어떻게 인지하고 있는지, 최근 30일 동안 체중을 ‘증량’, ‘유지’, ‘감량’하기 위해 얼마나 노력하였는지에 대한 정보를 포함하였다. 또한 키와 체중을 사용하여 체질량지수(body mass index, BMI)를 기준으로 ‘비만’, ‘과체중’, ‘정상’, ‘저체중’으로 구분하였다. 수면의 질은 최근 7일 동안 잠을 잔 시간이 피로회복에 충분한지에 대해 ‘매우 충분하다’부터 ‘매우 충분하지 않다’로 5단계로 구분하였다. 성교육 이수 여부는 최근 12개월 동안 학교에서 성교육을 받았는지를 묻는 항목으로 ‘예’, ‘아니오’로 조사하였다. 마지막으로 최근 12개월 동안 폭행을 당해 병원에서 치료를 받은 경험이 있는지를 0번부터 6번 이상으로 구분하여 포함하였다.
정신건강은 스트레스, 우울감, 자살에 대한 내용을 포함하였다. 스트레스는 스트레스의 정도를 ‘대단히 많이 느낀다’, ‘많이 느낀다’, ‘조금 느낀다’, ‘별로 느끼지 않는다’, ‘전혀 느끼지 않는다’로 구분하였고 우울감은 ‘최근 12개월 동안 일상생활을 중단할 정도로 슬프거나 절망감을 느껴보았는지’를 ‘예’, ‘아니오’로 조사하였다. 자살은 ‘최근 12개월 동안 자살을 시도, 계획, 생각을 했는지’의 여부를 ‘예’, ‘아니오’로 구분하여 포함하였다.
가정 환경은 경제적 상태, 거주 형태, 가족 형태를 포함하였다. 경제적 상태는 ‘상’, ‘중상’, ‘중하’, ‘하’로 구분하였고 거주 형태는 ‘가족과 함께 살고 있다’, ‘친척집에서 살고 있다’, ‘하숙, 자취, 기숙사에 살고 있다’, ‘보육시설에 살고 있다’ 로 조사하여 포함하였다. 가족 형태는 다문화 가족, 재혼 가정, 부모님 동거 유무, 한부모 가족인지에 대해 ‘예’, ‘아니오’로 구분하여 포함하였다.
지역 환경 특성에는 도시 형태, 담배와 술 구입용이성을 포함하였다. 도시 형태는 ‘군지역’, ‘중소도시’, ‘대도시’로 구분하였고, 담배와 술의 구입용이성은 ‘구매를 시도하지 않았다’, ‘구하는 것이 불가능했다’, ‘많이 노력하면 살 수 있다’, ‘조금만 노력하면 살 수 있다’, ‘노력 없이도 살 수 있다’로 조사한 내용을 그대로 분석에 포함하였다.
학교 환경 특성은 학교 형태로 ‘남녀 공학’, ‘남학교’ ‘여학교’와 ‘일반계고’, ‘특성화계고’, ‘중학교’로 구분하였다.
자료분석을 위해 SPSS, 오픈 소스 프로그래밍 언어인 파이썬(Python, ver. 3.9.13) 및 머신러닝 도구 라이브러리인 Scikitlearn (version 1.0.2), Pandas (version 1.4.4), Numpy (version 1.21.5), Matplotlib (version 3.5.2)을 이용하였다. 전체 데이터는 성별(남성, 여성) 및 연도별(2019, 2020, 2021년)로 총 6개의 데이터 세트로 구분한 후 다음과 같은 절차에 따라 분석을 시행하였다.
(1) 청소년건강행태조사는 복합표본설계 방법에 의해 표본이 추출되었으므로 질병관리청의 복합표본설계 자료분석지침에 따라 복합표본설계 요소로 층화변수(strata), 집락변수(cluster), 가중치(W), 유한모집단수정계수(finite population correction)를 이용하여 분석하였다. 경제수준, 학년 등 명목변수에 한하여 복합표본 빈도분석을 통해 가중되지 않은 빈도와 가중화된 백분율을 산출하였다. 둘째, 개인적 특성, 건강행태, 건강, 가정, 지역 및 학교 특성에 따른 성관계 경험 차이를 파악하기 위해 복합표본 교차분석인 Rao-Scott χ2 test를 실시하였다. 최초 음주 연령, 주중 스마트폰 사용 시간 등 연속변수에 대해서는 복합표본 t-검정을 실시하였다.
(2) 랜덤 포레스트 알고리즘을 사용하여 모델링을 진행하였다. 각 데이터 세트에 k = 5인 stratified K-fold 기법을 적용하여 5개의 모델을 반복하여 적용하고, 각 모델에서의 변수 중요도를 추출한 후 이들의 평균을 구하여 대푯값으로 사용하였다. 각 모델의 성능 평가를 위해 혼동 행렬로부터 정밀도, 재현율, F1-score, receiver operating characteristics (ROC) curve 및 area under the curve (AUC)를 산출하였다. 최종 성능 평가 지표는 5개 모델들의 평균을 이용하였다. 정밀도(precision), 재현율(recall), F1 score, AUC는 혼동 행렬(confusion matrix)을 통해 산출하였다. 정밀도는 모델이 ‘양성(positive)’으로 분류한 것 중에서 실제로 ‘양성’인 것의 비율이고 재현율은 실제 ‘양성’인 것 중에서 모델이 ‘양성’이라고 예측한 것의 비율이다. 모델의 결과변수인 성관계 여부를 보여주는 특성은 2019년 데이터를 기준으로 성관계 경험이 있는 대상자와 없는 대상자의 비율이 10:1 이상(54,021명:3,282명 = 16.5:1)으로 상당히 불균형(imbalance)을 이루고 있었다. 이러한 경우에는 모델의 성능을 나타내는 지표로는 정확도보다는 F1 score를 사용하는 것이 보다 적합한데 이는 F1 score는 단순히 예측 오류의 개수만이 아니라 아래 수식과 같이 오류의 세부적인 종류도 반영하여 산출하기 때문이다.
ROC curve의 경우 혼동행렬의 true positive rate (TPR)와 false positive rate (FPR)의 변동 추세로부터 모델의 성능을 정성적으로 평가할 수 있다. x축인 FPR은 실제로는 ‘음성’인 것 중에서 모델이 ‘양성’이라고 잘못 판단한 비율, y축인 TPR은 실제로 ‘양성’인 것 중에서 모델이 ‘양성’이라고 판단한 것의 비율이다. 곡선이 좌측상단에 가까워질수록 우수한 성능을 갖는다고 설명될 수 있으며 정량적인 수치화를 위해 곡선 아래 부분의 면적 AUC를 구하여 사용한다. 일반적으로 AUC가 0.8 이상인 경우 모델의 성능이 우수하다고 해석한다[25].
(3) (2)에서 검증된 각 모델들로부터 변수 중요도를 산출하고 이를 토대로 각 변수들이 예측에 기여한 정도를 크기대로 정렬하였다. 변수 중요도를 산출하는 방법에 대한 설명은 아래와 같다.
랜덤포레스트의 앙상블을 구성하는 결정트리는 부모 노드(parent node)와 자식 노드(child node)의 불순도(impurity) 차이를 정보 이득(information gain, IG)이라고 정의하고 이를 최대화하는 방향으로 트리를 성장시켜 최종적인 분류 모델을 얻는다.
결정트리에서 변수 A의 중요도는 변수 A를 사용하는 모든 노드에서의 정보 이득의 총합을 전체 트리를 구성하는 모든 노드에서의 정보 이득 총합으로 나눈 값으로 정의한다. 그리고 랜덤 포레스트 모델에서의 변수 A의 중요도는 각 트리에서 구해진 중요도들의 평균으로 구해진다. 이상의 자료분석 과정을 정리하면 Figure 1와 같다.
Figure 1
Data analysis process framework.
ROC = Receiver operating characteristic; AUC = Area under the ROC curve.
본 연구는 2차 자료 활용 분석연구로 전북대학교 생명윤리심위원회로부터 심의면제를 받았다(****202303011-UE002).
본 연구에 포함된 대상자는 총 2019년 남학생 29,841명, 여학생 27,462명, 2020년 남학생 28,353명, 여학생 26,595명, 2021년 남학생 28,401명, 여학생 26,447명이었다. 성관계 경험률은 남학생의 경우 2019년 7.7%에서 코로나-19 발생해인 2020년에 5.7%로 감소하였다가 2021년에는 소폭 증가하여 6.3%이었다. 여학생의 경우에도 2019년 3.6%에서 2020년 3.3%로 감소하였다가 2021년에는 4.0%로 증가하였다(Appendix 1).
대상자의 개인적 특성, 가족 및 학교 특성, 건강행태에 따른 성관계 경험 차이는 Appendix 1, Table 1과 같다. 성경험은 학업성적, 가족 경제상태, 학년, 수면의 질, 주관적 건강상태, 흡연, 스트레스 수준, 인지된 체형, 음주횟수, 음주량, 체중조절노력, 체질량지수, 술 구매 용이도, 학교유형, 우울감 경험유무, 자살생각 및 계획 유무, 거주형태, 성교육 유무, 자살시도 유무, 음주 유무, 폭력경험 후 치료 유무, 습관성 마약 사용 경험, 재혼가정, 부모와 동거 유무, 흡연 유무 등에 따라 통계적으로 유의한 차이를 보였다. 성경험률이 매우 높은 경우는 남학생에서 경제적 수준이 ‘하’인 경우 18.9% (2019년), 주관적 건강상태가 ‘매우 건강하지 않다’고 인식하는 경우 25.1% (2019년), 흡연경험이 있는 경우 24.2% (2019년), 담배를 하루에 1갑 이상 피우는 경우 60.1%(2019년)로 나타났고, 여학생의 경우 담배를 하루에 1갑 이상 피우는 경우 70.4% (2021년)로 가장 높게 나타났다. 하루 2병 이상 마시는 경우는 남학생 46.2% (2019년), 여학생 50.2% (2021년), 매일 술을 마시는 경우 남학생 64.7% (2019년), 여학생은 74.9% (2020년)으로 음주자의 성경험률이 높았다. 술과 담배를 구입 시 어려움이 전혀 없는 경우는 남학생 49.0% (2019년), 여학생 50.7% (2020년, 2021년) 정도로 높았다.
Table 1
The Differences of Sexual Intercourse by Characteristics (Continuous Variables)
주중에 학습을 위해 앉아 있는 시간은 성경험이 있는 경우에 남학생, 여학생 모두 성경험이 없는 경우보다 매해 더 유의하게 짧았고 주말의 경우는 여학생의 경우에만 유의하였다. 주말과 주중 스마트폰 사용 시간은 성경험이 있는 경우 유의하게 길었고 이것은 모든 연도에서 남학생, 여학생 동일하였다. 담배를 처음 시작하는 연령은 남학생, 여학생 모두에서 매해 성경험이 있는 경우에 유의하게 어렸고 아침식사를 한 날은 성경험 있는 경우에 남학생, 여학생 모두 매해 유의하게 더 적었다(Table 1).
랜덤 포레스트를 활용한 청소년 성경험 예측 모델의 성능을 분석한 결과, 2019년부터 2021년까지 모든 남녀 그룹에서 정확도는 0.938 이상, 정밀도는 0.941 이상, 재현율은 0.996 이상, F1 점수는 0.968 이상으로 나타났다. 이러한 지표들은 1에 가까울수록 모델의 성능이 높음을 의미하며, 특히 여학생 그룹에서 모델의 성능이 더욱 뛰어난 것으로 관찰되었다(Table 2).
Table 2
Performance Characteristics of Random Forest Model for Each Dataset
AUC의 경우, Figure 2에서 볼 수 있는 것처럼 좌상단으로 커브가 꺾여 있음을 알 수 있고 값은 0.8 이상(Table 2)이므로 AUC가 모든 모델의 성능이 우수하다고 평가할 수 있다[25].
Figure 2
ROC curves of 5-fold random forest models for each dataset. (A) 2019 man random forest. (B) 2020 man random forest. (C) 2021 man random forest. (D) 2019 woman random forest. (E) 2020 woman random forest. (F) 2021 woman random forest.
성능이 검증된 각 예측모델들로부터 산출한 변수 중요도를 토대로 각 변수들이 예측에 기여한 정도를 크기대로 정렬하고 그 변동 상황을 그림으로 나타내면 Figure 3과 같다.
Figure 3
Variable importance variation in dataset models over 3 years (A) man, (B) woman.
남학생의 경우 성경험을 예측하는 변수 중요도는 2019~2021년 사이에 순위는 조금 변경이 있지만 대체로 주말 또는 주중에 좌식 시간과 인터넷 사용 시간이 1~6위로 변수 중요도를 차지하였고 담배의 구입 용이성, 첫 음주 및 흡연 시작 연령, 아침 식사 여부, 술 구매의 어려움, 학업성취도가 뒤를 이었다. 2020, 2021년에는 인터넷 사용 시간의 중요도가 커졌고 인터넷 좌식 시간을 제외하면 상위 3개가 담배 혹은 음주 관련 요인이다.
여학생의 성경험을 예측하는 요인으로는 주말 또는 주중에 좌식 시간과 인터넷 사용 시간이 1~6위로 변수 중요도를 차지하였고 흡연 시작 연령, 아침 식사 여부, 음주 시작 연령, 패스트푸드 소비, 학업성취도가 뒤를 이었다. 인터넷 사용 시간은 2021년과 2022년에 시간이 지나면서 중요도가 더 커진 것을 알 수 있고 하루 흡연량과 흡연여부도 중요도가 커졌다.
영역별로 변수 중요도를 그림으로 나타낸 결과는 Supplementary Figure 1이다. 남학생의 경우, 개인요인에는 학업성취도, 학년이었고 건강생활습관 중 변수 중요도는 인터넷 사용시간, 좌식 시간, 아침식사 빈도, 음주 및 흡연 시작연령, 패스트푸드 섭취빈도이었다. 건강관련요인에는 인식하는 수면의 질, 지각된 건강상태, 신체상, 체중조절노력, BMI가 변수 중요도로 뽑혔다. 정신건강 요인 중에는 인지한 스트레스 정도, 가정환경에서는 가정의 경제적 상태, 지역환경은 술과 담배 구매용이성이 남학생의 성경험을 예측하는 변수 중요도로 나타났다.
여학생의 경우 개인요인에는 학업성취도와 학년이었고, 건강생활습관 중 변수 중요도는 2019년에는 흡연시작연령과 패스트푸드 섭취빈도이었으나 2020년 이후에는 학습목적이 아닌 주말 인터넷 사용시간이 압도적으로 변수 중요도가 되었다. 건강관련요인에는 남학생과 비슷하게 수면의 질, 지각된 건강상태, 신체상, 체중조절노력, BMI가 변수 중요도로 뽑혔다. 정신건강요인에서는 인지한 스트레스 정도, 가정환경에서는 가정의 경제적 수준이 압도적으로 변수 중요도이었고 지역환경으로는 2020년 이후 담배와 술의 구입용이성의 중요도는 커졌다.
각 변수를 개인, 건강생활습관, 건강관련, 정신건강 특성과 가정, 지역, 학교 환경의 영역별로 묶어서 변수 중요도를 합산한 결과를 그림으로 나타낸 것은 Supplementary Figure 2와 같다. 남학생의 경우 성경험을 예측하는 하위 영역은 2019년에는 순위별로 건강생활습관, 개인특성, 지역환경, 건강관련요인, 정신건강, 가정환경, 학교환경이었고, 2020년, 2021년에는 지역환경, 건강생활습관, 개인특성, 건강관련, 가정환경, 정신건강, 학교환경으로 지역환경의 중요도가 다소 커졌다. 여학생의 성경험을 예측하는 중요 하위 영역은 순위별로 건강생활습관, 건강관련요인, 지역환경, 가정환경, 정신건강, 개인특성, 학교환경 순이었고 이는 2020년~2021년에도 변동이 없었다.
본 연구는 머신러닝기법 중 하나인 랜덤 포레스트 방법을 이용하여 2019~2021년 국내 청소년의 성경험 예측 모델을 구축하고 변수 중요도를 파악하여 청소년의 건전한 성 건강증진을 위한 교육과 학교 정책의 기초자료로 제공하고자 시행되었다. 특히 2019~2021년 3년에 걸친 자료를 활용하여 코로나-19 전후의 성경험률과 주요 요인들의 변동을 살펴봄으로써 청소년의 성행동에 대한 심층적인 이해와 더불어 코로나-19가 청소년의 건강행태에 미치는 영향을 탐구하였다.
분석 결과, 성경험률은 남학생, 여학생 모두 2020년에 감소하였다가 2021년에 다시 증가하였다. 코로나-19는 일상생활에 영향을 주어 많은 커플들의 물리적인 접촉을 제한하고 감염에 대한 두려움과 걱정으로 성활동을 감소시킨 것으로 나타났다[26]. 이탈리아의 한 연구에 따르면 코로나-19로 인한 봉쇄(lockdown) 기간에 사회적 거리두기와 격리로 인해 비동거 커플은 만나지 못하게 된 반면 동거하는 커플은 오히려 사회적 폐쇄로 인해 성경험이 증가하기도 하고 봉쇄 경험과 함께 나타난 우울감정으로 성활동이 어려워지기도 하였다고 한다[27]. 미국 고등학생의 코로나-19 이전(2019년)과 초기 판데믹 시기 동안(2021년) 성경험을 비교한 결과 성경험률은 각각 38.4%에서 30.0%로 코로나-19 이전보다 감소하였다[28]. 회사가 폐쇄되고 학교가 닫히거나 온라인 수업으로 전환되면서 전 세계적으로 약 39억명의 사람이 집에 머물도록 만든 코로나-19 대유행은 국내 청소년의 친밀한 관계와 성행동에도 여러 가지 방식으로 영향을 미쳤을 것이다[29].
본 연구 분석 결과 랜덤 포레스트 분석 방법을 통해 성능이 우수한 모델이 구축되었고 변수 중요도도 추출이 되어 우선순위가 결정되었다. 그 결과 남학생과 여학생 모두 비학습을 위한 좌식 시간과 인터넷 사용시간이 1~6위로 3년 내내 성경험에 영향을 주는 변수 중요도로 뽑혔다. 이로 보아 성별과 코로나-19의 영향 또는 시대의 변화와 관계없이 좌식시간과 인터넷 사용시간은 청소년의 성행동과 직·간접적으로 연관성이 높다는 것을 알 수 있다. 본 연구의 복합표본 평균 비교 결과에 따르면 성경험이 있는 그룹은 없는 그룹보다 학습을 위해 앉아 있는 시간이 짧고, 스마트폰 사용시간은 유의하게 긴 것과 관련이 있었다. 따라서, 비학습 좌식 시간은 청소년에게 PC 또는 스마트 기기를 통한 인터넷 사용과 관련이 있다고 볼 수 있으며 과도한 인터넷 사용은 문제있는 소셜 미디어 사용과 온라인 성적 피해 및 성경험까지 영향을 미칠 수 있다[30]. 베트남 고등학생 5,315명을 대상으로 수행한 한 연구에서는 코로나-19로 인해 강제로 학교에 가지 못하고 집에서 공부하는 동안 인터넷 사용이 증가하였고 인터넷을 과도하게 많이 사용하는 청소년은 직면한 문제에 대한 생각을 멈추고 문제 해결능력이 적다는 것을 발견하였다[31]. 국내 청소년이 좌식 시간과 인터넷 사용시간에 주로 무엇을 하는지에 대해 구체적인 행동을 기술하는 데는 연구 부족으로 한계가 있지만 인터넷 사용이 많은 청소년이 성적으로 음란한 인터넷 자료(sexually explicit internet materials) 또는 포르노 이용(pornography)이 높은 것으로 나타났다[32].
청소년의 성적으로 음란한 인터넷 자료 또는 포르노 이용은 세계적으로 지난 10년 동안 매우 빠르고 증가하였고 특히, 코로나-19 판데믹 기간에 사회적 격리로 인한 증가된 심리사회적인 긴장감을 완화하기 위해 인터넷 사용량은 더욱 증가하였다[33]. 포르노 이용이 많을수록 성생활, 다수의 성 파트너, 알코올과 마약 사용이 높고[34], 첫 성경험 나이가 어린 것으로 나타났다[35]. 어린 나이의 과도한 포르노 사용의 잠재적 부정적 영향에 대한 문제가 지속적으로 제기되어 왔으며, 이는 포르노 중독, 성적 불만족 및 성 평등과 성 관련 신념에 의해 강화된 공격적인 성적 태도의 발달을 포함한다[33]. 또한, 성적인 이미지나 메시지를 전자기기를 통해 주고 받는 것을 섹스팅(sexting)이라고 하는데 인터넷 사용이 많은 청소년은 섹스팅을 많이 하고 섹스팅은 마약사용이나 다수의 성 파트너, 성경험과 관련이 있는 것으로 알려져 있다[36]. 이에 청소년에게 인터넷 사용과 디지털 리터러시에 대한 교육을 제공하여 온라인 위험을 식별하고 올바르게 인터넷을 활용할 수 있도록 해야 한다. 부모 교육을 통해 자녀들의 온라인 활동을 지속적으로 모니터링하고 인터넷에서 노출될 수 있는 성 위험성에 대해 교육하며 필요시 웹 필터링 또는 부모용 컨트롤 솔루션을 사용하여 유익하지 않은 콘텐츠에 대한 접근을 제한하도록 할 수 있다. 정책적으로는 인터넷 포르노와 성적 콘텐츠에 대한 규제 및 제한을 강화하고 이에 대한 법적 조치를 엄격하게 시행해야 할 것이다.
인터넷 사용시간 외에도 청소년의 성경험에 주요하게 영향을 미치는 변수로는 흡연과 음주 여부, 흡연 및 음주 시작 연령, 담배와 술의 구입용이성 등으로 흡연과 음주 관련이었다. 50개의 문헌과 총 465,595명의 청소년과 젊은 성인을 대상으로 한 메타분석 결과에 따르면 음주는 조기 성경험을 2.0배, 다수의 성 파트너 1.7배, 콘돔을 사용하지 않는 성행위 1.2배 증가시켜 위험한 성행위와 관련 있는 것으로 나타났다[37]. 첫 흡연과 음주 나이 역시 변수 중요도로 이는 청소년이 흡연이나 음주와 같은 위험한 행동을 시작할 때 친구의 사회적 영향 또는 또래 압력을 받아 성경험도 같이 나타날 수 있고[38], 흡연, 음주, 성경험이 정체성 문제나, 자아존중감 부족[39], 또는 부모와 가정 환경의 영향 등의 공통된 위험 요인을 가져 나타날 수 있다[40]. 국내 코로나-19 이후 청소년의 음주율, 흡연율 및 전자담배 사용률은 증가 추세로[3], 성건강을 포함한 청소년의 건강생활습관에 대한 적극적인 관심과 중재가 필요하다. 흡연 및 음주의 위험성에 대한 보건 교육 시 성과 관련된 내용도 함께 제공하고 특히 부모와 자녀 간의 소통을 증진하고 건강한 가정환경을 조성할 수 있도록 지원하는 것이 필요하다.
한편, 담배와 술 구매의 용이성이 성경험에 변수 중요도가 되는 것은 청소년이 담배와 술을 구매하거나 소비하는 장소와 성적 경험을 가질 가능성이 있는 장소, 예를 들면 유흥가, 클럽 또는 바와 같은 유사한 환경에서 기인할 수 있을 것이다. 국내 현행 청소년 보호법 제28조 1항에 따르면 ‘누구든지 청소년을 대상으로 청소년 유해약물 등을 판매ㆍ대여ㆍ배포하거나 무상으로 제공하여서는 아니된다’고 규정하고 있어 청소년은 술과 담배 구매가 허용되지 않는다[41]. 그런데 흡연 청소년 10명을 심층 면접한 한 연구에 따르면 이들은 신분증을 위조하거나 변조, 성인을 통한 대리 구매, 온ㆍ오프라인의 ‘뚫리는 가게’를 통해 담배를 구매한다고 하였다[42]. 청소년이 술과 담배를 직접 구매할 수 없다는 점을 이용하여 소셜 네트워크 서비스(social network service) 전용 계정을 만들어 미성년자에게 술, 담배, 심지어 성인용품까지 구매를 대행해 주고 수수료를 챙기는 성인이 있고 수수료 대신 여학생에게는 성접촉이나 성관계까지 요구하여 성폭력 등의 성범죄로까지 이어질 수 있어 특히 이에 대한 대책이 필요하다[43]. 청소년의 흡연 및 음주 경험과 성경험 사이에는 상황, 개인 및 가족, 학교 및 지역환경적 요인에 따라 다를 수 있으므로 더 많은 연구와 관심이 필요하다.
다음으로 아침식사가 성경험에 변수 중요도로 나왔는데 흡연, 음주, 운동부족, 비만은 아침식사를 거르는 것과 관계가 있고 사회경제적 수준이 낮은 가정의 청소년이 아침식사를 더 거르는 것으로 나타나[44] 이는 또한 성경험에도 간접적으로 영향을 주었을 것으로 사료된다. 또한, 아침식사를 하는 습관, 즉 자기 관리와 성경험과의 간접적인 연관성이 있어 자기관리를 잘 하는 청소년이 책임감 있는 결정을 하는 것과 관련이 있을 수 있다. 국내 청소년의 중 5일 이상 아침식사 결식률은 여학생은 2013년 26.2%에서 2022년 40.7%로, 남학생은 2013년 26.7%에서 2022년 37.4%로 10년 동안 꾸준히 증가추세이다[3]. 국내 한 연구에서는 아침식사를 거르는 것은 청소년의 감정에 영향을 주어 우울, 걱정, 스트레스, 심리적 고통 및 자살 시도까지 관련이 있는 것으로 나타나 청소년이 규칙적으로 아침식사를 하도록 도와 주는 것이 자살의 예방 전략으로 제언하고 있다[45]. 규칙적으로 아침식사를 하는 청소년의 경우 만성 스트레스가 낮고 아침식사는 스트레스를 완화하는 역할을 하여 삶의 만족도를 높이는 데 중요한 역할을 한다고 한다[46]. 따라서, 아침식사가 흡연, 음주, 운동부족, 정신적 건강, 자기 관리 등과 어떻게 직·간접적으로 청소년의 성경험에 영향을 주는지에 대한 연구가 필요하며 이에 대한 통합적 접근이 필요하다. 패스트푸드 소비의 경우 여학생의 경우 변수 중요도 중 하나로 나타났는데 이는 청소년의 성경험의 관계에서는 직접적으로 설명은 되지 않지만 패스트푸드 소비 즉 비건강한 식습관이 비만, 신체 이미지와 자아존중감에 영향을 줄 수 있고 또는 패스트푸드 레스토랑이 청소년 사이에 사회적 상호작용과 소통이 이루어지는 곳으로 성경험에 영향을 줄 수 있을 것이다.
이 외에도 하위영역별로 성경험을 결정하는 변수 중요도로 뽑힌 수면의 질, 지각된 건강상태, 신체상, 체중조절노력, BMI (이상 건강관련요인), 인지한 스트레스 수준(정신건강요인), 가정의 경제적 수준(가정환경요인)을 고려하여 다양한 전략을 개발하고 청소년의 건강과 안녕을 증진시키기 위한 통합적 건강증진 프로그램을 개발할 수 있다. 예를 들면, 보건교사 및 학교 관계자는 청소년의 수면, 건강, 스트레스 수준을 정기적으로 평가하여 수면이 부족한 청소년을 대상으로 수면건강에 대한 교육 프로그램을 제공하거나 스트레스 관리 기술을 가르치는 프로그램을 개발할 수 있다. 또는 청소년의 식습관과 체중조절 노력을 지원하기 위한 정책과 정신건강 서비스를 확대하는 정책을 고려할 수 있다.
본 연구에서 추가적으로 분석한 청소년의 성경험에 영향을 주는 주요 변수들의 코로나-19 전후 우선순위 변화를 하위영역으로 분석한 결과 남학생의 경우 코로나-19 이전에는 건강생활습관, 개인특성, 지역환경의 순서가 코로나-19 이후에는 지역환경, 건강생활습관, 개인요인 순서로 지역환경이 더 중요해졌다. ‘군지역’, ‘중소도시’, ‘대도시’로 나눈 지역의 크기와 술과 담배의 구매용이성을 포함하는 지역환경이 코로나-19 영향력이 커진 것은 코로나-19 대유행에 대한 지역적 대응과 사회적 거리두기와 통제 조치 등으로 청소년의 생활반경의 변화로 기인한 것일 수 있을 것이다. 지역사회 특성과 청소년의 성행동과의 관계에 대한 체계적 문헌 고찰에 따라면 지역사회 안전, 집단 효능감, 사회적지지[47] 등과 사회적 박탈 지수(social disadvantage index), 지역사회 물리적 환경, 교육수준, 실업률 등[48] 청소년의 위험한 성행동 예방과 관련이 있는 것으로 나타났다. 따라서, 남학생 청소년 성행동의 개선을 위해 지역 환경적 변화에 정책 제안과 개입에 대한 고려가 필요하다. 여학생의 경우 코로나-19 이전과 이후의 변동 없이 건강생활습관, 건강관련요인, 지역환경 순으로 성경험에 영향을 주는 것으로 나타났다. 건강생활습관이 성경험 영향 요인으로 계속 유지되었는데 이는 여학생은 지역사회 환경의 변화보다는 건강 관련 교육 및 프로그램을 통해 건강생활습관을 개선하는 전략이 더 효과적일 수 있다는 것을 시사한다.
본 연구의 강점은 bottom-up 방식의 사전 편향 없는 영향 요인 탐색에 유리한 것으로 알려져 있는 랜덤 포레스트 방법을 이용하여 데이터가 제공하는 여러 요인 변수들의 상호작용을 고려한 머신러닝 기반의 다변수 예측 모델을 개발하고, 정확도가 높은 예측 모델을 구축하였다는 점이다. 뿐만 아니라 예측 성능이 검증된 랜덤포레스트 모델로부터 산출한 변수 중요도에 기반하여 중요도가 높은 우선순위 요인을 추출하였다. 또한, 개인적 특성, 건강생활습관, 건강 관련 특성, 정신건강, 가정, 지역 및 학교환경 특성을 나타내는 44개의 공통 변수를 총체적으로 포함하여 모델링을 했다는 점에서 2차 자료의 장점을 활용했다고 볼 수 있다. 그러나, 층화집락추출법을 통해 얻은 2차 데이터를 랜덤 포레스트 방법에서는 가중치를 부여하는 분석법이 없어 이를 반영하지 못한 제한점이 있다.
향후에는 나이, 성별, 음주, 흡연, 정신건강, 가족배경 등의 청소년의 특성과 행태를 군집분석하여 유형화하고 유형별 그룹의 특성과 성경험 분포를 분석하여 성경험에 노출될 가능성이 높은 그룹을 대상으로 한 지원 및 교육 프로그램을 개발하는 데 도움을 줄 수 있다. 본 연구에서 2차 자료의 한계로 포함하지 못한 또래 관련 요인이나 지역사회 및 학교환경 등의 다양한 요인을 고려하여 보다 포괄적인 연구가 필요하다. 또한 본 연구에서는 연도와 남녀로 구분하여 분석하였으나 추후 연구에서는 연령에 따라 성경험 영향요인이 다를 수 있음을 고려하여 중학생과 고등학생으로 나누어 분석할 수 있을 것이다.
머신러닝 기술이 간호학 분야에서 급속히 증가하고 있는 가운데, 특히 랜덤 포레스트 분석 방법을 이용하여 뛰어난 예측 성능을 가진 모델을 개발하고 중요한 변수를 추출하는 데 활용될 수 있다. 이러한 기술은 질병 예방, 치료, 간호 및 관련 정책 개발에 필수적인 기초 자료를 제공하며 간호학 분야에서의 프로그램 개발과 적용을 촉진할 것으로 기대된다.
본 연구는 랜덤 포레스트를 이용하여 청소년의 성경험에 영향을 미치는 주요 요인들을 탐구하였다. 연구결과, 인터넷 사용 시간과 좌식 시간이 가장 청소년의 성경험에 영향을 미치는 것으로 나타났고 담배의 구입용이성, 음주 및 흡연 시작 연령, 아침식사 등의 건강생활습관과 술의 구입용이성이 성경험에 영향을 미치는 것으로 나타났다. 이는 청소년 건강 및 성교육 분야의 전문가들에게 유용한 정보를 제공하며 청소년의 건강한 성장과 발달, 성교육 및 건강 프로그램 개발 및 정책에 기여할 수 있는 중요한 통찰을 제공한다. 추후 청소년의 성행동과 관련된 요인들이 장기적으로 어떻게 영향을 미치는지에 대한 추적 조사와 다양한 문화적 배경을 가진 청소년을 대상으로 한 혼합연구방법 등을 통해 문화적 요인이 성행동에 미치는 요인도 탐색할 수 있을 것이다.
Supplementary data to this article can be found online at https://doi.org/10.4040/jkan.23134.
Average variable importance across all featuresSupplementary Figure 1
Average variable importance across each feature.Supplementary Figure 2
CONFLICTS OF INTEREST:The authors declared no conflict of interest.
FUNDING:This work was supported by the Ministry of Education of the Republic of Korea and the National Research Foundation of Korea (No. NRF-2020S1A5A2A03047080).
AUTHOR CONTRIBUTIONS:
Conceptualization or/and Methodology: Yang YS & Yang YR.
Data curation or/and Analysis: Yang YS & Kwon J.
Funding acquisition: Yang YR.
Investigation: Yang YS & Yang YR.
Project administration or/and Supervision: Yang YS & Yang YR.
Resources or/and Software: Yang YS & Kwon J.
Validation: Yang YS & Yang YR.
Visualization: Kwon J.
Writing original draft or/and Review & Editing: Yang YS & Kwon J & Yang YR.
None.
Please contact the corresponding author for data availability.