기계학습 기반 DNA 메타바코딩 분석 파이프라인 연구
Study of pipeline for DNA metabarcoding analysis based on machine learning
생물정보학적 분석의 정확성과 편의성을 높이기 위해 기계학습 기반의 DNA 메타바코딩 분석 파이프라인을 개발하는 것을 목표로 한다.
DNA 메타바코딩 기술은 생물다양성의 분석을 위한 서열데이터를 제공한다. 이를 정확하게 분석하기 위해서는 저품질 서열을 제거하는 것에서부터 분류학적 할당에 이르기까지 여러 단계에서 적절한 분석이 요구된다. 이 과정에서의 파라미터 선정 및 방대한 데이터 처리의 어려움은 DNA 메타바코딩 분석의 진입장벽을 높이고 분석의 정확성과 재현성을 낮춘다. 이러한 문제를 해결하기 위해 연구자의 지시 없이 데이터 세트를 기반으로 스스로 학습하고 성능을 개선할 수 있는 기계학습 기술을 이용해 분석의 정확성과 편의성을 향상시키고자 한다. 파라미터 조정 없이 대표서열을 추출하기위해 Hierarchical methods, Density-based methods 등 비지도학습 기반 클러스터 알고리즘을 적용한 분석방법을 개발하고, 대량의 서열을 빠르게 분류학적으로 할당하기 위해 XGBoost, Random forest 등의 알고리즘으로 훈련한 지도학습 기반 모델을 개발하는 연구를 수행하고 있다.
본 연구를 통해 개발된 파이프라인은 대규모 DNA 메타바코딩 데이터의 정확한 생물정보학적 분석에 기여할 것으로 사료된다.