누구나 이용할 수 있는 COVID-19 공개 연구 데이터 세트 (CORD-19)

코로나 바이러스 관련 전 세계인 모두가 싸우고 있습니다.

관련 어제 현지 월요일 (3월 16일)자로 학계, 머신러닝 관련, 또는 일반 개발자, 심지어 인문  사회 분야 관련 모든 분들이 코로나 바이러스(COVID-19) 연구를 위해 사용할 수 있는 공신력 있는 구조화된 데이터 세트가 발표되었습니다.

COVID-19 공개 연구 데이터 세트 (CORD-19 ;COVID-19 Open Research Dataset) 라는 것으로 코로나 바이러스와 그와 유사한 사스 등에 관한 24,000 개 이상의 학술 기사를 연구에 사용할 수 있도록 데이터 마이닝과 텍스트 마이닝에 적합하게 구성한 것으로 , 현재까지 나온 가장 광범위한 컴퓨터 판독 가능 코로나 바이러스 문헌 모음입니다.

https://pages.semanticscholar.org/coronavirus-research

이 데이터 구조화는 미 백악관의 주도로 다음의 연구소들이 참여했습니다. *1

이 데이터 셋을 이용하여 여러분도 캐글(kaggle)에서 여러분의 통찰력 있는 기여를 할 수 있습니다. 캐글은 데이터 관련 해결 과제를 제시하면 전 세계 인 누구나 해결 모델을 등록할 수 있는 데이터셋 분석 플랫폼입니다.

캐글의 COVID-19와 관련된 데이터 셋 분석 모델 질문은 다음의 링크에 있습니다.

https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge

질문들은 바이러스의 배양, 치료, 증상 및 예방과 관련된 것으로 세계 보건기구 (WHO)와 기타 주요 전문 기관이 협력하여 개발되었습니다. *2

Kaggle의 질문들은 다음과 같습니다.

– 전염, 배양 및 환경 안정성에 대해 알려진 것은 무엇입니까?
– COVID-19 위험 요소에 대해 무엇을 알고 있습니까?
-바이러스 유전학, 기원 및 진화에 대해 무엇을 알고 있습니까?
– 윤리 및 사회 과학 고려 사항에 대해 발표된 내용은 무엇입니까?
– 비 제약적 중재에 대해 무엇을 알고 있습니까?
– 백신과 치료법에 대해 무엇을 알고 있습니까?
– 진단 및 감시에 대해 무엇을 알고 있습니까?
– 의료에 관한 내용은 무엇입니까?
– 정보 공유 및 부문 간 협력에 관한 내용은 무엇입니까?

이런 질문에 누구나 참여할 수 있고, 참가자들은 이 문제들에 대해 다음과 같이 풉니다.

예를 들어 ” Does latitude impact the spread of COVID-19 (위도가 코로나 바이러스 전파에 영향을 미치는지에 대해)”라는 질문입니다.

https://www.kaggle.com/paultimothymooney/does-latitude-impact-the-spread-of-covid-19

그리고 참가자는 주어진 데이터 셋을 통한 분석을 통해 다음과 같이 관계가 있다는 연구결과를 도출합니다.

결론 : abs (30)와 abs (45) 사이에 감염률과 사망률이 가장 높은 위도 범위가있는 것으로 보입니다. 이는 전 세계 데이터에서 가장 분명하지만 모든 미국 주에 대해 분류 된 데이터에서도 지원됩니다. (Conclusion: There appears to be a range of latitudes between abs(30) and abs(45) that have the highest infection rates and mortality rates. This is most obvious in the global data but is also supported by the data that is broken down for every USA state.)

 

연구자가 코로나 바이러스 같은 위기에 어떻게 기여 할 수 있을까를 생각할때, 이미 기존의 연구를 이해 할 수 있는 핵심 데이터가 , 특히 머신러닝을 이용해 처리가 가능하게 가공된 데이터가 없으면 시간이 많이 걸립니다. 자료를 모으는 것도 그렇고, 자료를 컴퓨터로 분석할 수 있도록 가공하는 작업도 보통 일이 아니죠. 따라서 공신력 있는 연구기관들이 모여 만든 이 데이터 셋은 전 세계 연구자들에게 유용한 도움이 될 것입니다. 부디  전 세계의 많은 분들이 참여하여 코로나19를 이길 수 있게 되는데 힘이 되길 바랍니다.

 

 

*1.  Allen Institute for AI, Microsoft Research, National Institute of Medicine (NLM)  Chan Zuckerberg Initiative, Georgetown University’s Center for Security and Emerging Technology, Microsoft Research , National Library of Medicine (NLM) ,National Institutes of Health (NIH).

*2.National Academies of Sciences, Engineering, and Medicine’s Standing Committee on Emerging Infectious Diseases , 21st Century Health Threats.