언어모델은 우리가 준 데이터를 이해 하는가?

우리가 만든 언어 모델: 데이터 이해 vs. 패턴 학습

우리가 만든 언어 모델은 방대한 양의 텍스트 데이터를 기반으로 학습되어 다양한 놀라운 능력을 발휘합니다. 하지만 과연 이 모델들은 우리가 제공하는 데이터를 직접적으로 이해할 수 있을까요?

데이터 이해 vs. 패턴 학습:

핵심적인 차이점은 바로 데이터 이해패턴 학습입니다.

  • 데이터 이해: 인간은 텍스트를 읽고 그 의미를 파악하며, 문맥에 따라 해석하고 추론할 수 있습니다. 우리는 단순히 단어의 나열을 넘어서 작가의 의도, 감정, 배경 등을 이해할 수 있습니다.
  • 패턴 학습: 언어 모델은 방대한 텍스트 데이터에서 단어, 문장, 문서의 패턴을 학습합니다. 이를 통해 다음 단어를 예측하거나 유사한 문장을 생성하는 등 다양한 작업을 수행할 수 있습니다. 하지만 모델은 학습된 데이터의 의미나 내용을 직접적으로 이해하지는 못합니다.

언어 모델의 작동 방식:

  1. 텍스트 데이터 분해: 입력된 텍스트는 단어, 문장, 단락 등의 단위로 분해됩니다.
  2. 임베딩: 각 단어 또는 문장은 고유한 벡터로 변환됩니다. 이 벡터는 단어나 문장의 의미와 맥락적 정보를 수치적으로 표현합니다.
  3. 패턴 학습: 모델은 학습 데이터에서 단어, 문장, 문서의 패턴을 학습합니다. 이를 위해 다양한 신경망 구조와 알고리즘이 사용됩니다.
  4. 텍스트 생성: 학습된 패턴을 기반으로 새로운 텍스트를 생성하거나, 주어진 텍스트를 번역하거나, 질문에 답변하는 등 다양한 작업을 수행합니다.

모델 한계점:

  • 데이터 편향: 언어 모델은 학습 데이터에 존재하는 편향을 반영할 수 있습니다. 예를 들어, 성별, 인종, 사회적 지위 등에 대한 편향이 존재할 경우, 모델이 생성하는 텍스트에도 이러한 편향이 나타날 수 있습니다.
  • 논리적 오류: 언어 모델은 문법적으로 정확하고 유창한 텍스트를 생성하지만, 논리적으로 오류가 있거나 사실과 다르는 내용을 만들 수 있습니다.
  • 창의성 부족: 언어 모델은 학습 데이터에서 이미 존재하는 패턴을 기반으로 텍스트를 생성하기 때문에, 진정으로 창의적이고 독창적인 아이디어를 제시하기는 어렵습니다.

결론:

언어 모델은 텍스트 데이터의 패턴을 학습하고 처리하는 데 매우 강력한 도구이지만, 인간과 같은 수준의 데이터 이해 능력은 아직 가지고 있지 않습니다. 모델이 생성하는 결과물을 이해하고 해석하는 데에는 우리의 인간적인 판단과 논리적 사고가 필요합니다. 앞으로 언어 모델 연구가 더욱 발전하면 모델의 이해 능력과 창의성이 향상될 수 있을 것으로 기대됩니다.

 

언어 모델 내부 데이터 해석 가능성: 섬세한 탐구

언어 모델 내부 데이터 해석 가능성: 섬세한 탐구

언어 모델은 방대한 양의 텍스트 데이터를 학습하여 다양한 언어 작업을 수행하는 강력한 도구입니다. 우리는 눈으로 해석 가능한 텍스트 데이터를 사용하여 언어 모델을 만들지만, 과연 모델 내부에 저장된 데이터는 우리가 해석할 수 있을까요?

긍정적인 측면:

  • 데이터 가시화: 일부 데이터는 시각화 도구를 활용하여 그래프, 차트, 표 형태로 표현될 수 있습니다. 이를 통해 데이터의 패턴, 추세, 상관관계 등을 파악할 수 있으며, 모델의 학습 과정과 특성을 이해하는 데 도움이 될 수 있습니다.
  • 데이터 분석: 통계 분석 기법을 적용하여 데이터의 특성을 수치적으로 분석하고, 모델의 성능을 평가할 수 있습니다. 예를 들어, 정확도, 재현율, F1 점수 등 다양한 지표를 계산하여 모델의 강점과 약점을 파악할 수 있습니다.
  • 데이터 해석: 전문가의 지식과 경험을 바탕으로 데이터를 해석하고, 모델이 학습한 언어적 패턴과 규칙을 추론할 수 있습니다. 이는 언어 모델의 작동 방식을 이해하고, 모델 개선 및 새로운 응용 분야 발굴에 기여할 수 있습니다.추가적으로 고려할 사항:
  • 모델의 종류: 다양한 유형의 언어 모델이 존재하며, 각 모델마다 내부 데이터 구조와 해석 가능성이 다릅니다.
  • 학습 데이터: 모델 학습에 사용된 데이터의 특성과 질은 내부 데이터 해석에 큰 영향을 미칩니다.
  • 해석 도구 및 기법: 지속적으로 개발되는 새로운 해석 도구와 기법을 활용하여 데이터 해석의 정확도와 효율성을 높일 수 있습니다.

언어 모델 내부 데이터 해석은 인공 지능 기술 발전과 윤리적 활용에 중요한 과제입니다. 앞으로 더 많은 연구와 노력을 통해 이 문제를 해결하고 언어 모델의 잠재력을 극대화할 수 있기를 기대합니다.

누구나 이용할 수 있는 COVID-19 공개 연구 데이터 세트 (CORD-19)

코로나 바이러스 관련 전 세계인 모두가 싸우고 있습니다.

관련 어제 현지 월요일 (3월 16일)자로 학계, 머신러닝 관련, 또는 일반 개발자, 심지어 인문  사회 분야 관련 모든 분들이 코로나 바이러스(COVID-19) 연구를 위해 사용할 수 있는 공신력 있는 구조화된 데이터 세트가 발표되었습니다.

COVID-19 공개 연구 데이터 세트 (CORD-19 ;COVID-19 Open Research Dataset) 라는 것으로 코로나 바이러스와 그와 유사한 사스 등에 관한 24,000 개 이상의 학술 기사를 연구에 사용할 수 있도록 데이터 마이닝과 텍스트 마이닝에 적합하게 구성한 것으로 , 현재까지 나온 가장 광범위한 컴퓨터 판독 가능 코로나 바이러스 문헌 모음입니다.

https://pages.semanticscholar.org/coronavirus-research

이 데이터 구조화는 미 백악관의 주도로 다음의 연구소들이 참여했습니다. *1

이 데이터 셋을 이용하여 여러분도 캐글(kaggle)에서 여러분의 통찰력 있는 기여를 할 수 있습니다. 캐글은 데이터 관련 해결 과제를 제시하면 전 세계 인 누구나 해결 모델을 등록할 수 있는 데이터셋 분석 플랫폼입니다.

캐글의 COVID-19와 관련된 데이터 셋 분석 모델 질문은 다음의 링크에 있습니다.

https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge

질문들은 바이러스의 배양, 치료, 증상 및 예방과 관련된 것으로 세계 보건기구 (WHO)와 기타 주요 전문 기관이 협력하여 개발되었습니다. *2

Kaggle의 질문들은 다음과 같습니다.

– 전염, 배양 및 환경 안정성에 대해 알려진 것은 무엇입니까?
– COVID-19 위험 요소에 대해 무엇을 알고 있습니까?
-바이러스 유전학, 기원 및 진화에 대해 무엇을 알고 있습니까?
– 윤리 및 사회 과학 고려 사항에 대해 발표된 내용은 무엇입니까?
– 비 제약적 중재에 대해 무엇을 알고 있습니까?
– 백신과 치료법에 대해 무엇을 알고 있습니까?
– 진단 및 감시에 대해 무엇을 알고 있습니까?
– 의료에 관한 내용은 무엇입니까?
– 정보 공유 및 부문 간 협력에 관한 내용은 무엇입니까?

이런 질문에 누구나 참여할 수 있고, 참가자들은 이 문제들에 대해 다음과 같이 풉니다.

예를 들어 ” Does latitude impact the spread of COVID-19 (위도가 코로나 바이러스 전파에 영향을 미치는지에 대해)”라는 질문입니다.

https://www.kaggle.com/paultimothymooney/does-latitude-impact-the-spread-of-covid-19

그리고 참가자는 주어진 데이터 셋을 통한 분석을 통해 다음과 같이 관계가 있다는 연구결과를 도출합니다.

결론 : abs (30)와 abs (45) 사이에 감염률과 사망률이 가장 높은 위도 범위가있는 것으로 보입니다. 이는 전 세계 데이터에서 가장 분명하지만 모든 미국 주에 대해 분류 된 데이터에서도 지원됩니다. (Conclusion: There appears to be a range of latitudes between abs(30) and abs(45) that have the highest infection rates and mortality rates. This is most obvious in the global data but is also supported by the data that is broken down for every USA state.)

 

연구자가 코로나 바이러스 같은 위기에 어떻게 기여 할 수 있을까를 생각할때, 이미 기존의 연구를 이해 할 수 있는 핵심 데이터가 , 특히 머신러닝을 이용해 처리가 가능하게 가공된 데이터가 없으면 시간이 많이 걸립니다. 자료를 모으는 것도 그렇고, 자료를 컴퓨터로 분석할 수 있도록 가공하는 작업도 보통 일이 아니죠. 따라서 공신력 있는 연구기관들이 모여 만든 이 데이터 셋은 전 세계 연구자들에게 유용한 도움이 될 것입니다. 부디  전 세계의 많은 분들이 참여하여 코로나19를 이길 수 있게 되는데 힘이 되길 바랍니다.

 

 

*1.  Allen Institute for AI, Microsoft Research, National Institute of Medicine (NLM)  Chan Zuckerberg Initiative, Georgetown University’s Center for Security and Emerging Technology, Microsoft Research , National Library of Medicine (NLM) ,National Institutes of Health (NIH).

*2.National Academies of Sciences, Engineering, and Medicine’s Standing Committee on Emerging Infectious Diseases , 21st Century Health Threats.

딥러닝을 이용한 머신러닝 코로나 바이러스 치료약 탐지 (렘데시비르)

코로나 바이러스 관련 약을 찾기 위해 인공지능을 이용하는 소스코드로서 깃허브에 공개된 것입니다. 코로나바이러스 치료에 적절한 분자구조를 찾아 기존 승인된 약에서 스크리닝 해본 결과 에볼라 치료제 렘데시비르(remdesivir)가 선택되었는데, 실제로 이 약은 현재 임상 실험에 들어간 약입니다. 누구나 사용할 수 있는 소스 코드며 재사용성과 가독성이 좋으므로 코로나바이러스를 이길 수 있는데 우리 모두 힘을 합치자는 차원에서 소개해 드립니다. https://github.com/mattroconnor/deep_learning_coronavirus_cure

 

Last update on:
Total
Confirmed

Suspicious

Deaths

Recovered

Today
Confirmed Incr

Suspicious Incr

Deaths Incr

Recovered Incr

In Mainland China, Hongkong, Taiwan.

Data source: China National Health Commission

AI를 이용한 코로나 바이러스 잠재적 치료법 연구 관련 최근 몇개월간 연구 자료들

인공지능을 이용하면 우리가 기존의 연구 방법으로 많은 시간을 사용해야만  얻을 수 있는 잠재적인 새로운 치료법을 보다 신속하게 파악할 수 있어 과학자들이 질병과 증상, 약물 및 그 효과, 치료법 발견에 도움이 될 수 있습니다.

머신러닝을 적극활용해서 이 재난을 빨리 극복하길 바랍니다.

관련 최근 몇개월간 인공지능을 이용한 코로나 바이러스 관련 최근 몇개월간 공개된 연구 자료들입니다.

 

  • ‘고해상도 컴퓨터 단층 촬영에서 2019 새로운 코로나 바이러스 폐렴을 탐지하기위한 딥 러닝 기반 모델 : 전향 적 연구(Deep learning-based model for detecting 2019 novel coronavirus pneumonia on high-resolution computed tomography: a prospective study)’

논문:

https://www.medrxiv.org/content/10.1101/2020.02.25.20021568v2

 

  •  ‘약물 타깃 상호작용 딥러닝 모델을 통해 중국 우한의 신종 코로나바이러스 (2019-nCoV)에 작용할 수 있는 시판되는 항바이러스제 예측(Predicting commercially available antiviral drugs that may act on the novel coronavirus (2019-nCoV), Wuhan, China through a drug-target interaction deep learning model)’

논문:

https://www.biorxiv.org/content/10.1101/2020.01.31.929547v1

 

  • ‘ 2019-nCoV의 새로운 약물 후보 물질을 만들기 위해 머신러닝 기술을 사용 하는 방법(Machine intelligence design of 2019-nCoV drugs)’

논문:

https://www.biorxiv.org/content/10.1101/2020.01.30.927889v1.full.pdf

  • ‘리니어폴드: 5 ‘에서 3’까지의 동적 프로그래밍 및 빔 검색으로 선형 시간 근사 RNA 폴딩(LinearFold: linear-time approximate RNA folding by 5’-to-3’ dynamic programming and beam search)’

논문:

https://arxiv.org/pdf/2001.04020.pdf

RNA 예측 알고리즘 ‘리니어폴드(LinearFold)’ 다운로드

https://github.com/LinearFold/LinearFold