티스토리 뷰

information

ProtNLM 단백질 기능 예측 연구

tech* 2023. 7. 17.

ProtNLM

구글은 단백질의 아미노산 서열로부터 단백질 이름이라고 하는 짧은 기능 설명을 예측할 수 있는 ProtNLM이라는 모델을 개발했습니다. 구글 ProtNLM란 무엇이며 어떤 연구인지 알아보겠습니다.

ProtNLM란 무엇인가요?

ProtNLM은 Protein, Natural, Language, Model의 앞글자를 따서 만든 신조어입니다. 단백질 자연어 모델(ProteinNLM)은 워싱턴 대학과 Allen Institute for AI의 연구원들이 개발한 딥 러닝 모델입니다. 구글 리서치는 유럽 분자생물학 연구소의 유럽 생물정보학 연구소와 협력하여 protNLM로 단백질의 기능을 예측하는 방법에 대해 더 심도있게 연구했습니다.

ProtNLM의 예측은 현재 연구소의 데이터베이스에 설명이 없던 수백만 개의 단백질 서열에 라벨을 붙이는 데 사용되고 있습니다.

단백질 서열 밝히기

단백질은 지구 생명체의 핵심 구성 요소 중 하나이며 우리 몸에서 음식, 의약품, 세탁 세제에 이르기까지 모든 곳에 존재합니다. 우리의 DNA에는 단백질 생산에 대한 지침이 포함되어 있으며, 단백질은 산소를 운반하고 화학 반응을 가속화하거나 세포 수리를 수행하는 등 필요한 기능을 수행합니다.

우리 몸에서 각 단백질의 역할을 이해하는 것은 질병과 관련된 단백질을 식별하고 잠재적인 약물 표적을 식별하는 데 매우 중요합니다. 또한 새로운 단백질을 설계하면 신약 개발에 상당한 진전을 이룰 수 있습니다.

그러나 신약 설계를 위한 새로운 단백질 개발에는 많은 시행착오가 수반됩니다. 일반적으로 수년간의 노력과 수억 달러가 소요됩니다. 현재까지 과학은 맞춤형 단백질이 일상 생활에서 가져올 수 있는 잠재적 이점에 대해 극히 일부만 밝혀냈습니다. 단백질의 힘을 활용하면 무한한 가능성이 열릴 수 있습니다.

각 단백질은 아미노산이라고 하는 일련의 구성 요소로 이루어져 있습니다. 아미노산의 서열에 따라 단백질이 할 수 있는 일이 결정됩니다.

문제는 이를 해독하는 방법을 모른다는 것입니다. 실험 및 계산적 접근 방식을 사용하여 단백질의 3D 구조를 결정할 수 있지만 기능을 결정하는 것은 여전히 어렵습니다.

단백질의 기능은 이미지의 내용을 다양한 형태로 표현할 수 있는 것과 마찬가지로 다양한 방식으로 설명할 수 있습니다. 일반적인 유형의 기능을 인코딩하는 사전 정의된 범주 레이블 세트 중에서 선택하거나 기능을 자세히 설명하는 짧은 텍스트 설명 또는 확장 단락을 작성할 수 있습니다. 단백질 기능을 설명하는 것은 단백질 서열 언어와 자연어 기능 설명이라는 두 가지 언어 간의 번역과도 유사합니다.

전 세계 수백만 명의 생명과학 연구자들이 사용하는 UniProt과 유전자 온톨로지 같은 데이터베이스에서 단백질 서열과 기능 주석을 수집하는 데 많은 진전이 있었습니다.

하지만 현재 자연적으로 발생하는 단백질 서열의 1% 미만이 실험적으로 특성화된 상태입니다. 실험적 주석은 느리고 비용이 많이 들며, 30% 이상의 단백질은 서열이 알려진 기능을 가진 단백질과 너무 달라서 계산적으로 주석이 달리지도 않은 경우가 많습니다.

구글 ProtNLM 단백질 서열 자연어 설명 모델

구글은 최근의 언어 모델 발전을 이용 가능한 단백질 서열 데이터와 결합하여 아미노산 서열의 기능적 특성을 개괄적으로 설명하는 자연어 설명을 예측하는 모델을 훈련할 수 있는 기회를 발견했습니다.

이 과제를 해결하기 위한 첫 번째 단계로 단백질 이름과 같은 짧은 자연어 설명을 생성하는 모델을 개발했습니다. 그래서 다음과 같이 접근했습니다.

ProtNLM은 입력과 출력이 모두 텍스트로 제공되는 시퀀스 간 작업을 모델링하는 자연어 처리 패러다임에서 영감을 얻었으며, 출력에 범주형 또는 숫자 데이터가 포함되는 경우에도 마찬가지입니다. 우선 도메인이라고 하는 단백질의 독립적인 하위 단위의 기능을 예측하는 작은 문제를 해결했습니다. 이러한 도메인에 해당하는 단기 아미노산 서열을 입력으로 받아 범주형 레이블과 자연어 설명을 사용해 기능을 예측했습니다.

이 작은 문제에서 방법의 실행 가능성을 입증한 후, 구글은 이를 확장하여 UniProt 데이터베이스의 전체 단백질 서열에 단백질 이름을 주석으로 달았습니다. 이는 입력이 매우 클 수 있는 복잡한 문제입니다. 단백질 서열은 일반적으로 수백 개의 아미노산으로 구성되며 최대 40,000개까지 포함될 수 있습니다. 모델은 아미노산 서열 입력을 아미노산당 하나씩 문자 시퀀스 형태로 받아 이름이나 설명을 한 번에 하나의 토큰으로 출력합니다. 이를 통해 모델은 사용 가능한 경우 기존 이름을 사용하거나 필요한 경우 새 이름을 생성할 수 있습니다.

단백질 이름 예측 작업을 위해 1억 5천만 개 이상의 단백질에 액세스하여 훈련했습니다. 이 작업에서 가장 큰 어려움은 어떤 데이터를 훈련 및 평가 작업에 사용할지 결정하는 것이었습니다. 향후 단백질에 주석을 달기 위한 사용 사례를 평가하기 위해 새로 도입된 일부 단백질과 훈련 세트에서 멀리 떨어져 있는 서열 및 이름이 없는 모든 서열을 보류했습니다.

주어진 예측의 정확성을 평가하는 것은 어렵습니다. 자연어 설명은 평가하기 어렵기로 악명이 높으며, 단백질의 경우 예측이 올바른지 여부를 시각적으로 감지하는 것이 불가능합니다. 큐레이터는 기존 정보와 생물정보학 도구를 사용하여 수작업으로 평가를 수행한 결과, 단백질 또는 관련 단백질에 대한 예측의 정확도가 높다는 것을 발견했습니다.

그러나 어떤 경우에는 기존 정보 및 생물 정보학 도구로 예측의 정확성을 증명하거나 반증할 수 없습니다. 다른 계산 방법이 성공하지 못했을 때 정확성을 평가하는 것은 어려운 일입니다. 큐레이터의 프로세스에서 영감을 받아 평가를 자동화한 결과, ProtNLM이 수많은 단백질 서열에 걸쳐 정확하다는 것을 발견했습니다.

마지막으로, 이 모델은 단백질을 가져와 자연어 설명을 생성하거나, 자연어 설명을 가져와 데이터베이스에서 관련 단백질을 발견하는 두 가지 방법으로 사용할 수 있습니다. 우리는 ProtNLM에 특성화되지 않은 단백질 중에서 CRISPR-소형 Cas9 상동체를 검색하도록 요청했고, 많은 경우 검색된 단백질이 실제로 Cas9과 유사할 가능성이 높다는 것을 발견했습니다.

⭐함께 보면 좋은 글

머신러닝 딥러닝 차이 뜻 활용사례

머신러닝 딥러닝 차이 머신러닝 뜻 딥러닝 뜻 머신러닝 딥러닝 활용사례 인공 지능과 데이터 기반 의사 결정의 시대로 접어들면서 머신러닝과 딥러닝이라는 두 가지 중요한 개념이 등장하여 그

tech.worldlife.co.kr

구글 ProtNLM의 다음 단계

단백질에 이름을 붙이기 위해 아직 해야 할 일이 많이 남아 있으며, 이미지처럼 단백질을 설명하고 그에 대한 질문에 답할 수 있으려면 아직 연구가 더 필요합니다. 하지만 머신러닝을 사용해 단백질에 주석을 달기 위한 진전이 이루어지고 있고, 이것이 신약 개발과 같이 단백질 기능 이해에 의존하는 과학적 발견에 영향을 미칠 것입니다.

구글 리서치는 지금까지 수백만 개의 이름 없는 전체 길이 단백질 서열에 대한 주석을 공개했으며, 사용자가 모델과 큐레이션 파이프라인을 사용해 볼 수 있는 협업 노트북을 출시했습니다. 유럽 생물정보학 연구소와의 협업을 통해, 구글은 UniProt이 출시될 때마다 모델을 개선할 수 있는 기회를 갖게 되었습니다.

수동 및 자동 큐레이션의 피드백과 사용자 피드백을 훈련 프로세스에 다시 통합하려고 합니다. 또한 가능한 경우 새로운 정보 소스를 입력으로 추가하는 것을 목표로 하고 있습니다.

'information' Related Articles

Techworld