
계산화학(CCS: Computer Chemistry System)은 다양한 기술이 등장하면서 발전하고 있다.
화학은 방대한 계산능력이 필요한 대표적인 자연과학 분야로 계산화학자들은 항상 더 빠른 컴퓨터를 요구하고 있으며 기존에는 슈퍼컴퓨터가 계산능력 요구를 충족시켰으나 앞으로는 양자컴퓨터가 주도하고 AI(인공지능)의 영향도 클 것으로 예상된다.
특히, 생성형 AI는 불과 2년만에 사회를 격변시키고 있으며 다양한 산업과 용도에서 실용적으로 사용되기 시작했고 CCS 분야에서도 생성형 AI의 영향력이 더욱 확대되고 있다.
최근 AI와 기계학습을 이용한 데이터 베이스 연구 트렌드가 확대되고 있으며, 솔루션 전체가 복잡화되면서 여러 IT 벤더의 기술과 연계하는 움직임이 확대되고 있다.
계산화학, 통합 데이터 플랫폼 도입해 연구개발 활용
계산화학은 의약품 및 기능성 소재 연구개발(R&D)을 지원하는 디지털 솔루션으로 기능하고 있다.
크게 분자 및 결정 구조를 설계하고 물성을 계산·예측하는 모델링 & 시뮬레이션(M&S) 시스템과 합성한 물질의 화학구조를 등록하고 평가·시험 데이터를 포함 데이터베이스(DB)화해 관리·활용하는 인포매틱스(Informatics) 시스템으로 구분되며, 적용 대상은 의약품을 중심으로 하는 라이프 사이언스와 화학·소재 분야인 머티리얼 사이언스가 대표적이다.
데이터 기반 연구를 지향하는 트렌드는 라이프·머티리얼 사이언스 모두에서 나타나며, 특히 라이프 사이언스 분야에서는 최근 신약 연구의 DMTA(설계·합성·평가·분석) 사이클을 종합 지원하는 솔루션이 두드러지고 있다.
DMTA는 새로운 개념이 아니지만 신약 연구에서는 사이클을 수차례 반복적으로 수행해야 하기 떄문에 창출되는 데이터의 활용도가 매우 큰 편이며 연구 프로세스 전체를 일원화된 플랫폼으로 연결하면서 원활한 데이터 연계가 요구되고 있다.
대부분 플랫폼은 주로 인포매틱스 계열 벤더가 담당하며 다양한 연구 데이터를 폭넓게 집약시키기 위해 특정 분야의 전문 벤더와 연계하거나 인수하는 사례가 증가하고 있다.
실험실의 분석·계측기기와 연계해 질량 분석기, 액체 크로마토그래피, 핵자기 공명 장치 등으로부터 데이터를 자동으로 취득하는 기술을 보유한 벤더를 계열사에 편입시켜 전자 실험노트 등의 플랫폼으로 흡수하는 사례가 대표적이다.
일본 Revvity는 미국 Scitara가 보유한 기술을 베이스로 구축한 Signals ALX를 활용해 실험실의 각종기기에서 추출한 메타데이터를 포함 계측 데이터를 Signals Notebook에 등록하고 있다.
SciY 역시 실험 데이터 자동화와 AI 베이스 데이터 관리를 수행하는 Mnova, 실험실과 제조 품질관리(QC) 프로세스를 자동화하는 SynTQ를 통해 전자노트 Arxspan과 연계하고 있다.
Dotmatics가 공급하는 BioBright도 실험기기로부터 데이터를 자동으로 수집하는 클라우드 서비스로, 전자노트에 통합할 수 있다. Dassault Systemes의 Biovia도 ONE Lab 등 유사한 콘셉트의 솔루션을 공급하고 있다.
일본 Itochu Techno-Solutions는 제약산업용 시스템 통합(SI)에 강점을 지닌 미국 TetraScience의 Tetra Data Platform을 공급하고 있다. Tetra Data Platform은 실험기기마다 다른 확장자와 포맷으로 출력되는 데이터를 집약·일원화해 범용 데이터 형식으로 변환하는 클라우드 서비스이다.
Itochu Techno-Solutions는 Biovia와 IDBS의 전자노트를 공급하고 있으며 Biovia와 IDBS와의 통합도 추진하고 있는 것으로 알려졌다.
BI, 벤더 인수·통합 본격화
플랫폼이 바이오 인포매틱스(BI) 벤더를 통합하는 트렌드도 확대되고 있다.
과거 DMTA 사이클에서 다루던 데이터는 주로 저분자 화합물 중심의 생물학적 평가 데이터가 차지했으나 최근에는 신약의 60%를 바이오의약품이 차지하고 있고 연구 대상 역시 저분자 화합물 뿐만 아니라 유전자, 핵산, 단백질 등 오믹스(Omics) 데이터의 비중이 확대되고 있다.
바이오 인포매틱스 도구를 활용해 분석한 데이터를 DMTA 사이클에 추가하는 수요도 증가하고 있다.
Dotmatics가 트렌드를 선도하고 있으며 주요 바이오 인포매틱스 계열 벤더들을 계열사화해 GraphPad Prism, SnapGene, Geneious, OMIQ, Protein Metrics 등을 플랫폼에 빌드인하도록 하고 있다.
또 전자노트 벤더 IDBS를 보유한 Danaher는 바이오의약품 연구·개발·제조 가속화에 대비해 더 광범위한 솔루션을 공급하기 위해 2023년 8월 스위스 GeneData를 인수했다.
2023년 10월에는 신약 승인 신청에 필요한 약물동태학, 약력학 시뮬레이션 분야에서 강점을 보유한 미국 Certara가 헝가리 켐인포매틱스(ChemInformatics) 메이저 Chemaxon을 9000만달러에 인수했다.
Certara는 2006년 11월 M&S 벤더 Tripos를 인수한 Vector Capital이 TriPos, Pharsight, Simcyp을 통합하면서 설립됐으며 Arsenal Capital의 자회로 운영되다 2020년 12월 상장(IPO)했다.
이후에도 여러 벤더를 인수했으며 2023년 1월 AI 벤더 Vyasa Analytics를 인수함으로써 라이프 사이언스 분야의 생성형 AI Certara 개발을 추진하고 있다.
ChemAxon은 자회사 형태로 독립성을 유지하고 있으나 솔루션 통합을 계획하고 있다.
인수 이전부터 제휴 관계로 추진하던 신약 연구용 과학 정보 시스템 D360과 연구 협업 플랫폼 DesignHub와의 연계를 강화하고 생물학적 약물 속도론(PBPK) 시뮬레이터 Simcyp도 편입시킬 계획이다.
화학구조식에 대응하는 케미스트리 엔진 등 ChemAxon이 보유한 인포매틱스 기술은 제약산업에서 표준으로 자리 잡아 인수에 적극적인 Certara의 전략이 주목된다.
화학산업, LLM 활용 논의 활성화
생성형 AI는 CCS 분야에서도 영향력을 확대하고 있다.
생성형 AI의 핵심은 트랜스포머라는 학습 모델로 2017년 논문으로 발표된 이후 10년도 지나지 않았으나
대량의 데이터로 훈련된 거대언어모델(LLM)을 내장해 텍스트를 이해하고 생성할 수 있게 했다.
OpenAI가 개발한 ChatGPT는 2022년부터 2023년에 걸쳐 출시됐으며 서비스 공개 2개월 만에 사용자 수가 1억명을 돌파하며 생성형 AI 붐을 일으켰다.
구글(Google) 역시 2023년 Google Bard를 출시하고 2024년 2월 Gemini로 이름을 변경했으며, 마이크로소프트(Microsoft)는 Bing 검색 엔진에 LLM 도입을 거쳐 독립적인 생성형 AI Copilot을 공개했다.
미국 스타트업 Anthropic은 응답 정확도, 비용, 프롬프트 길이 측면에서 인기가 높은 Claude를, Meta는 오픈소스 모델 Llama3를 출시했다.
ChatGPT를 비롯한 AI는 텍스트 뿐만 아니라 음성, 이미지, 영상, 센서 정보 등 다양한 데이터를 통합 처리할 수 있는 멀티모달 생성형 AI로 PwC컨설팅은 미국기업 43%가 생성형 AI를 활용하고 48%가 도입을 추진하고 있는 것으로 파악하고 있다.
다만, 산업별 도입 속도에는 차이가 있으며 미국 기준으로 ①은행·증권 등 금융업 ②기술 ③건설·엔지니어링 ④헬스케어·병원·제약 ⑤소매업 ⑥중공업·기계·가전 ⑦기타 ⑧통신 ⑨서비스업 ⑩운송·물류 순이며 화학은 13위에 머물렀다.
QunaSys는 화학분야, 주로 연구개발에서 생성형 AI 활용에 대한 논의를 위해 화학산업 관계자 100여명을 모아 2024년 6월부터 소재 개발 LLM 스터디를 개최했고 초기 논의에서 LLM 도입‧활용 장애물로 ①사용례는 떠오르나 LLM 활용 방법을 모르겠다(24.4%) ②사용례 자체가 떠오르지 않으며 무엇을 해야 할지 모르겠다(22.0%) ③보안 측면이 우려된다(19.5%) ④AI가 잘못된 정보를 생성하는 할루시네이션 발생 위험이 크다(12.2%) ⑤데이터 구조화가 어렵다(9.8%) 등의 의견이 제기됐다.
소재 개발에서 LLM 활용의 미래 전망에 대해서는 ①1-3년 이내 획기적인 LLM 활용 사례가 발견돼 폭발적으로 확산될 것(41.2%) ②5년 후에는 LLM이 사내에 정착해 소재 개발 혁신이 이루어질 것(35.3%) ③10년 후에는 LLM이 소재 개발 전반에서 활약해 사람의 역할이 변할 것(17.6%)이라는 의견이 제시됐다.
5년 이내 LLM을 적극적으로 사용할 환경이 조성되지 않을 것(5.9%)이라는 의견은 소수에 그쳤다.
pLM, 멀티모달 생성형 AI 응용 분야로 주목
멀티모달 생성형 AI의 응용 분야 가운데 하나로 단백질 언어 모델(pLM)이 주목받고 있다.
단백질은 20종류의 아미노산(Amino Acid)이 중합된 폴리머로 단백질을 아미노산 배열 문자열로 표현할 수 있고, 단백질은 접힘(폴딩)으로 3차원 구조를 형성해 기능을 발현하기 때문에 개별 원자의 좌표로 구성되는 3차원 이미지 데이터로도 표현할 수 있다.
하버드대학교(Harvard University) 연구팀이 개발한 UniRep, 캘리포니아대학교 버클리캠퍼스(University of California Berkeley)의 TAPE, 대규모 모델인 MSA Transformer, ProtTrans, ESM 등이 개발됐다. 최신 모델인 METEL은 파인튜닝을 활용하는 실험 데이터에 따라 다양한 예측 작업에 활용 가능한 잠재력을 지닌 것으로 기대되며, 2023년 메타(Meta)가 공개한 ESM2는 150억개의 파라미터를 탑재한 것으로 알려졌다.
반면, 일반적인 LLM인 GPT-3는 파라미터가 1750억개, GPT-4는 GPT-3의 10배 수준으로 추정된다.
상대적으로 pLM은 아직 파라미터 숫자가 적은 편이며, pLLM급으로 대형화되면 LLM에서 나타났던 폭발적인 성능 향상이 발생할 가능성이 제기되고 있다.
단백질의 아미노산 배열에서 접힘 이후의 입체 구조를 예측하는 기술로는 트랜스포머 모델을 활용한 DeepMind의 AlphaFold2가 유명하다.
pLM은 파인튜닝을 통해 다양한 용도에 적용 가능하며 기존에 연구된 지식이 적은 배열에서는 pLM을 이용한 예측이 더 정확한 사례도 보고되고 있다. 배열 분석, 단백질 기능 예측, 단백질 기능 개량, 돌연변이 효과 예측, 기능성 단백질의 배열 생성 분야에서 연구가 진행되고 있으며, 매우 다양한 주제로 pLM 응용이 시도되고 있다.
다만, pLM은 실제 연구에 적용하기 위해서는 목표 영역에 맞는 독자적인 데이터를 준비해 파인튜닝 등을 통해 모델을 커스터마이징할 것이 요구된다.
파인튜닝은 상당한 전문적인 영역이기 때문에 퓨샷 프롬프팅(Few-Shot Prompting)과 같이 추가 학습이나 재학습 없이 AI에 특정한 성격을 부여하고 역할을 설정한 후 질문하는 방식을 적용할 수 있다.
화학산업은 연구개발 영역을 중심으로 LLM 활용을 더욱 확대할 것으로 예상된다. (윤우성 선임기자: yys@chemlocus.com)
<화학저널 2025년 08월 25일>
|