CCS(Computer Chemistry System)가 의약, 화학, 기능성 소재 등 화학물질을 포함한 연구개발(R&D)을 지원하는 솔루션으로 각광받고 있다.
선진적인 기능성을 실현하거나 매력적인 상품을 제작하기 위해 소재 특성을 고려한 연구의 필요성이 높아지고 있기 때문이다.
특히, 분자구조가 중요한 의약품은 물론 나노소재 분야에서는 원자·분자 수준의 기능 발현이 개발 성공 여부를 좌우함에 따라 모델링&시뮬레이션(M&S) 기술 이용이 필수적인 요소로 부상하고 있다.
아울러 최근에는 AI(인공지능)를 이용해 혁신을 모색하는 움직임이 급속도로 확산되면서 AI 신약개발, 소재정보학(MI: Material Informatics)이 주목받고 있어 CCS 공급기업도 대응에 힘을 기울이고 있다.
AI, 심층학습 추론 근거 파악이 중요
CCS는 대상영역에 따라 크게 생명과학계와 소재과학계로 구분되며 시스템 종류에 따라서는 정보학계와 M&S계, 라이선스 종류에 따라서는 상용 소프트웨어와 오픈소스 소프트웨어(OSS), 시스템 운용형태에 따라서는 사내 서버나 PC에 직접 설치하는 On-Premise 타입과 외부 데이터센터를 이용하는 클라우드 타입으로 분류된다.
인터넷을 경유해 이용할 수 있는 데이터베이스 서비스는 학술문헌, 특허 등을 토대로 물질·소재의 분자구조 및 결정구조, 각종 실험데이터 등을 분류·정리해 게재한 것으로 용도에 따라 다양한 데이터베이스가 개발되고 있다.
특히, 최근에는 AI 및 기계학습이 급성장하면서 CCS 공급기업이 개최하는 관련 세미나 및 포럼이 인산인해를 이루고 있어 수요기업들이 CCS 분야에서 AI 활용을 본격화하기 위해 적극적으로 정보를 수집하고 있는 것으로 파악되고 있다.
AI는 실제로 CCS와 깊은 연관성이 있다.
1차 AI 열풍이 일어난 1960년대에는 스탠포드대학교 레더버그 박사가 1965년 개발한 덴드럴(Dendral)이 세계 최초의 전문가 시스템(ES)으로 불리기 시작했다. 덴드럴은 적외 스펙트럼으로부터 화학구조를 추측하는 시스템이다.
ES는 전문가가 지닌 노하우를 컴퓨터에 지식 베이스(KB)로 집약해 추론하는 시스템으로 1980년대 2차 AI 열풍을 견인했다.
그러나 전문적인 지식을 상세하게 KB화하는데 한계가 있고 언어화하기 어려운 지식도 많아 실용성을 충분히 확보하지 못한 채 연구가 중단됐다.
동물 인식에서 생명과학 연구개발 적용까지…
2012년 구글(Google)이 고양이를 인식하는 AI를 개발하면서 3차 열풍이 불기 시작했다.
사람이 고양이를 보고 왜 고양이로 인지할 수 있는지를 KB화해 ES를 구축하는 것은 불가능에 가까우나 구글은 AI와 심층학습을 이용해 인터넷에 있는 대량의 고양이 사진을 AI에게 학습시킴으로써 고양이를 자동으로 인식하는 기술을 개발했다.
AI 열풍은 현재까지도 사그라지지 않고 계속 가열되고 있으며 화상인식, 음성인식 등은 실생활에서 다양하게 활용되고 있다.
특히, AI의 시각은 이미 인간을 뛰어넘은 것으로 평가되고 있다.
그러나 일부에서는 구글의 AI가 이미지 속 무엇을 통해 고양이로 판단하는지 알 수 없는 등 근거를 파악할 수 없기 때문에 심층학습을 과학적으로 신뢰할 수 없다는 의견을 제기하고 있다.
이에 따라 추론 근거를 제시할 수 있는 AI에 대한 연구가 진행되고 있어 CCS 분야에서 AI 활용이 더욱 증가할 것으로 예상되고 있다.
최근에는 일본이 다양한 CCS 관련 프로젝트를 진행하고 있어 수요자들의 관심이 높아지고 있다.
MI에 대해서는 문부과학성이 정보통합형 물질·소재 개발 이니셔티브(MI2I), 경제산업성이 초첨단소재 초고속개발 기반기술 프로젝트(초초PJ)를 실시해 산업계의 관심을 불러일으켰으며 논문 및 학회 발표도 잇따르고 있다.
AI 신약개발 분야에서는 교토대학 등이 선도적으로 설립한 Life Intelligence Consortium(LINC)의 활동이 주목받고 있다.
구체적으로는 신약 R&D의 업스트림부터 다운스트림까지 세밀한 프로세스를 지원하는 AI를 개발해 최종적으로 관련된 AI를 모두 연결하겠다는 목표를 세우고 있다.
프로젝트들은 산학관 연계로 진행되고 있어 제약기업, 화학기업 등이 다수 참여하고 있다.
기존 플랫폼으로 AI 대응 본격화
아직까지는 무언가 학습된 AI를 제공하는 CCS 공급기업이 없어 수요기업은 다양한 프로젝트에서 개발된 AI 툴을 이용해 자체적으로 AI를 개발할 것이 요구되고 있으며 해외기업도 활용 가능한 것으로 파악되고 있다.
AI 분석에 특화된 CCS 공급기업은 850사에 달하는 것으로 파악되고 있다.
대부분 일반 AI 개발기업으로 화학, 의약 등에 대한 전문지식은 없으나 AI 신약개발 관련기술을 보유한 스타트업으로는 Afecta Pharmaceuticals Atomwise, Benevolent AI, Ber Health, Biovista, BioXcel, Cloud Pharmaceuticals, e Therapeutics, Edelris, Evince, Biosciences, Exscientia, Insilico Medicine, Mind the Byte, NuMedii, Numerate, Recursion Pharmaceuticals, Relay Therapeutics, Verge, Resonant Therapeutics, Sparrho, Synthace, twoXAR, Synthetic Gestalt 등이 있다.
기존 CCS 공급기업들도 AI에 대한 대응을 시작했다.
우선 전자실험노트는 주로 신약 개발에 사용됐으나 MI 연구의 데이터 수집기반으로 최적화된 것으로 평가됨에 따라 수요가 증가하고 있다.
후지츠(Fujitsu)가 MI 연구용에 적극 대응하고 있으며 화학기업에 대한 PerkinElmer의 E-Notebook 도입실적이 꾸준히 증가하고 있다.
전자노트를 제공하는 Dotmatics, Dassault Systemes도 최근 화학기업으로부터 높은 관심을 받고 있는 것으로 알려졌다.
기존 CCS 플랫폼에서 기계학습과 심층학습을 실행할 수 있도록 개선하는 움직임도 두드러지고 있다.
Schrodinger는 연구 콜라보레이션 환경기반인 Live Design으로 스탠포드대학교와 공동으로 개발한 심층학습 기술 DeepChem을 이용해 AI 개발이 가능한 시스템을 구축할 계획이며, JSOL은 소재 물성 해석 소프트웨어 J-OCTA로 시뮬레이션 뿐만 아니라 기계학습까지 가능하도록 기능을 강화할 방침이다.
클라우드형 전자노트를 제공하고 있는 Arxspan은 클라우드에 있는 데이터를 꺼내 사내 데이터와 함께 기계학습에 이용하고 싶다는 수요기업의 의견에 대응해 새로운 기능을 개발했다.
AdvanceSoft는 Advance/NanoLabo를 통해 매사추세츠공과대학교가 공개한 MI용 소재 데이터베이스 Materials Project에 접속해 구조를 검색하는 기능을 제공하고 있다.
데이터 축적 및 소재 물성 예측 시도
MI 분야는 기계학습에 이용할 수 있는 데이터 자체가 적어 계산화학에 따른 시뮬레이션 결과를 학습데이터로 사용하려는 움직임이 나타나고 있다.
그러나 소재 시뮬레이션은 대상계열이 커 계산에 상당시간이 소요되는 문제점이 있다.
이에 따라 Molsis는 미국 Materials Design이 개발한 MedeA-HT를 소개하기 시작했다.
MedeA-HT는 여러 모델구조에 동일조건을 적용해 계산한 결과를 플로차트에 따라 병렬 처리함으로써 대량의 데이터를 생성할 수 있는 프로그램이다.
Itochu Techno-Solutions는 클라우드의 고속계산 환경을 이용해 MI용 계산을 가속화할 목적으로 미국 Exabyte의 Exabyte.io를 제공하고 있다.
계산에 상당시간이 소요되는 문제를 해결하기 위해 아예 계산하지 않고 계산 결과를 AI로 예측하려는 시도도 등장하고 있다.
Schrodinger는 밀도 범함수(DFT) 계산 결과를 학습시킴으로써 계산 결과를 예측하는 AI를 개발했으며 실제 DFT 계산보다 1만배 가량 빠른 속도로 결과를 얻을 수 있는 것으로 알려졌다.
일본 산업기술종합연구소와 도쿄대학 생산기술연구소는 원자화 에너지를 0.01초에 오차범위 0.01eV 이하의 정밀도로 결과를 예측하는 시스템을 개발했다. 정밀도는 제1원리 계산법과 동일하나 시간은 1만배 빠른 것으로 파악되고 있다.
현재는 물질·소재의 구조나 조성으로부터 물성을 예측하는 계산이 이루어지고 있으나 MI 및 AI 신약 개발 분야에서는 최종적인 목표가 역문제에 대한 답이기 때문에 바람직한 활성과 소재 특성을 지닌 구조 및 조성을 AI로 예측할 수 있는 기술이 요구되고 있다.