
CCS(Computer Chemistry System)는 인공지능(AI)과 기계학습 이용이 확대되며 용도가 다양화되고 있다.
기계학습은 넓은 의미에서 오래전부터 있던 개념이나 1990년대 생체 내 의약품의 흡수‧대사 정도와 독성을 예측하기 위한 관련 모델을 개발한 이래 응용을 본격화하며 현재는 의약품 분자별 특성 뿐만 아니라 고기능 소재 물성을 예측할 때에도 사용하고 있다.
최근 등장한 생성형 AI와 대규모 언어 모델(LLM) 등도 기계학습과 함께 신소재 개발에 활용할 수 있을 것으로 기대를 모으고 있다.
CCS 분야는 생성형 AI 활용에 적극 나서고 있지 않으나 최근 일본과 미국이 잇달아 생성형 AI 및 LLM을 화학연구에 적용함에 따라 화학소재 개발에도 응용이 가능할 것으로 예상된다.
생성형 AI, 심층학습 활용해 응답 생성
생성형 AI의 핵심은 흔히 트랜스포머로 알려진 학습모델로 2017년 구글(Google)이 발표한 논문에서 최초로 등장했다.
트랜스포머는 대량의 데이터를 높은 정확도로 대규모 모델화할 수 있고 병렬처리를 사용해 고속으로 데이터 학습을 실시하며 범용성이 높아 다양한 데이터를 모델화할 수 있다는 점에서 주목받았으며 현재 많은 기반모델이 트랜스포머의 층을 적층한 모델 구조를 채용하고 있다.
이후 Open AI가 GPT로 개발을 계속해 2019년 2월 GPT-2, 2020년 6월 GPT-3을 개발한데 이어 2022년 11월 GPT-3.5에 해당하면서 일반 사용자가 사용할 수 있도록 대화형 인터페이스를 갖춘 Chat GPT를 출시했고 2023년 3월 GPT-4까지 공개하며 생성형 AI는 다양한 분야에서 적용이 시작되고 있다.
생성형 AI는 API(어플리케이션 프로그래밍 인터페이스)를 갖추었으며 추론 도중에 외부 프로그램을 불러와 데이터베이스를 검색하거나 계산을 실시하고 결과를 바탕으로 추론을 수정할 수 있다.
기본적으로는 입력이 주어지면 이어지는 부분을 통계적으로 예측함으로써 응답을 생성하거나 사전에 대량의 데이터를 바탕으로 연결관게를 학습시킨 심층학습 모델을 사용해 응답하고 있다.
사용자와 대화하는 방식으로 컨텐츠를 생성하는 AI로 문장, 음성, 사진, 영상, 프로그램 코드 등을 표현할 수 있으며 개인의 호기심 충족 뿐만 아니라 기업활동에서도 활용할 여지가 충분한 것으로 판단된다.
2024년 GPT-5로 업그레이드될 예정인 가운데 GPT 개발기업인 Open AI 뿐만 아니라 다양한 관련기업이 생성형 AI 및 LLM 프로젝트를 진행하고 있어 경쟁이 치열해질 것으로 예상된다.
일본, 화학소재 연구에 생성형 AI 활용
일본은 화학소재 연구를 위해 생성형 AI 활용에 나설 예정이다.
일본 정부는 생성형 AI 및 LLM을 과학연구에 활용할 수 있을지 검증하기 위해 AI 전략회의를 열었으며, 일본 학술회의를 통해 연구 자동화와 AI가 개척하는 과학과 사회 심포지엄을 열고 문부과학성의 AI for Science 구상을 소개했다.
이밖에 이화학연구소 주도 아래 과학 기반모델 구축을 도모하고 있으며 2024년까지 약 85억엔의 예산을 필요로 하는 것으로 알려졌다.
도쿄공업대학(Tokyo Tech) 물질이공학원 소재계 하타케야마 칸 조교수와 하야카와 테루아키 교수 연구팀은 GPT-4를 화학연구 모델태스크에 적용해 잠재성을 검증했다.
연구 결과 생성형 AI는 실제 화학연구에서 유용한 지식과 통찰을 제공할 수 있으며 AI를 활용하는 새로운 연구방법이나 프로세스가 창출될 가능성이 높은 것으로 판단했다.
GPT-4는 정치‧경제‧역사‧문화 관련 지식을 폭넓게 갖추고 있으나 Open AI가 GPT-4 버전부터 기술적 상세 사항이나 학습내용을 일절 공개하지 않아 범용성이 높은 대신 전문지식은 부족할 것이라는 우려가 제기됐으나 연구팀은 GPT-4가 상당한 수준의 화학 관련 전문지식을 갖추고 있으며 화학자다운 사고방식을 도출하기도 했다고 언급했다.
연구팀은 GPT-4에게 연구를 수행할 때 인식‧분석‧예측‧계획 등 4개의 영역 모델태스크를 부여해 GPT-4의 능력을 확인한 것으로 파악된다.
도쿄공업대학, 분석‧예측에 GPT-4 활용
도쿄공업대학은 GPT-4가 상당한 능력을 가지고 있다고 평가했다.
GPT-4는 대학원에서 사용하는 교재 수준으로 화학적 지식을 가지고 있으며 페놀(Phenol)로 아세트아미노펜을 합성하라는 명령에 시약 사용법을 포함해 정확한 합성단계를 답했다.
다만, 교재에 없는 화합물에 대한 질문에는 화학적으로 불가능한 단계를 언급했고 아세트아미노펜의 합성단계를 그림으로 표현하라는 명령에 제대로 응답하지 못함으로써 최신 논문을 학습하지 않았거나 일부 학습은 부족한 것으로 평가받았다.
화학적 사상 인식과 관련해서도 고등학생-학부생 수준의 응답을 했으나 화학명을 SMILES 표기로 변환하라는 명령은 대부분 제대로 수행한 반면, 역방향에서 고전해 학습 부족을 지적받았다.
그러나 분석, 예측 등 데이터를 취급하는 분야에서는 높은 평가를 받았다.
우선, 온도와 압력 데이터를 주고 끓는점을 추정하라는 명령에 이론식을 세우고 외부에서 Wolfram 툴을 끌어와 실제 계산까지 실시해 수치를 제시한 것으로 파악된다.
또 특정 화합물의 산화환원 전위를 표시하고 화학수식했을 때 전위가 어떻게 바뀌는지 예측하도록 했을 때에도 정확한 예측치를 제시했다.
뿐만 아니라 전자흡인성을 가진 시아노기가 부가돼 전위가 다소 높아질 가능성이 있다는 근거를 제시했으나 실제 값은 문헌 혹은 실험을 통해 확인하라는 응답을 한 것으로 알려졌다.
LLM만의 강점으로 베이즈 최적화 압도
최근 MI(Materials Informatics) 도입이 진행되며 실험조건을 최적화하기 위해 실험내용을 제시해주는 베이즈 최적화(Bayesian Optimization)가 주목받고 있다.
도쿄공업대학 하타케야마 칸 조교수 연구팀은 GPT-4에게 베이즈 최적화를 시킨 결과 상당한 범용성을 확인한 것으로 알려졌다.
반응계, 실험조건 파라미터, 조정범위 등을 정의하고 최고농도의 생성물을 얻고 싶다는 목적을 설정한 후 실험해야 하는 반응조건을 GPT-4에게 묻자 아직 데이터가 없기 때문에 출발물질의 다른 농도 및 다른 시간 조건에서 반응을 시험한 후 결과를 입력해 달라고 답했다.
먼저 구체적인 조건을 제안한 것으로, 이후 실험결과를 입력하자 화학적 고찰을 바탕으로 출발물질만의 농도를 높여 반응시간을 단축할 수 있는 아이디어를 도출했다.
연구팀은 GPT-4의 아이디어에 따라 실험을 진행했고 수차례 시행착오 후 최적화된 값을 얻을 수 있었다.
베이즈 최적화는 종종 이해하기 어려운 제안을 할 때도 있으나 결과적으로는 지름길이라는 설이 정설로 자리 잡고 있다.
그러나 연구팀은 순수하게 데이터 과학적인 베이즈 최적화와 달리 GPT-4가 수치 의미를 화학적 관점에서 추리했고 GPT-4가 제시한 반응조건 아이디어의 합리성이 높았다는 점에 LLM의 강점이 있다고 평가했다.
이어 하야카와 테루아키 교수 연구팀은 고분자화학 테스트를 통해 GPT-4가 화학적 지식을 갖추었다는 것을 규명했다.
고분자 물성 예측은 설명변수인 기술자(Descriptor)가 많고 기계학습으로 예측모델을 구축해도 내용을 이해하기 어려운 상황이 적지 않으나 연구팀은 폴리머 분자 구조에서 굴절률 예측에 기여하는 설명변수를 선택하는 과제를 냈으며 GPT-4는 이론식으로 로렌츠 방정식을 제안하며 관련 설명변수를 선택한 후 통계적으로 유의미한 변수를 선택했다.
일반 기계학습은 화학자가 알기 어려운 범용성이 낮은 파라미터를 선택할 때가 많으나 GPT-4는 실제로 의미를 이해할 수 있는 범용성을 갖춘 파라미터를 도출함으로써 화학실험에 적합한 로봇을 개발할 수 있다는 가능성을 이끌어냈다.
저작권 문제에 투자 비용 막대…
도쿄공업대학 연구팀은 LLM이 실험계를 정확히 제어하는 자동합성으로 속인적 오류를 없애고 재현성이 높은 실험을 실현할 것이라고 기대하고 있다.
다만, GPT-4를 포함해 생성형 AI를 실제 화학연구에 사용하기 위해서는 아직 넘어야 할 장벽이 많은 것으로 파악된다. 우선 생성형 AI 및 LLM가 보다 전문적인 지식을 갖추고 실제 연구에 기여하는 계산을 실시하기 위해서는 각종 서적, 논문을 학습해야 하나 저작권 문제가 걸림돌이 되고 있다.
도쿄공업대학 연구팀은 공개 논문을 LLM에게 학습시키고 있으나 최소 1년에서 최대 3년은 소요되는 작업이며 실제로 처음부터 LLM을 개발할 때에는 최소 150억엔에 달하는 비용이 소요되는 것으로 추산됨에 따라 개발장벽이 상당이 높은 것으로 평가된다.
일본은 다수의 프로젝트를 통해 독자적으로 LLM 개발을 진행하고 있으나 Open AI의 GPT-3에 비하면 10분의 1 수준이며, 현재까지 GPT-3 수준에 도달한 곳은 미국과 중국, 아랍에미레이트(UAE) 등 극소수 국가에 불과한 것으로 알려졌다.
GPT-4는 파라미터 수가 GPT-3의 10배이기 때문에 투자 비용 및 시간이 더 클 것으로 예상되며 화학에 특화된 LLM을 구축하는 작업은 국가 차원에서 진행해야 하는 프로젝트로 파악되고 있다.
미국, 2024년 자동화 실험실 개설
미국은 온라인에서 모르는 화학반응을 배우고 로봇에게 명령까지 하는 AI 시스템을 개발했다.
미국 카네기멜런(Carnegie Mellon)대학교의 게이브 고메스 교수 연구팀은 2023년 12월21일 국제학술지 네이처(Nature)에 코사이언티스트(Coscientist)라는 화학실험 AI 개발 결과를 발표했다.
코사이언티스트는 Open AI의 GPT-4와 안트로픽(Anthropic)의 클로드(Claude) 같은 LLM을 기반으로 만들었으며 인간 화학자의 일하는 방식과 비슷하게 온라인에서 물질 정보, 실험 관련 기술 매뉴얼, 물질 합성 정보 등 전문 정보를 조사하고 결과에 따라 실험을 계획할 수 있다.
연구진은 단순히 실험방법을 설계하는 AI를 넘어 자동화 화학 실험실에 연동시켰다.
자동화 실험실은 로봇을 이용해 용액을 제조, 혼합, 분석하는 설비이며 로봇을 이용한 실험 자동화는 단순 작업 감소를 통한 연구 효율화, 실험 정확성 제고, 원거리 실험, 위험 물질 노출 감소 등의 장점이 있다.
그러나 자동화 실험실을 사용하려면 제어 코드 작성이 필요할 때가 있어 활용 장벽으로 작용하기도 한다.
코사이언티스트는 자동화 실험실 매뉴얼을 분석해 설계된 실험을 수행하는 코드를 작성하는데 성공했고 코드로 만들어진 실험 계획을 자동화 실험실로 전송해 로봇 작동까지 성공했다.
연구팀은 코사이언티스트에 스즈키 반응과 소노가시라 반응을 수행하라는 명령을 입력해 성능 검증에 나섰다. 1970년대에 개발된 스즈키 및 소노가시라 반응은 팔라듐(Palladium) 촉매를 이용해 유기분자 사이의 결합을 변경하며 의약품, OLED(Organic Light Emitting Diode)용 유기 반도체 생산에 널리 사용되고 있다.
코사이언티스트는 위키피디아, 미국 화학회 등의 자료와 각종 학술 논문을 검색해 실험계획을 4분 안에 세웠고 코드에 일부 문제가 있었으나 코사이언티스트가 문제를 발견하고 기술 매뉴얼을 다시 참조해 코드를 수정한 것으로 알려졌다.
연구팀은 2024년 초 신규 개발한 AI 시스템을 바탕으로 조만간 원격 운영실을 열 예정이다. (강윤화 책임기자: kyh@chemlocus.com)