본문 바로가기

논문 리뷰

(3)
NExT-GPT: Any-to-Any Multimodal LLM by NExT++ Lab of <National University of Singapore> 1. Introduction우리의 세계는 본질적으로 multimodel이다. 사람들이 다른 감각 기관을 통해 이미지, 언어, 비디오, 소리 등을 인지하기 때문이다. 따라서 사람을 모방하기 위한 any-to-any 모델을 만들기 위한 노력이 계속되어왔고, 본 연구에서는 이전까지의 한계를 보완하기 위한 모델로 NExT-GPT를 제안한다. 이는 any-to-any MM-LLM으로 텍스트, 이미지, 비디오, 오디오 이 네 개의 방식 중 어느 조합으로도 input과 output을 다룰 수 있다. 아래 사진은 이 모델의 구조로, 세 개의 계층으로 구성된다.첫 번째 계층에서는 다양한 방식의 인풋을 받는 인코드를 배열한다. 이 인코더는 LLM이 이해할 수 있는 언어와 유사한 표현을 출력한다. 두 번째 계층에서는 이미 ..
LARGE LANGUAGE MODELS AS OPTIMIZERS by Google DeepMind 1. IntroductionOptimization(최적화)는 각 task에 따라 커스터마이즈되어야 하는 매우 중요한 단계이다. 본 연구는 Optimization by PROmpting(OPRO)를 제안하며, LLM을 옵티마이저로 활용하여 간단하고 효과적으로 최적화를 진행할 수 있는 방법이라고 소개한다. 최적화 문제를 프로그래밍된 solver를 이용하는 대신, 자연어로 최적화 문제를 묘사한 다음 problem 묘사와 이전에 찾은 solution으로부터 LLM이 새로운 solution을 만들어낼 수 있도록 하는 것이다.  최적화에서의 LLM의 잠재력을 보여주기 위해 본 연구에서는 먼저 선형 회귀와 외판원 문제를 적용해본다.(본 요약에서는 선형 회귀만 설명하겠다) 이후, LLM의 프롬프트 최적화 능력을 보여주..
Self-Rewarding Language Models by Meta AI 1. Introduction기존 LLM은 RLHF(Reinforcement Learning from Human Feedback)을 통해 성능을 향상시켜왔다. 사람의 선호도, 피드백을 통해 강화학습을 해온 것이다. 강화학습 알고리즘 중에도 기존에는 PPO를 사용하여 reward 모델이 필요했었으나, 최근에는 DPO를 이용하여 reward 모델도 필요 없이 human preferences를 직접적으로 이용할 수 있게 되고 있다. 본 연구에서는 인간에 의해 병목 현상이 발생할 수 있는 RLHF 대신, reward model과 LLM을 하나의 모델이 할 수 있도록 하는 방법을 연구했다.본 연구에서 소개하는 Self-Rewarding Language Model은 다음과 같다.step 1: Self-Instruct..