• 앱다운로드받기

    에누리 가격비교

    모바일로 더욱 특별해진 가격비교!

    QR코드 스캔
    QR코드
    앱 다운로드
    구글 PLAY스토어
    애플 스토어
    다운로드 SMS 보내기
    SMS보내기
    앱 설치페이지 주소를 무료문자로 발송해 드립니다.
    입력하신 번호는 저장되지 않습니다.
  • 더보기
  • 누구나 쉽게 모델 자가 진단한다, 업스테이지 노코드 LLM 평가 플랫폼 이벨버스(Evalverse) 전면 공개

    • 매일경제 로고

    • 2024-04-03

    • 조회 : 5,779

    • 댓글 : 0

    비밀번호 입력 닫기

    비밀번호를 입력하세요

    확인

     

    이제 누구나 거대언어모델(LLM)을 자체적으로 평가하고 테스트해 볼 수 있다.  

     


     

    업스테이지(대표 김성훈)는 자사가 개발한 노코드 LLM 종합 평가 플랫폼 ‘이벨버스(Evalverse)’를 무료로 공개한다고 3일 밝혔다. 오픈소스 형태로 깃허브(GitHub)에 공개돼 누구나 쉽게 활용할 수 있다. 

     


     

    통상 LLM 성능 평가에는 특정 데이터셋을 기준으로 응답 정확도를 기록한 ‘벤치마크’ 지표를 활용한다. 모델의 추론, 상식, 언어 이해 능력 등 6가지 부문을 측정하는 허깅페이스 ‘H6’ 지표를 포함, 대화 능력 지표 ‘MT-bench’, 감성 평가 지표 ‘EQ-bench’, 및 지시 이행 능력 지표 ‘IFEval’ 등이 주요 벤치마크로 꼽힌다.  

     


     

    이에 업스테이지는 이러한 주요 벤치마크를 한 군데 통합해, 언어모델 성능을 종합적으로 테스트할 수 있는 자체 평가 플랫폼을 개발했다. 기존에는 특정 벤치마크를 테스트하려면 해당 플랫폼에 모델을 제출해야 하는 번거로움이 있었지만, 이벨버스를 활용하면 여러 벤치마크 테스트를 동시에 진행할 수 있다.  

     


     

    업스테이지 이벨버스는 업무용 메신저 ‘슬랙’에 API 챗봇 형태로 연동해 사용성을 확대했다. 특히, 슬랙 안에서 이벨버스 챗봇과 1:1 대화(DM)를 통해 모든 평가 과정을 간소화한 것이 특징이다. 이용자들은 “호출”, “평가” 등 채팅창에 단 2개의 명령어만 입력하면 바로 원하는 모델을 호출해 테스트할 수 있으며, 벤치마크 별 점수에 대한 종합 리포트까지 확인할 수 있어 모델 간 비교 평가도 용이하다. 

     


     

    이번 업스테이지의 이벨버스 오픈소스 공개는 생성형 AI 생태계의 발전과 상생을 위한 노력의 일환이다. 업스테이지는 한국어 LLM 평가 표준을 제시한 ‘Open Ko-LLM 리더보드’ 구축, 복잡한 데이터 전처리 기술을 전면 공개한 ‘데이터버스(Dataverse)’에 이어 평가 플랫폼까지 전면 공개함으로써 독보적인 오픈소스 세계관을 완성했다. 

     


     

    업스테이지 김성훈 대표는 “누구나 자신이 개발한 LLM을 쉽게 테스트해 볼 수 있는 이벨버스 플랫폼을 무료로 공개하게 되어 기쁘다”라며 “앞으로 업스테이지는 글로벌 생성형 AI 시장의 선두주자로서 LLM 생태계 발전과 확산을 위해 다양한 노력을 지속해 나갈 것”이라고 밝혔다.

     



    권경욱 기자

    신고

    뉴스 인기 게시글

    전체 댓글

    0/1,000

    등록

    디지털/가전 뉴스의 다른 글

    로그인 하고
    다양한 혜택을 받으세요!

    로그인 하고 에누리에서 제공하는
    다양한 혜택을 받으세요!

    에누리TV

    더보기

    커뮤니티 인기글

    더보기

    BEST 구매가이드

    더보기

    사용자 리뷰

    더보기

    투데이 HOT CLIP

    더보기
      이전글
      다음글