기업은 새로운 아이디어를 발굴하고 개발자와 비개발자 모두의 생산성을 높이는 생성 AI의 힘을 빠르게 인식했습니다. 그러나 민감하고 독점적인 데이터를 공개적으로 호스팅되는 LLM(대형 언어 모델)으로 푸시하면 보안, 개인 정보 보호 및 거버넌스에 심각한 위험이 발생합니다. 기업은 이러한 강력한 신기술의 이점을 누리기 전에 먼저 이러한 위험을 해결해야 합니다.
IDC에 따르면 기업은 LLM이 프롬프트에서 “학습”하여 유사한 프롬프트를 입력하는 다른 기업에 독점 정보를 공개할 수 있다는 정당한 우려를 갖고 있습니다. 기업은 또한 공유하는 민감한 데이터가 온라인에 저장되어 해커에게 노출되거나 실수로 공개될 수 있다는 점을 우려합니다.
따라서 공개적으로 호스팅되는 LLM에 데이터와 프롬프트를 제공하는 것은 대부분의 기업, 특히 규제된 공간에서 운영되는 기업에게는 시작이 아닙니다. 그렇다면 기업은 어떻게 위험을 충분히 완화하면서 LLM에서 가치를 추출할 수 있습니까?
기존 보안 및 거버넌스 경계 내에서 작업
데이터를 LLM으로 보내는 대신 LLM을 데이터로 가져오세요. 이는 대부분의 기업이 혁신의 필요성과 고객 PII 및 기타 민감한 데이터를 안전하게 유지하는 중요성 사이의 균형을 맞추기 위해 사용하는 모델입니다. 대부분의 대기업은 이미 데이터에 대해 강력한 보안 및 거버넌스 경계를 유지하고 있으며 보호된 환경 내에서 LLM을 호스팅하고 배포해야 합니다. 이를 통해 데이터 팀은 LLM을 추가로 개발하고 사용자 정의할 수 있으며 직원은 조직의 기존 보안 경계 내에서 LLM과 상호 작용할 수 있습니다.
강력한 AI 전략을 위해서는 먼저 강력한 데이터 전략이 필요합니다. 이는 사일로를 제거하고 팀이 강력한 보안 및 거버넌스 태세 내에서 필요한 데이터에 액세스할 수 있도록 하는 간단하고 일관된 정책을 수립하는 것을 의미합니다. 최종 목표는 안전하고 관리되는 환경 내에서 LLM과 함께 사용하기 위해 쉽게 액세스할 수 있는 실행 가능하고 신뢰할 수 있는 데이터를 확보하는 것입니다.
도메인별 LLM 구축
전체 웹에서 교육을 받은 LLM은 개인 정보 보호 문제 그 이상을 제시합니다. 그들은 “환각” 및 기타 부정확한 경향이 있으며 편견을 재현하고 비즈니스에 추가 위험을 초래하는 공격적인 반응을 생성할 수 있습니다. 또한 기본 LLM은 조직의 내부 시스템 및 데이터에 노출되지 않았습니다. 즉, 비즈니스, 고객, 심지어는 업계와 관련된 질문에 답할 수 없습니다.
답은 모델을 확장하고 사용자 정의하여 자신의 비즈니스를 스마트하게 만드는 것입니다. ChatGPT와 같은 호스팅 모델이 가장 많은 관심을 받았지만, Hugging Face의 StarCoder 및 Stability AI의 StableLM과 같은 오픈 소스 모델을 포함하여 기업이 방화벽 뒤에서 다운로드, 사용자 정의 및 사용할 수 있는 LLM 목록이 점점 늘어나고 있습니다. 전체 웹에서 기본 모델을 조정하려면 막대한 양의 데이터와 컴퓨팅 능력이 필요하지만, IDC는 “생성 모델이 훈련되면 훨씬 적은 데이터로 특정 콘텐츠 도메인에 맞게 ‘미세 조정’될 수 있다”고 지적합니다.
LLM이 유용하기 위해 방대할 필요는 없습니다. “가비지 인, 쓰레기 아웃”은 모든 AI 모델에 적용되며, 기업은 신뢰할 수 있고 필요한 통찰력을 제공할 내부 데이터를 사용하여 모델을 맞춤화해야 합니다. 직원들은 LLM에게 키슈 만드는 방법이나 아버지날 선물 아이디어를 물어볼 필요가 없을 것입니다. 그러나 그들은 북서부 지역의 매출이나 특정 고객의 계약에 포함된 혜택에 대해 질문하고 싶어할 수도 있습니다. 이러한 답은 안전하고 관리되는 환경에서 자신의 데이터에 대한 LLM을 조정함으로써 나올 것입니다.
더 높은 품질의 결과 외에도 조직에 맞게 LLM을 최적화하면 리소스 요구 사항을 줄이는 데 도움이 될 수 있습니다. 기업의 특정 사용 사례를 대상으로 하는 소규모 모델은 범용 사용 사례 또는 다양한 수직 및 산업 전반의 다양한 기업 사용 사례를 위해 구축된 모델보다 컴퓨팅 성능과 메모리 크기가 덜 필요한 경향이 있습니다. LLM을 조직의 사용 사례에 더욱 집중적으로 적용하면 LLM을 보다 비용 효율적이고 효율적인 방식으로 운영하는 데 도움이 됩니다.
멀티모달 AI를 위한 표면 비정형 데이터
내부 시스템 및 데이터에 대한 모델을 조정하려면 해당 목적에 유용할 수 있는 모든 정보에 액세스해야 하며, 이 중 대부분은 텍스트 이외의 형식으로 저장됩니다. 이메일, 이미지, 계약서, 교육 비디오 등 회사 데이터를 포함해 전 세계 데이터의 약 80%가 구조화되지 않았습니다.
이를 위해서는 구조화되지 않은 소스에서 정보를 추출하고 이를 데이터 과학자가 사용할 수 있도록 하는 자연어 처리와 같은 기술이 필요합니다. 이를 통해 다양한 유형의 데이터 간의 관계를 파악하고 비즈니스에 대한 이러한 통찰력을 표면화할 수 있는 다중 모드 AI 모델을 구축 및 교육할 수 있습니다.
신중하면서도 신중하게 진행하세요.
이는 빠르게 변화하는 영역이므로 기업은 생성 AI에 어떤 접근 방식을 취하더라도 주의를 기울여야 합니다. 이는 그들이 사용하는 모델과 서비스에 대한 세부 정보를 읽고 그들이 제공하는 모델에 대해 명시적인 보증을 제공하는 평판이 좋은 공급업체와 협력하는 것을 의미합니다. 그러나 이는 기업이 가만히 있을 수 없는 영역이며, 모든 기업은 AI가 산업을 어떻게 혁신할 수 있는지 탐구해야 합니다. 위험과 보상 사이에는 균형을 맞춰야 하며, 생성 AI 모델을 데이터에 가깝게 가져오고 기존 보안 경계 내에서 작업하면 이 새로운 기술이 제공하는 기회를 얻을 가능성이 더 높아집니다.
Torsten Grabs는 Snowflake의 제품 관리 부문 수석 이사입니다..