Motivation - Why did I start MLOps?

Before we start it...

학습 동기에 대해 조금만 풀자면... 현재 직장에서 Data Specialist로서 업무를 시작하기 앞서 다양한 Training을 받고 있습니다. Data Engineering을 위한 Spark부터 AWS SageMaker, AWS Step Functions, MLflow을 활용한 MLOps까지... 이 중 MLOps는 흥미로운 경험으로 다가왔습니다.

이전에 Naver Deview, NDC, 기타 컨퍼런스 등을 통해 MLOps라는 말만 들어봤을뿐 실제로는 어떤 프로세스로 진행되는지 알지 못했습니다. (제게 MLOps는 마치 머신러닝, 딥러닝의 블랙박스와도 같았습니다) 그런데 우연히 MLOps 교육을 듣게 되었고 해당 코스들을 하나씩 밟아가면서 그 매력에 조금씩 빠져들고 있는 것 같습니다...!

Data-Centric Approach with MLOps

한편... 2021년 Machie Learning 학계를 주도하는 Andrew Ng 교수님께서 Machine Learning Community에 한 패러다임을 제시하셨습니다.

“If 80 percent of our work is data preparation, then ensuring data quality is the important work of a machine learning team.”

더이상 머신러닝 모델 중심이 아닌 데이터 중심의 머신러닝 학습이 필요하다는 주장이었습니다. 그리고 이는 MLOPS의 필요성으로 이어지게 됩니다.

"많은 문제에 대해 코드를 개선하는 것뿐만 아니라 체계적인 방식으로 데이터를 개선하는 방향이 필요합니다"

기존 소프트웨어는 코드로 구동되는 반면 AI 시스템은 코드(모델 + 알고리즘)와 데이터(Data)를 사용하여 구축됩니다. 여기에 비밀이 있습니다.

AI 시스템이 제대로 작동하지 않을 시에 대부분의 팀이 본능적으로 코드를 개선하려고 합니다. 하지만 실제 많은 애플리케이션의 경우 데이터를 개선하는 것이 보다 효과적인 것입니다.

또한 Andrew Ng교수님께서는 ML을 효율적으로 배포하는 데 도움이되는 몇가지 규칙을 제안해 주셨습니다.

MLOps의 가장 중요한 작업은 고품질 데이터를 제공하는 것입니다.

라벨링 일관성이 핵심입니다. 예를 들어 라벨러가 bounding box를 사용하는 방식을 확인합니다. 라벨링에는 여러 가지 방법이있을 수 있으며, 그 자체로 좋더라도 일관성이 없으면 결과가 저하 될 수 있습니다.

기본 모델의 데이터 품질을 체계적으로 개선하는 것이 저품질 데이터로 최신 모델을 쫓는 것보다 낫습니다.

훈련 중 오류가 발생하면 데이터 중심 접근 방식을 취하는 것이 낫습니다.

데이터 중심뷰(Data Centric View)를 사용하면 더 작은 데이터 세트 (예 : 10,000 개 미만)의 문제를 개선 할 여지가 많습니다.

더 작은 데이터 세트로 작업 할 때 데이터 품질을 높이기위한 도구와 서비스가 중요합니다.

※ 보다 자세한 내용은 Big Data To Good Data: Andrew Ng Urges ML Community To Be More Data-Centric And Less Model-Centric 에서 확인하실 수 있습니다.

So?

개인적으로 업무를 진행하는 데 있어 필요성 + MLOps라는 패러다임의 본격화에 따라 새로운 여정을 시작해보려고 합니다.

시작은 Andrew Ng의 Coursera 강의를 통해 시작하게 되었습니다.

일정을 유동적으로 조정할 수 있지만 학습의 흐름이 이어질 수 있도로 주 단위로 학습한 내용을 정리하여 공유할 예정입니다.

※ 해당 Couse에 대한 자세한 내용은 Introduction to Machine Learning in Production에서 확인하실 수 있습니다.

이상 Steve Lee였습니다.

감사합니다

저작자표시 비영리 (새창열림)

'MLOps > MLOps Specialization' 카테고리의 다른 글

[Course 1] Week 3: Data Definition and Baseline I - Define Data and Establish Baseline (0)	2021.06.25
[Course 1] Week 3: Data Definition and Baseline - Overview (0)	2021.06.14
[Course 1] Week 2 - Summary Note: Select and Train a Model (0)	2021.06.14
[Course 1] Week 1 - Summary Note: Overview of the ML Lifecycle and Deployment (0)	2021.06.06

Steve-Lee's Deep Insight

Motivation - Why did I start MLOps?

Before we start it...

Data-Centric Approach with MLOps

So?

'MLOps > MLOps Specialization' 카테고리의 다른 글

댓글

티스토리툴바

Motivation - Why did I start MLOps?

Before we start it...

Data-Centric Approach with MLOps

So?

'MLOps > MLOps Specialization' 카테고리의 다른 글

관련글

댓글

티스토리툴바