본문 바로가기
MLOps/MLOps Specialization

[Course 1] Week 3: Data Definition and Baseline - Overview

by Steve-Lee 2021. 6. 14.

얼마전 공원에서 찍은 사진입니다. 사진 한 장에 장소.시간.공간에 대한 전반적인 분위기가 담겨있는 것 같습니다

 

안녕하세요 Steve Lee입니다.

어느덧 Coursera의 MLOps Specialization 첫 번째 Course Introduction to Machine Learning in Production의 마지막 시간이 다가왔습니다. 벌써 마지막이라니...!

아쉬움은 잠시 미뤄두고 시작에 앞서 학습 목표 및 파트별 소주제를 살펴보도록 하겠습니다 🙌

 

본 포스팅은 Coursera의 MLOps 특화 과정을 학습하며 정리한 정리노트입니다.

 

 

Overview


This week is all about working with different data types and ensuring label consistency for classification problems. This leads to establishing a performance baseline for your model and discussing strategies to improve it given your time and resources constraints.

이번 주에는 다양한 데이터 타입으로 작업하고 분류 문제에 있어서 레이블 일관성을 보장하는 방법에 대해 집중합니다.

이를 통해 성능 기준(baseline)을 설정하고 주어진 시간과 자원의 제약조건 속에서 모델을 개선하기 위한 전략을 논의해보도록 하겠습니다.

 

학습 목표


  • List the questions you need to answer in the process of data definition.
  • Compare and contrast the types of data problems you need to solve for structured vs. unstructured and big vs. small data.
  • Explain why label consistency is important and how you can improve it
  • Explain why beating human level performance is not always indicative of success of an ML model.
  • Make a case for improving human level performance rather than beating it.
  • Identify how much training data you should gather given time and resource constraints.
  • Describe the key steps in a data pipeline.
  • Compare and contrast the proof of concept vs. production phases on an ML project.
  • Explain the importance of keeping track of data provenance and lineage.

 

  • 데이터 정의 단계에서 답할 필요가 있는 질문들을 나열합니다
  • structured data vs unstructured data, big vs small data에 대해 해결해야 하는 데이터 문제 종류들을 비교. 대조합니다
  • 레이블 일관성(label consistency)이 중요한 이유와 이를 개선할 수 있는 방법을 설명합니다
  • 인간 수준의 성능을 뛰어넘는 것이 항상 ML model 성공을 나타내는 것이 아닌 이유를 설명합니다
  • 인간 수준의 성과를 이기지 않고 향상하기 위한 사례를 만듭니다
  • 주어진 시간과 리소스 제약을 고려하여 얼마나 많은 훈련 데이터를 수집해야 하는지 식별합니다
  • 데이터 파이프라인의 주요 단계를 설명합니다
  • ML 프로젝트에서 개념 증명(proof of concept)과 생산 단계(production phase)를 비교. 대조합니다
  • 데이터 출처(data provenance) 및 계보(lineage)를 추적하는 것의 중요성을 설명합니다

 

파트별 주제 살펴보기


 

시작에 앞서

 

본격적으로 학습을 시작하기에 앞서 파트별 주제를 간단하게 살펴보도록 하겠습니다.

지난 2주는 파트별 주제를 살펴볼 여유도 없이 바쁘게 강의를 듣고 학습을 했던 것 같습니다. 돌아보니 무엇을 배웠는지 조금씩 가물가물 해지는 것 같습니다...ㅎㅎ  그래서 3주 차부터는 시작에 앞서 파트별 주제를 살펴보는 시간을 잠깐 가지려고 합니다.

 

Define Data and Establish Baseline


  • Why is data definition hard?
  • More label ambiguity examples
  • Major types of data problems
  • Small data and label consistency
  • Improving label consistency
  • Human level performance (HLP)
  • Rasing HLP

 

첫 번째 파트의 주제는 'Define Data and Establish Baseline'입니다.

왜 데이터를 정의하는 것이 어려운가에 대한 질문부터 label ambiguity examples, 데이터 문제들의 주요 사례들, 적은 데이터와 레이블 일관성, 레이블 일관성을 향상하는 방법, HLP, HLP을 올리는 방법 등 데이터 정의에서부터 베이스라인을 설정하기까지의 내용을 다루는 것 같습니다. 자세한 내용은 강의를 통해 확인하고 하나씩 살펴보도록 하겠습니다.

 

Label and Organize Data


  • Obtaining data
  • Data pipeline
  • Meta-data, data provenance and lineage
  • Balanced train/dev/test splits

 

다음 파트의 주제는 'Label and Organize Data'입니다.

데이터 획득, 데이터 파이프라인, 메타데이터, 데이터 출처, 계보(lineage), 균등한 train/dev/test 분할 등 데이터를 정렬하고 레이블링 하는 과정을 학습해 나갈 것 같습니다.

 

Scoping


  • What is scoping?
  • Scoping process
  • Diligence on feasibility and value
  • Diligence on value
  • Milestones and resourcing

 

마지막으로 Scoping입니다. 맨 처음 MLOps Overview부터 지금까지 Scoping을 정말 많이 들은 것 같습니다.

ML project lifecycle의 첫 단계, Scoping이 기억나시나요?

 

주어진 과제를 살펴보고 문제를 정의(Define project)하는 단계를 Scoping이라고 배웠습니다.

마지막 파트인 Scoping에서는 Scoping process와 함께 프로젝트를 정의하는 다양한 지식들을 배우게 되지 않을까 생각합니다.

 

Ungraded Lab


  • Data Labeling

3주 차 Ungraded Lab에서는 Data Labeling을 실습할 수 있는 것 같습니다. 데이터를 정의하고 베이스라인을 설정하고, 레이블링과 데이터 정리를 하는 데이터 엔지니어링을 경험할 수 있지 않을까 기대합니다.

 

LEGO~


이제 남은 것은 학습과 연습입니다.

MLOps Specialization Course의 첫 과정을 잘 마무리할 수 있도록 끝까지 최선을 다해보겠습니다.

감사합니다. Steve Lee였습니다.

댓글