Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

🎯파인튜닝 데이터셋 수집 및 정제 | 실전 데이터 파이프라인 – Module 1. Week 1. Lesson 4.

Автор: Deep Nexus One

Загружено: 2025-10-22

Просмотров: 53

Описание:

안녕하세요! LLM 설계자 육성 과정 Silver Track의 Week 1 Lesson 4입니다. 이번 영상에서는 **고품질 파인튜닝 데이터를 수집하고 정제하는 실전 파이프라인**을 배웁니다!

"좋은 데이터 없이는 좋은 모델도 없다" - 데이터 수집부터 정제, 포맷팅까지 전 과정을 실습과 함께 마스터하세요!

---

📚 이번 강의에서 배울 내용

• 데이터 수집 3가지 전략 (크롤링/공개데이터셋/합성)
• 웹 크롤링 실전 (BeautifulSoup, Scrapy)
• 공개 데이터셋 활용 (Hugging Face, AI Hub)
• 데이터 정제 (중복 제거, 노이즈 필터링)
• Instruction-Response 포맷팅
• Train/Validation/Test 분할
• 데이터 품질 검증 자동화

---

⏰ 타임스탬프

00:00 인트로: 데이터 파이프라인 전체 플로우
01:07 Section 1. 데이터 수집 전략 3가지
02:13 Section 2. 합성 데이터 생성
03:46 Section 3. 자동 정제 파이프라인
04:58 Section 4. 품질 검증 자동화
05:47 Section 5. 데이터셋 버전 관리

---

🔗 학습 자료 링크

🎯 전체 과정: https://hermes.deepnexusone.com/silver
📖 강의 자료: https://hermes.deepnexusone.com/resou...
📂 실습 코드:
💬 커뮤니티:

---

🎓 이 강의는 이런 분들께 추천합니다

✅ 파인튜닝 데이터를 어디서 구할지 막막한 분
✅ 크롤링한 데이터가 엉망이어서 고민하는 분
✅ 데이터 정제 프로세스를 체계화하고 싶은 분
✅ 포맷팅에서 자주 실수하는 분

---

💡 데이터 수집 3가지 전략

1. 웹 크롤링
**장점**: 최신 데이터, 특정 도메인 타겟팅
**단점**: 법적 리스크, 노이즈 많음

*주의사항*
robots.txt 확인 필수
저작권 및 이용약관 준수
Rate Limiting (과도한 요청 금지)

2. 공개 데이터셋
**장점**: 즉시 사용 가능, 합법적
**단점**: 일반적 데이터, 도메인 특화 부족

*추천 플랫폼*
Hugging Face Datasets Hub
AI Hub (한국어 데이터)
Kaggle Datasets

3. 합성 데이터 생성
**장점**: 빠른 생성, 맞춤형 제작
**단점**: 품질 불안정, Human Review 필수

*방법*
GPT-4로 초안 생성 → 전문가 검수
Claude로 variation 생성
실제 데이터와 50:50 혼합 권장

---

🧹 데이터 정제 체크리스트

✓ 중복 제거
```python
완전 중복
dataset = dataset.unique(column='text')

유사 중복 (90% 이상)
from difflib import SequenceMatcher
유사도 계산 후 제거
```

✓ 노이즈 필터링
HTML 태그 제거
특수문자 정리
공백/줄바꿈 정규화
최소/최대 길이 필터

✓ 품질 검증
사실 오류 확인
문법 오류 체크
욕설/비속어 필터링
개인정보 마스킹

---

📋 Instruction-Response 포맷팅

Alpaca Format
```json
{
"instruction": "다음 문장을 요약해주세요.",
"input": "인공지능은 컴퓨터 과학의 한 분야로...",
"output": "AI는 인간의 지능을 모방하는 기술입니다."
}
```

ShareGPT Format (대화형)
```json
{
"conversations": [
{"from": "human", "value": "파이썬이 뭐야?"},
{"from": "gpt", "value": "파이썬은 프로그래밍 언어입니다..."}
]
}
```

ChatML Format (OpenAI 표준)
```json
{
"messages": [
{"role": "user", "content": "안녕?"},
{"role": "assistant", "content": "안녕하세요!"}
]
}
```

---

📊 Train/Val/Test 분할 전략

70:15:15 분할 (소규모)
Train: 350개 (70%)
Validation: 75개 (15%)
Test: 75개 (15%)

80:10:10 분할 (중규모)
Train: 800개 (80%)
Validation: 100개 (10%)
Test: 100개 (10%)

주의사항
랜덤 셔플 후 분할
Test 셋은 절대 학습에 사용 금지
데이터 리케이지 방지
시간 순서 고려 (시계열 데이터)

---

🔬 품질 검증 자동화

자동 검증 스크립트
```python
def validate_sample(sample):
checks = {
"has_instruction": bool(sample.get('instruction')),
"has_output": bool(sample.get('output')),
"min_length": len(sample['output']) > 10,
"max_length": len(sample['output']) < 2000,
"no_profanity": not contains_profanity(sample['output'])
}
return all(checks.values()), checks
```

통계 리포트 생성
샘플 수
평균 길이
도메인 분포
품질 점수 분포

---

🛠️ 실습 도구

*크롤링*
BeautifulSoup4
Scrapy
Selenium (동적 페이지)

*데이터 처리*
pandas
datasets (Hugging Face)
ftfy (텍스트 복구)

*품질 검증*
language-tool-python (문법)
profanity-check (욕설)
dedupe (중복 제거)

---

📝 실습 과제

**미션**: 도메인 데이터셋 500개 완성

*단계별 실습*
1. 크롤링 또는 공개 데이터셋에서 700개 수집
2. 정제 프로세스 적용 → 500개 남김
3. Alpaca Format으로 변환
4. Train/Val/Test 분할 (70:15:15)
5. 품질 검증 리포트 생성

*제출물*
dataset.jsonl (500개)
quality_report.pdf
data_pipeline.py (재현 가능한 스크립트)

---

⚠️ 흔한 실수

*1. robots.txt 무시*
법적 문제 발생 가능

*2. 중복 데이터 그대로 사용*
과적합 원인

*3. Test 셋으로 하이퍼파라미터 튜닝*
데이터 리케이지

*4. 포맷 불일치*
학습 시 에러 발생

*5. 개인정보 미처리*
GDPR, 개인정보보호법 위반

---

💡 실전 팁

**Tip 1**: 700개 수집 → 500개 목표
필터링 후 30% 손실 예상

**Tip 2**: 자동화 스크립트 작성
반복 작업은 파이썬 스크립트로

**Tip 3**: 샘플 10% 수동 검수
자동화로 못 잡는 오류 발견

**Tip 4**: 버전 관리
Git으로 데이터셋도 버전 관리

---

📌 이전/다음 강의

⬅️ 이전: Lesson 3 - SFT vs RLHF 비교
➡️ 다음: Week 2 Lesson 1 - LoRA/QLoRA 이론

---

💬 댓글로 참여하세요!

📌 어떤 데이터 수집 방법을 선택하셨나요?
📌 데이터 정제 중 가장 어려운 부분은?
📌 질문 환영합니다!

---

🔔 구독하고 함께 성장해요!

👍 좋아요 - 실습이 도움되셨다면
🔔 알림 설정 - Week 2 놓치지 마세요
💬 댓글 - 과제 진행 상황 공유해주세요
📤 공유 - 함께 배울 동료에게

---

*#데이터수집 #데이터정제 #웹크롤링 #파인튜닝 #LLM #데이터파이프라인 #머신러닝 #AI교육 #BeautifulSoup #데이터전처리*

---

📧 **문의**: [email protected]
💻 **GitHub**: [추후 공지 예정]
🌐 **웹사이트**: https://hermes.deepnexusone.com/silver
📂 **PDF다운**: https://hermes.deepnexusone.com/resou...

© 2025 DeepNexusOne. All rights reserved.

🎯파인튜닝 데이터셋 수집 및 정제 | 실전 데이터 파이프라인 – Module 1. Week 1. Lesson 4.

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

🎯파인튜닝 데이터 포맷팅 완벽 가이드 | Alpaca vs ShareGPT vs ChatML – Module 1. Week 1. Lesson 5.

🎯파인튜닝 데이터 포맷팅 완벽 가이드 | Alpaca vs ShareGPT vs ChatML – Module 1. Week 1. Lesson 5.

Все стратегии RAG объясняются за 13 минут (без лишних слов)

Все стратегии RAG объясняются за 13 минут (без лишних слов)

LLM 바닥부터 만들기 (대형언어모델) 1시간 핵심 정리! - #1 사전학습 [홍정모 연구소]

LLM 바닥부터 만들기 (대형언어모델) 1시간 핵심 정리! - #1 사전학습 [홍정모 연구소]

Полный курс: Техника безопасности с ИИ. Что важно знать при работе с нейросетями!

Полный курс: Техника безопасности с ИИ. Что важно знать при работе с нейросетями!

ESP32: распознавание речи нейросетью (TensorFlow Lite)

ESP32: распознавание речи нейросетью (TensorFlow Lite)

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

AI Makers - LLM Architect Silver Course

AI Makers - LLM Architect Silver Course

12 ИИ-приёмов, которые превращают Cursor в суперсилу

12 ИИ-приёмов, которые превращают Cursor в суперсилу

Визуализация скрытого пространства: PCA, t-SNE, UMAP | Глубокое обучение с анимацией

Визуализация скрытого пространства: PCA, t-SNE, UMAP | Глубокое обучение с анимацией

GraphRAG: союз графов знаний и RAG: Эмиль Эйфрем

GraphRAG: союз графов знаний и RAG: Эмиль Эйфрем

Предел развития НЕЙРОСЕТЕЙ

Предел развития НЕЙРОСЕТЕЙ

Превратите ЛЮБОЙ файл в знания LLM за СЕКУНДЫ

Превратите ЛЮБОЙ файл в знания LLM за СЕКУНДЫ

(30분 완성) 연구도구 활용을 위한 텍스트마이닝 기초 이론 쉽게 이해하기!

(30분 완성) 연구도구 활용을 위한 텍스트마이닝 기초 이론 쉽게 이해하기!

Музыка для работы за компьютером | Фоновая музыка для концентрации и продуктивности

Музыка для работы за компьютером | Фоновая музыка для концентрации и продуктивности

Революция оценки агентов

Революция оценки агентов

Cursor AI: полный гайд по вайб-кодингу (настройки, фишки, rules, MCP)

Cursor AI: полный гайд по вайб-кодингу (настройки, фишки, rules, MCP)

Подробное объяснение тонкой настройки LoRA и QLoRA

Подробное объяснение тонкой настройки LoRA и QLoRA

ESP32 + MLX90640: тепловизор с искусственным интеллектом (TensorFlow Lite)

ESP32 + MLX90640: тепловизор с искусственным интеллектом (TensorFlow Lite)

TOP Christmas Songs Playlist 2026 ❄️  Mariah Carey, Ariana Grande, Justin Bieber, Christmas Songs

TOP Christmas Songs Playlist 2026 ❄️ Mariah Carey, Ariana Grande, Justin Bieber, Christmas Songs

🎯 Unsloth.ai를 활용한 Llama 3 파인튜닝 | Google Colab에서 7B 모델 학습! – Module 2. Week 2. Lesson 4.

🎯 Unsloth.ai를 활용한 Llama 3 파인튜닝 | Google Colab에서 7B 모델 학습! – Module 2. Week 2. Lesson 4.

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]