LLM Engineer (Data Platform)
Pangyo (Pangyo Tech1), South Korea
We are looking for the best
LLM Engineer(Data Platform)는 Generative Model 학습에 필요한 Peta Byte단위의 Text, Image, Video 데이터를 수집하여 효율적으로 관리할 수 있는 시스템을 개발합니다. 개발된 플랫폼은 ML 학습 파이프라인과 연동되어, 필요한 데이터를 효율적으로 공급하며, 필요한 데이터를 신뢰성 있게 공급함으로써 서비스 품질을 높이는 핵심 역할을 맡게 됩니다. 최신 AI 기술 및 데이터 엔지니어링 도구를 다루며, LLM 학습 데이터의 설계 및 최적화 과정에서 기술적 리더십을 키울 수 있습니다.
ㆍ42dot이 일하는 방식, 42dot Way 보러가기 →ㆍ42dot만의 직원 몰입을 돕는 업무몰입 프로그램, Employee Engagement Program 보러가기 →
LLM Engineer(Data Platform)는 Generative Model 학습에 필요한 Peta Byte단위의 Text, Image, Video 데이터를 수집하여 효율적으로 관리할 수 있는 시스템을 개발합니다. 개발된 플랫폼은 ML 학습 파이프라인과 연동되어, 필요한 데이터를 효율적으로 공급하며, 필요한 데이터를 신뢰성 있게 공급함으로써 서비스 품질을 높이는 핵심 역할을 맡게 됩니다. 최신 AI 기술 및 데이터 엔지니어링 도구를 다루며, LLM 학습 데이터의 설계 및 최적화 과정에서 기술적 리더십을 키울 수 있습니다.
책임 (Responsibilities)
- 데이터 수집,처리,저장 및 활용 Pipeline 설계: Peta byte 단위의 텍스트·이미지·비디오 데이터를 정제하여 모델 성능 향상에 기여
- 대규모 Synthetic Data 생성: 대용량의 Synthetic Data를 생성·관리하여, 모델 학습의 품질 개선에 기여
- 데이터 품질 관리 및 자동화: 데이터 품질 지표를 정의하고, 품질 검증 및 모니터링 자동화 시스템을 설계 및 구축
- 데이터 전처리 및 처리 효율화: Parquet, WebDataset, TorchData, TFRecord, datatrove 등 industrial standard의 데이터 처리 포맷 및 도구를 활용하여 데이터 전처리 효율 극대화
- 데이터 레이블링 및 버전 관리: 지속적으로 변화하는 데이터셋에 대한 버전 관리 및 레이블링 프로세스 자동화
- 보안을 고려한 데이터 관리 및 공급: 데이터 무결성과 보안성을 고려한 저장·전송 기술 개발 및 관련 법규·내부 보안 정책 준수
자격요건 (Qualifications)
- 소프트웨어·데이터 엔지니어관련 업무 경력 5년 이상
- Spark, Hadoop 등 대규모 분산 처리 환경에서 데이터 엔지니어링 수행 경험
- 클라우드 환경(AWS, GCP, Azure 등)에서의 개발 경험
- S3, EMR, DataProc등 클라우드 기반 스토리지·분산 처리 플랫폼 사용 능력
- 대규모 데이터셋의 압축, 인덱싱, 샤딩을 통한 최적화 경험
- Python, C++ 등을 포함한 프로그래밍 언어에 대한 높은 숙련도와 탄탄한 소프트웨어 엔지니어링 역량
- 모델 학습 및 전처리, 최적화 과정에 대한 이해와 협업 능력
우대사항 (Preferred Qualifications)
- Image, Audio 데이터 실시간/대용량 분산 처리 시스템 개발 경험자
- 영어, 스페인어, 프랑스어 중 1개 이상 언어 능통자
- Data 관련 오픈소스 프로젝트 기여 경험자
전형절차 (Interview Process)
- 서류전형 - 코딩테스트 - 화상면접 (1시간 내외) - 대면 혹은 화상면접 (3시간 내외) - 최종합격
- 전형절차는 직무별로 다르게 운영될 수 있으며, 일정 및 상황에 따라 변동될 수 있습니다.
- 전형일정 및 결과는 지원서에 등록하신 이메일로 개별 안내드립니다.
참고사항 (Additional Information)
- 이력서 제출 시 주민등록번호, 가족관계, 혼인 여부, 연봉, 사진, 신체조건, 출신 지역 등 채용절차법상 요구 금지된 정보는 제외 부탁드립니다.
- 모든 제출 파일은 30MB 이하의 PDF 양식으로 업로드를 부탁드립니다. (이력서 업로드 중 문제가 발생한다면 이력서와 함께 지원하시고자 하는 포지션의 URL을 recruit@42dot.ai으로 전송 부탁드립니다.)
- 인터뷰 프로세스 종료 후 지원자의 동의하에 평판조회가 진행될 수 있습니다.
- 국가보훈대상자 및 취업보호 대상자는 관계법령에 따라 우대합니다.
- 장애인 고용 촉진 및 직업재활법에 따라 장애인 등록증 소지자를 우대합니다.
- 42dot은 의뢰하지 않은 서치펌의 이력서를 받지 않으며, 요청하지 않은 이력서에 대해 수수료를 지불하지 않습니다.
ㆍ42dot이 일하는 방식, 42dot Way 보러가기 →ㆍ42dot만의 직원 몰입을 돕는 업무몰입 프로그램, Employee Engagement Program 보러가기 →
* Salary range is an estimate based on our AI, ML, Data Science Salary Index 💰
Job stats:
0
0
0
Category:
Engineering Jobs
Tags: AWS Azure GCP Hadoop Industrial LLMs Machine Learning Parquet Python Spark
Region:
Asia/Pacific
Country:
South Korea
More jobs like this
Explore more career opportunities
Find even more open roles below ordered by popularity of job title or skills/products/technologies used.
Data Engineer II jobsSr. Data Engineer jobsStaff Data Scientist jobsBI Developer jobsPrincipal Data Engineer jobsSenior AI Engineer jobsStaff Machine Learning Engineer jobsData Manager jobsData Science Intern jobsPrincipal Software Engineer jobsBusiness Data Analyst jobsJunior Data Analyst jobsData Science Manager jobsResearch Scientist jobsData Specialist jobsSoftware Engineer II jobsLead Data Analyst jobsData Analyst Intern jobsSr. Data Scientist jobsDevOps Engineer jobsData Engineer III jobsJunior Data Engineer jobsAI/ML Engineer jobsBI Analyst jobsData Engineering Manager jobs
Git jobsEconomics jobsLinux jobsKafka jobsOpen Source jobsAirflow jobsHadoop jobsNoSQL jobsData Warehousing jobsRDBMS jobsJavaScript jobsMLOps jobsComputer Vision jobsGoogle Cloud jobsKPIs jobsPhysics jobsScala jobsBanking jobsPostgreSQL jobsGitHub jobsData warehouse jobsScikit-learn jobsClassification jobsTerraform jobsOracle jobs
Streaming jobsR&D jobsSAS jobsPySpark jobsPandas jobsScrum jobsBigQuery jobsCX jobsDistributed Systems jobsData Mining jobsJira jobsMicroservices jobsdbt jobsLooker jobsReact jobsRobotics jobsRedshift jobsJenkins jobsRAG jobsIndustrial jobsUnstructured data jobsMySQL jobsE-commerce jobsNumPy jobsData strategy jobs