Find jobs in AI/ML, Data Science and Big Data

19 results for GRPO (Skill/Tech stack)

Machine Learning Graduate (E-Commerce Governance) - 2026 Start (PhD) USD 150K-316K

Causal Inference | Cross-modal fusion | DPO | Data Modeling | Fraud Detection

Entry-level Full Time

San Jose, California, United States

4h ago
机器人真机强化学习算法实习生 CNY 25K-37K

Actor-critic | Data Analysis | GRPO | Multimodal Learning | Offline Reinforcement Learning

Entry-level Internship

上海

2d ago
Staff Machine Learning Engineer - Vision-Language Foundation Models USD 251K-310K

AI Feedback | Ablation Studies | Autolabeling | Chain-of-Thought | DPO

Bonus | Company benefits program | Equity | Health and wellness benefits

Senior-level Full Time

Mountain View, California, United States

4d ago
LLM Engineer (Reinforcement Learning) KRW 26800K-26800K

DDP | DPO | Deep learning | Distributed Training | Docker

Senior-level Full Time

Pangyo (Software Dream Center), South Korea

5d ago
大模型算法工程师（开放域对话） CNY 25K-37K

A/B | A/B Testing | AI Feedback | Agentic RL | B testing

Entry-level Internship

上海、北京

5d ago
Principal AI/ML Researcher USD 270K-300K

Artificial Intelligence | Context Parallelism | DPO | Data parallelism | Deep learning

Equity compensation | Health and wellness benefits | Relocation assistance

Senior-level Full Time

Boston, MA

10d ago
Data Scientist - Agentic AI Systems - IFS Loops USD 140K-150K

Autogen | DPO | Deep learning | Embeddings | Evaluation

401k company match | Disability benefits | Flexible paid time off | Flexible spending accounts | Life insurance

Mid-level Full Time

Palo Alto, California, United States

10d ago
Foundation AI Engineer (LLM) CAD 100K-110K

AI Feedback | Attention Mechanisms | Constitutional AI | Constitutional Safety Tuning | Data Curation

Annual health checkups | Healthcare insurance | Opportunity to collaborate with industry professionals | Performance bonuses | Preferential pricing for services

Mid-level Full Time

Hanoi, Vietnam

12d ago
Senior AI scientist INR 3715K-5449K

ALiBi | Adafactor Optimizer | AdamW | Attention Mechanisms | BF16

Senior-level Full Time

Remote - India R

18d ago
Machine Learning Engineer, Proactive USD 170K-300K

DPO | Deep learning | Efficient Fine Tuning | Factuality Evaluation | Fine Tuning

Senior-level Full Time

Cupertino

18d ago
Applied Reinforcement Learning Engineer USD 150K-300K

A2C | A3C | Actor-critic | Agent systems | BCQ

Collaborate with industry leaders | Equal opportunity employer | Hybrid remote work | Research publications support

Mid-level Full Time

Remote Work( USA), United States R

19d ago
大模型算法工程师（开放域对话） CNY 180K-300K

Data Deduplication | Data cleaning | DeepSpeed | Dialogue State Tracking | Distributed Training

Mid-level Internship

上海、北京

20d ago
Senior AI Scientist USD 123K-197K

ALiBi | Adafactor | AdamW | Attention | BF16

Annual bonus opportunity | Company RRSP contribution | Equity awards | Hybrid work | Insurance coverage

Senior-level Full Time

Remote - USA, United States R

21d ago
Software Dev Engineer II, Stores Foundational AI -SFAI USD 143K-194K

Async Rollouts | Batching | C++ | CUDA | Data Delivery

401k matching | Health insurance | Paid time off | Parental leave

Mid-level Full Time

Seattle, Washington, USA

28d ago
Director, Reinforcement Learning & Agentic Post-Training EUR 151K-200K

AI Feedback | API Integration | Distributed Training | Environment Design | Evaluation

Executive-level Full Time

Paris, France

1mo ago
Senior Machine Learning Engineer – LLMs EUR 62K-90K

Accelerate | Axolotl | BF16 | DPO | Data Deduplication

Autonomy | Hybrid work model | Professional growth | Top-spec equipment

Senior-level Full Time

Netherlands - Amsterdam

1mo ago
Intern Engineer – RL Post-Training for LLMs CAD 58K-104K

Data Generation | Deep learning | DeepSpeed | Distributed Training | GRPO

Internship

Entry-level Internship

Vancouver, British Columbia, Canada

1mo ago
Data Scientist - Agentic AI Systems - Loops USD 140K-150K

Agent coordination | Autogen | DPO | Decision Making | Decision-making models

401k match | Dental insurance | Disability benefits | Flexible paid time off | Flexible spending accounts

Mid-level Full Time

Palo Alto, California, United States

1mo ago
Research Engineer - LLM Training & Alignment Systems CAD 127K-225K

Automation | Benchmarking | C# | C++ | Data Curation

Mid-level Contract Full Time

Kingston, Ontario, Canada

1mo ago