Research Engineer - LLM/VLM Inference Optimization (Seed Infra)

San Jose, California, United States

USD 244K-450K Mid-level Full Time

@ B...

Apply Save

Found 24d ago

Tasks

Apply low precision computation
Build inference performance optimization techniques
Build streaming inference
Conduct performance analysis
Design high performance LLM and VLM inference systems
Develop CUDA kernels
Develop compiler level optimizations
Develop inference engines and serving frameworks
Develop model toolchains
Implement parallel computing
Implement speculative decoding
Optimize graph fusion
Optimize high concurrency requests
Optimize large model inference

Perks/Benefits

Skills/Tech-stack

Education

N/A

Apply Save

Language: en Views:

1 Clicks:

0 Saves: 0

Related jobs

Machine Learning Systems Engineer USD 144K-192K

CUDA | Data loading | Distributed Training | Gradient Computation | Kernel Fusion

401k match | Dental insurance | Health Accounts | Health insurance | Health savings account

Senior-level Full Time

Boston, Massachusetts, United States R

1d ago
Senior Robotics Software Engineer USD 150K-199K

C++ | CUDA | Collision detection | Computer Vision | Linux

Dental insurance | Medical insurance | Paid time off | Vision insurance

Senior-level Full Time

Oakland, CA

1d ago
Machine Learning Systems Engineer USD 144K-192K

CUDA | Kernel Fusion | NVIDIA Nsight | PyTorch | PyTorch Profiler

401k match | Dental insurance | Health insurance | Health savings account | Life insurance

Senior-level Full Time

Remote U.S. R

1d ago
Machine Learning Systems Engineer USD 144K-192K

CUDA | Data loading | Distributed Training | Kernel Fusion | Nsight

Medical Dental Vision 401k with company match Health Savings Account Life Insurance Pet Insurance

Senior-level Full Time

Las Vegas, Nevada, United States R

1d ago
Machine Learning Systems Engineer USD 144K-192K

CUDA | Kernel Fusion | Nsight | Profiling tools | PyTorch

401k match | Dental insurance | Health insurance | Health savings account | Life insurance

Senior-level Full Time

Pittsburgh, Pennsylvania, United States R

1d ago
LLM Inference Engineer USD 165K-250K

C++ | CUDA | Caching | Distributed Systems | GPU Optimization

Senior-level Full Time

Palo Alto

1d ago
Executive Director (Senior Lead Securities Python Quantitative Developer ) USD 355K

Agile | C++ | CUDA | Confluence | Cython

401k plan | Adoption reimbursement | Commuter benefits | Critical caregiving leave | Critical illness insurance

Senior-level Full Time

106312-NY-150 E 42nd, New York, United …

2d ago
Senior Machine Learning Engineer USD 161K-246K

3D Reconstruction | CI/CD | CUDA | Camera Geometry | Computer Vision

401k | Dental insurance | EAP | Life insurance | Medical insurance

Senior-level Full Time

Boston, Massachusetts, United States

2d ago
Lead Perception Engineer USD 175K-235K

3D Reconstruction | C++ | CUDA | Computer Vision | Coordinate Transform

Senior-level Full Time

Woburn, Massachusetts, United States

2d ago
NLU Engineer A USD 140K-200K

C# | C++ | Embedded Systems | Finite State Transducers | Language Processing

Mid-level Full Time

Boston, Massachusetts

2d ago
Staff Forward Deployed Engineer USD 195K-239K

Artificial Intelligence | Benchmarking | CUDA | CUDA Interconnect | Continuous batching

Employee assistance program | Flexible time off | Hybrid work | LinkedIn Learning | Local Employee Meetups

Senior-level Full Time

Seattle

4d ago
Staff Forward Deployed Engineer USD 195K-239K

Artificial Intelligence | Benchmarking | CUDA | Continuous batching | CrewAI

Conference reimbursement | Employee assistance program | Employee stock purchase program | Flexible time off | LinkedIn Learning

Senior-level Full Time

San Francisco R

4d ago
Senior / Staff ML Training Optimization Engineer USD 141K-249K

Bazel | C++ | CPU Profiling | CUDA | CUDA kernels

Catered meals | Dental insurance | Flexible hours | Health insurance | Snacks

Senior-level Full Time

Remote US & Canada R

4d ago
Senior Software Engineer, Perception Platform USD 170K-215K

API Design | C++ | CI/CD | CUDA | Computer Vision

401k match | Dental insurance | Flexible PTO | Free lunch daily | Medical insurance

Senior-level Full Time

Columbus, Ohio

4d ago
Senior Research Scientist - Machine Learning System USD 212K-387K

CUDA | Deep learning | Distributed Systems | GPU Performance | GPU Performance Optimization

Senior-level Full Time

San Jose, California, United States

4d ago
Senior Machine Learning Engineer, Performance USD 174K-252K

Data Analysis | Data Visualization | Debugging | Machine Learning | Parallel Computing

Senior-level Full Time

Sunnyvale, CA, USA

4d ago
Machine Learning Engineer, Inference & Serving (Speech LLM) - San Francisco USD 180K-270K

AWQ | Audio codecs | Audio streaming | Autoscaling | Chunked prefill

401k matching | Annual offsites | Dental coverage | Employer-paid training | Healthcare benefits

Mid-level Full Time

San Francisco, CA

4d ago
AI Engineer USD 165K-195K

AWS | Best practices | Big Data | C++ | CUDA

International travel

Senior-level Full Time

Belmont, CA, US, 94002

5d ago
AI Inference Engineer - Speech USD 151K-332K

Asynchronous execution | Attention Mechanism | Automatic Speech Recognition | BEAM Search | C#

Hybrid work

Mid-level Full Time

San Jose (CA), United States

5d ago
Forward Deployed Engineer (Inference & Post-Training) USD 270K-300K

DPO | GRPO | KV cache | LoRA | Pipeline parallelism

Equity | Health insurance | Remote work flexibility

Senior-level Full Time

San Francisco

5d ago
Staff Software Engineer, Inference USD 188K-275K

BF16 | C++ | CUDA | Distributed Systems | FP8

401k employer match | Dental insurance | Employee stock purchase program | Flexible PTO | Flexible spending account

Senior-level Full Time

Sunnyvale, CA / Bellevue, WA

5d ago
Research Engineer, Training & Inference USD 200K-450K

C++ | CUDA | Cutlass | Distributed Training | FSDP

401k matching | Employer-paid health insurance | Health Savings Account (HSA) | Unlimited PTO

Entry-level Full Time

Palo Alto

5d ago
Senior Research Engineer – AI/ML USD 110K-161K

C++ | Computer Vision | Distributed Computing | Distributed Systems | Intelligent agents

Senior-level Full Time

Raleigh, North Carolina, United States

5d ago
Research Engineer – AI/ML USD 100K-258K

Agentic AI | C plus plus | Cloud Computing | Computer Vision | Distributed Computing

Employee-owned company | Stable work environment

Mid-level Full Time

Raleigh, North Carolina, United States

5d ago
Staff Software Engineer, TPU Performance USD 207K-300K

CUDA | Code generation | Compiler optimization | Data Processing | Debugging

Senior-level Full Time

Mountain View, CA, USA

5d ago

Research Engineer - LLM/VLM Inference Optimization (Seed Infra)

Tasks

Perks/Benefits

Skills/Tech-stack

Education

Roles

Regions

Countries

States

Cities

Related jobs