Inference Optimization

community

AI & ML interests

None defined yet.

Recent Activity

ChibuUkachi updated a model about 3 hours ago

inference-optimization/Qwen3-Coder-Next.w8a8

ChibuUkachi published a model about 3 hours ago

inference-optimization/Qwen3-Coder-Next.w8a8

RelaxingSnorlax updated a model about 10 hours ago

inference-optimization/test_qwen3_next_mtp

View all activity

inference-optimization 's models 93

inference-optimization/DeepSeek-V3-debug-multiply-FP8_DYNAMIC

1B • Updated Jan 24 • 1

inference-optimization/DeepSeek-V3-debug-add-FP8_DYNAMIC

1B • Updated Jan 24 • 1

inference-optimization/DeepSeek-V3-debug-empty-FP8_DYNAMIC

1B • Updated Jan 23 • 3

inference-optimization/DeepSeek-V3-debug-multiply-NVFP4A16

0.9B • Updated Jan 23

inference-optimization/DeepSeek-V3-debug-add-NVFP4A16

0.9B • Updated Jan 23

inference-optimization/DeepSeek-V3-debug-empty-NVFP4A16

0.9B • Updated Jan 23 • 11

inference-optimization/DeepSeek-V3-debug-add

1B • Updated Jan 23

inference-optimization/DeepSeek-V3-debug-multiply

1B • Updated Jan 23 • 1

inference-optimization/Qwen3-0.6B-debug-add-FP8_BLOCK

0.6B • Updated Jan 23

inference-optimization/Qwen3-0.6B-debug-multiply-FP8_BLOCK

0.6B • Updated Jan 23

inference-optimization/Qwen3-0.6B-FP8_BLOCK

0.6B • Updated Jan 23 • 1

inference-optimization/Qwen3-0.6B-debug-add-W4A16-G128

0.2B • Updated Jan 23

inference-optimization/Qwen3-0.6B-debug-multiply-W4A16-G128

0.2B • Updated Jan 23

inference-optimization/Qwen3-0.6B-W4A16-G128

0.2B • Updated Jan 23 • 61

inference-optimization/Qwen3-0.6B-debug-add

0.6B • Updated Jan 23

inference-optimization/Qwen3-0.6B-debug-multiply

0.6B • Updated Jan 23

inference-optimization/DeepSeek-V3-debug-empty

1B • Updated Jan 23 • 12

inference-optimization/granite-4.0-h-tiny-FP8-block

Text Generation • 7B • Updated Jan 23 • 71

inference-optimization/granite-4.0-h-tiny-quantized.w8a8

7B • Updated Jan 23 • 5

inference-optimization/granite-4.0-h-tiny-NVFP4

Updated Jan 22 • 3

inference-optimization/granite-4.0-h-tiny-quantized.w4a16

Updated Jan 22 • 2

inference-optimization/Qwen3-30B-A3B-Instruct-2507.w8a8

31B • Updated Jan 21

inference-optimization/Qwen3-30B-A3B-Thinking-2507.w8a8

31B • Updated Jan 21

inference-optimization/Qwen3-4B-Thinking-2507.w8a8

4B • Updated Jan 21 • 2

inference-optimization/Qwen3-4B-Instruct-2507.w8a8

4B • Updated Jan 21

inference-optimization/granite-4.0-h-small-quantized.w8a8

inference-optimization/granite-4.0-h-small-NVFP4

inference-optimization/granite-4.0-h-small-quantized.w4a16

inference-optimization/granite-4.0-h-small-FP8-dynamic

inference-optimization/granite-4.0-h-small-FP8-block