inference-speed

Here are 8 public repositories matching this topic...

Ki6an / fastT5

⚡ boost inference speed of T5 models by 5x & reduce the model size by 3x.

python nlp fast translation deep-learning inference pytorch transformer question-answering quantization onnx t5 onnxruntime fastt5 quantized-onnx-models inference-speed

Updated Apr 24, 2023
Python

HKUDS / SepLLM

Star

[ICML 2025] "SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator"

inference-speed large-language-models llms

Updated Jul 29, 2025
Python

renebidart / text-classification-benchmark

Star

Inference speed / accuracy tradeoff on text classification with transformer models such as BERT, RoBERTa, DeBERTa, SqueezeBERT, MobileBERT, Funnel Transformer, etc.

text-classification transformer bert efficient-inference inference-speed fast-text-classification efficient-transfo

Updated Feb 7, 2023
Jupyter Notebook

Gane2122 / nanoGPT_1GPU_SPEEDRUN

Star

🚀 Achieve rapid training of NanoGPT (GPT-2 124M) on a single RTX 4090, targeting a validation loss below 3.28 with FineWeb-Edu data.

open-source benchmark machine-learning natural-language-processing deep-learning text-generation pytorch model-training gpu-optimization ai-research transformer-models single-gpu inference-speed nanogpt fast-training

Updated Jun 13, 2026
Python

deepixel-inc / Tflite-Benchmark-Program

Star

A practical guide for benchmarking TensorFlow Lite (TFLite) models, covering inference performance, resource usage, and runtime configuration using the TFLite Benchmark Tool.

benchmarking inference tflite inference-optimization inference-speed