Modelli linguistici di grandi dimensioni (LLM)
-
Inferenza Jet
Stream Max Text su v6e Una guida per configurare e utilizzare JetStream con MaxText per l'inferenza su v6e.
-
Inferenza Jet
Stream Py Torch su v6e Una guida per configurare e utilizzare JetStream con PyTorch per l'inferenza su v6e.
-
Inferenza v
LLM su v6e Una guida per configurare e utilizzare vLLM per l'inferenza su v6e.
-
Gestisci un LLM utilizzando TPU su GKE con v
LLM Una guida all'utilizzo di vLLM per pubblicare modelli linguistici di grandi dimensioni (LLM) utilizzando le unità di elaborazione tensoriale (TPU) su Google Kubernetes Engine (GKE).