아래는 “이번 주의 팁 #234: 값, 포인터, 참조로 전달하기”에 대한 한글 번역입니다.
Abseil Tip 232 변수 선언 시 auto를 언제 사용할 것인가
아래는 “이번 주의 팁 #232: 변수 선언 시 auto
를 언제 사용할 것인가”에 대한 한글 번역입니다.
Abseil Tip 231 여기와 저기 사이 – 간과되기 쉬운 몇 가지 알고리즘
아래는 “이번 주의 팁 #231: 여기와 저기 사이 – 간과되기 쉬운 몇 가지 알고리즘”에 대한 한글 번역입니다.
SAGEATTENTION: ACCURATE 8-BIT ATTENTION FOR PLUG-AND-PLAY INFERENCE ACCELERATION
Gemma 2: Improving Open Language Models at a Practical Size
The Llama 3 Herd of Models
Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving
Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality
Communication Compression for Tensor Parallel LLM Inference
Context Parallelism for Scalable Million-Token Inference
SimpleFSDP: Simpler Fully Sharded Data Parallel with torch.compile
FastAttention: Extend FlashAttention2 to NPUs and Low-resource GPUs
Large Concept Models: Language Modeling in a Sentence Representation Space
Sharing and Throughput-oriented Token Batching
ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression
Star Attention: Efficient LLM Inference over Long Sequences
Efficient LLM Inference with I/O-Aware Partial KV Cache Recomputation
SparseInfer: Training-free Prediction of Activation Sparsity for Fast LLM Inference
SageAttention2 Technical Report: Accurate 4 Bit Attention for Plug-and-play Inference Acceleration
Byte Latent Transformer: Patches Scale Better Than Tokens
Memory Layers at Scale
Efficient Memory Management for Large Language Model Serving with PagedAttention
Orca: Progressive Learning from Complex Explanation Traces of GPT-4
GSPMD: General and Scalable Parallelization for ML Computation Graphs
GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding
Abseil Tip 229 템플릿 메타프로그래밍을 위한 순위 기반 오버로드
제목: “이번 주의 팁 #229: 템플릿 메타프로그래밍을 위한 순위 기반 오버로드”
Abseil Tip 227 빈 컨테이너와 부호 없는 정수 연산 주의하기
제목: “이번 주의 팁 #227: 빈 컨테이너와 부호 없는 정수 연산 주의하기”
Abseil Tip 224 vector.at() 사용 피하기
제목: “이번 주의 팁 #224: vector.at()
사용 피하기”
Abseil Tip 197 Reader Lock은 드물게 사용해야 합니다
제목: “이번 주의 팁 #197: Reader Lock은 드물게 사용해야 합니다”
FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision
Infinite-LLM: Efficient LLM Service for Long Context with DistAttention and Distributed KVCache
Fast Inference of Mixture-of-Experts Language Models with Offloading
SuperServe: Fine-Grained Inference Serving for Unpredictable Workloads
FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning
FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness
Abseil Tip 3 문자열 연결과 operator+ vs. StrCat()
제목: “이번 주의 팁 #3: 문자열 연결과 operator+
vs. StrCat()
”
Abseil Tip 218 FTADLE로 확장 지점 설계하기
제목: “이번 주의 팁 #218: FTADLE로 확장 지점 설계하기”
Abseil Tip 215 AbslStringify()를 사용한 사용자 정의 타입 문자열화"
제목: “이번 주의 팁 #215: AbslStringify()
를 사용한 사용자 정의 타입 문자열화”
Abseil Tip 198 태그 타입(Tag Types)
아래는 “이번 주의 팁 #198: 태그 타입(Tag Types)”에 대한 한글 번역입니다.
Abseil Tip 18 Substitute를 활용한 문자열 포맷팅
물론입니다! 아래는 번역된 내용입니다:
Abseil Tip 124 absl::StrFormat()
제목: “이번 주의 팁 #124: absl::StrFormat()
”
Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence Lengths in Large Language Models
MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts
FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency Trade-off in Language Model Inference
FlightLLM: Efficient Large Language Model Inference with a Complete Mapping Flow on FPGAs
Fast and Effective Weight Update for Pruned Large Language Models
Inference without Interference: Disaggregate LLM Inference for Mixed Downstream Workloads
MEDUSA: Simple LLMInference Acceleration Framework with Multiple Decoding Heads
DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serving
DeepSpeed-FastGen: High-throughput Text Generation for LLMs via MII and DeepSpeed-Inference
INFERFLOW: AN EFFICIENT AND HIGHLY CONFIG URABLE INFERENCE ENGINE FOR LARGE LANGUAGE MODELS
Abseil Tip 188 스마트 포인터를 함수 매개변수로 사용할 때 주의하세요
원문 게시: 2020년 12월 10일, 주간 팁 #188
Abseil Tip 187 std::unique_ptr Must Be Moved"
원문 게시: 2020년 11월 5일, 주간 팁 #187
Abseil Tip 186 함수는 무명 네임스페이스에 두는 것을 선호하세요
원문 게시: 2020년 11월 5일, 주간 팁 #186
TP-Aware Dequantization
Break the Sequential Dependency of LLM Inference Using LOOKAHEAD DECODING
Decoding Speculative Decoding
Efficient Prompt Caching via Embedding Similarity
FP6-LLM: Efficiently Serving Large Language Models Through FP6-Centric Algorithm-System Co-Design
Abseil Tip 76 absl::Status 사용하기
Tip of the Week #76: absl::Status
사용하기
Abseil Tip 181 StatusOr 값 접근하기
Tip of the Week #181: StatusOr<T>
값 접근하기
Abseil Tip 165 초기화 구문을 포함한 if와 switch 문 사용하기
Tip of the Week #165: 초기화 구문을 포함한 if
와 switch
문 사용하기
Abseil Tip 116 함수 인자에서 참조 사용 시 주의사항
Tip of the Week #116: 함수 인자에서 참조 사용 시 주의사항
RelayAttention for Efficient Large Language Model Serving with Long System Prompts
Benchmarking and Dissecting the Nvidia Hopper GPU Architecture
QUICK: Quantization-aware Interleaving and Conflict-free Kernel for efficient LLM inference
Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inferenc
Hydragen: High-Throughput LLM Inference with Shared Prefixes
TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale Language Models
H2O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Model
Scissorhands: Exploiting the Persistence of Importance Hypothesis for LLM KV Cache Compression at Test Time
Dynamic Context Pruning for Efficient and Interpretable Autoregressive Transformers
GQA:Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints
Token Merging: Your ViT But Faster
Fast Transformer Decoding: One Write-Head is All You Need
Abseil Tip 5 사라지는 객체의 함정
주간 팁 #5: 사라지는 객체의 함정
Abseil Tip 177 할당 가능성과 데이터 멤버 타입
주간 팁 #177: 할당 가능성과 데이터 멤버 타입
Abseil Tip 176 출력 매개변수 대신 반환 값을 선호하세요
주간 팁 #176: 출력 매개변수 대신 반환 값을 선호하세요
Abseil Tip 175 C++14와 C++17의 리터럴 상수 변경 사항
주간 팁 #175: C++14와 C++17의 리터럴 상수 변경 사항
Abseil Tip 173 옵션 구조체로 인수 래핑하기
주간 팁 #173: 옵션 구조체로 인수 래핑하기
Abseil Tip 172 지정 초기화자(Designated Initializers)
주간 팁 #172: 지정 초기화자(Designated Initializers)
Abseil Tip 171 Sentinel 값 피하기
주간 팁 #171: Sentinel 값 피하기
Abseil Tip 163 std::optional 매개변수 전달하기
주간 팁 #163: <code>std::optional</code>
매개변수 전달하기
Abseil Tip 140 상수(Constant) 처리 안전한 관용구
주간 팁 #140: 상수(Constant) 처리: 안전한 관용구
FlexLLM: A System for Co-Serving Large Language Model Inference and Parameter-Efficient Finetuning
No Token Left Behind: Reliable KV Cache Compression via Importance-Aware Mixed Precision Quantization
LLM Inference Unveiled: Survey and Roofline Model Insights
LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models
Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs
Scaling Instruction-Finetuned Language Models
GLM-130B: An Open Bilingual Pre-trained Model
Abseil Tip 168 inline 변수
James Dennett (jdennett@google.com) 작성
최초 게시일: 2019년 9월 12일
최종 업데이트: 2020년 4월 6일
Abseil Tip 166 복사가 복사가 아닐 때
Richard Smith (richardsmith@google.com) 작성
최초 게시일: 2019년 8월 28일
최종 업데이트: 2020년 4월 6일
Abseil Tip 161 좋은 지역 변수와 나쁜 지역 변수
James Dennett (jdennett@google.com) 작성
최초 게시일: 2019년 4월 16일
최종 업데이트: 2020년 4월 6일
Abseil Tip 146 기본 초기화와 값 초기화
Dominic Hamon (dominic@google.com) 작성
최초 게시일: 2018년 4월 19일
최종 업데이트: 2020년 4월 6일
Abseil Tip 132 Avoid Redundant Map Lookups
Matt Kulukundis (kfm@google.com) 작성
최초 게시일: 2017년 3월 30일
최종 업데이트: 2019년 11월 25일
Abseil Tip 108 std::bind를 피하세요
Roman Perepelitsa (roman.perepelitsa@gmail.com) 작성
최초 게시일: 2016년 1월 7일
최종 업데이트: 2020년 8월 19일