Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inferenc
Hydragen: High-Throughput LLM Inference with Shared Prefixes
TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale Language Models
H2O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Model
Scissorhands: Exploiting the Persistence of Importance Hypothesis for LLM KV Cache Compression at Test Time
Dynamic Context Pruning for Efficient and Interpretable Autoregressive Transformers
GQA:Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints
Token Merging: Your ViT But Faster
Fast Transformer Decoding: One Write-Head is All You Need
Abseil Tip 5 사라지는 객체의 함정
주간 팁 #5: 사라지는 객체의 함정
Abseil Tip 177 할당 가능성과 데이터 멤버 타입
주간 팁 #177: 할당 가능성과 데이터 멤버 타입
Abseil Tip 176 출력 매개변수 대신 반환 값을 선호하세요
주간 팁 #176: 출력 매개변수 대신 반환 값을 선호하세요
Abseil Tip 175 C++14와 C++17의 리터럴 상수 변경 사항
주간 팁 #175: C++14와 C++17의 리터럴 상수 변경 사항
Abseil Tip 173 옵션 구조체로 인수 래핑하기
주간 팁 #173: 옵션 구조체로 인수 래핑하기
Abseil Tip 172 지정 초기화자(Designated Initializers)
주간 팁 #172: 지정 초기화자(Designated Initializers)
Abseil Tip 171 Sentinel 값 피하기
주간 팁 #171: Sentinel 값 피하기
Abseil Tip 163 std::optional 매개변수 전달하기
주간 팁 #163: <code>std::optional</code>
매개변수 전달하기
Abseil Tip 140 상수(Constant) 처리 안전한 관용구
주간 팁 #140: 상수(Constant) 처리: 안전한 관용구
FlexLLM: A System for Co-Serving Large Language Model Inference and Parameter-Efficient Finetuning
No Token Left Behind: Reliable KV Cache Compression via Importance-Aware Mixed Precision Quantization
LLM Inference Unveiled: Survey and Roofline Model Insights
LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models
Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs
Scaling Instruction-Finetuned Language Models
GLM-130B: An Open Bilingual Pre-trained Model
Abseil Tip 168 inline 변수
James Dennett (jdennett@google.com) 작성
최초 게시일: 2019년 9월 12일
최종 업데이트: 2020년 4월 6일
Abseil Tip 166 복사가 복사가 아닐 때
Richard Smith (richardsmith@google.com) 작성
최초 게시일: 2019년 8월 28일
최종 업데이트: 2020년 4월 6일
Abseil Tip 161 좋은 지역 변수와 나쁜 지역 변수
James Dennett (jdennett@google.com) 작성
최초 게시일: 2019년 4월 16일
최종 업데이트: 2020년 4월 6일
Abseil Tip 146 기본 초기화와 값 초기화
Dominic Hamon (dominic@google.com) 작성
최초 게시일: 2018년 4월 19일
최종 업데이트: 2020년 4월 6일
Abseil Tip 132 Avoid Redundant Map Lookups
Matt Kulukundis (kfm@google.com) 작성
최초 게시일: 2017년 3월 30일
최종 업데이트: 2019년 11월 25일
Abseil Tip 108 std::bind를 피하세요
Roman Perepelitsa (roman.perepelitsa@gmail.com) 작성
최초 게시일: 2016년 1월 7일
최종 업데이트: 2020년 8월 19일
Benchmarks as Limits to Arbitrage: Understanding the Low-Volatility Anomaly
High Idiosyncratic Volatility and Low Returns: International and Further U.S. Evidence
CHAI: Clustered Head Attention for Efficient LLM Inference
QAQ: Quality Adaptive Quantization for LLM KV Cache
Transformers are Multi-State RNNs
Compressed Context Memory For Online Language Model Interaction
CacheGen: KV Cache Compression and Streaming for Fast Large Language Model Serving
LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression
Galactica: A Large Language Model for Science
BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
Abseil Tip 182 정수형 변수를 초기화하세요!
주간 팁 #182: 정수형 변수를 초기화하세요!
Abseil Tip 180 Dangling References(유효하지 않은 참조) 피하기
주간 팁 #180: Dangling References(유효하지 않은 참조) 피하기
Abseil Tip 158 Abseil 연관 컨테이너와 contains()
주간 팁 #158: Abseil 연관 컨테이너와 contains()
Abseil Tip 147 Exhaustive switch 문을 책임감 있게 사용하기
주간 팁 #147: Exhaustive switch
문을 책임감 있게 사용하기
Momentum Strategies
Mixed Precision Quantization
WKVQuant: Quantizing Weight and Key/Value Cache for Large Language Models Gains More
Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference
KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache
KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization
DeepCache: Accelerating Diffusion Models for Free
Abseil Tip 90 Retired Flags(사용 중단된 플래그)
주간 팁 #90: Retired Flags(사용 중단된 플래그)
Abseil Tip 45 플래그를 피하라, 특히 라이브러리 코드에서
주간 팁 #45: 플래그를 피하라, 특히 라이브러리 코드에서
Abseil Tip 103 플래그는 전역 변수입니다
주간 팁 #103: 플래그는 전역 변수입니다
Improving Language Understanding by Generative Pre-Training
QAQ: Quality Adaptive Quantization for LLM KV Cache
PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU
PaLM 2 Technical Report
Abseil Tip 153 using-directives를 사용하지 마세요
title: “주간 팁 #153: using-directives
를 사용하지 마세요”
layout: tips
sidenav: side-nav-tips.html
published: true
permalink: tips/153
type: markdown
order: “153”
—
Abseil Tip 152 AbslHashValue과 함께
title: “주간 팁 #152: AbslHashValue
과 함께”
layout: tips
sidenav: side-nav-tips.html
published: true
permalink: tips/152
type: markdown
order: “152”
—
Abseil Tip 144 연관 컨테이너에서의 이종 조회(Heterogeneous Lookup)
주간 팁 #144: 연관 컨테이너에서의 이종 조회(Heterogeneous Lookup)
Abseil Tip 136 Unordered Containers
주간 팁 #136: Unordered Containers
ALISA: Accelerating Large Language Model Inference via Sparsity-Aware KV Caching
LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression
FASTDECODE: High-Throughput GPU-Efficient LLM Serving using Heterogeneous Pipelines
Dynamic Memory Compression: Retrofitting LLMs for Accelerated Inference
Fast Inference from Transformers via Speculative Decoding
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
Abseil Tip 24 복사, 축약
title: “이번 주의 팁 #24: 복사, 축약” layout: tips sidenav: side-nav-tips.html published: true permalink: tips/24 type: markdown order: “024” —
Abseil Tip 149 Object Lifetimes vs = delete
title: “이번 주의 팁 #149: 객체 수명 vs. = delete
”
layout: tips
sidenav: side-nav-tips.html
published: true
permalink: tips/149
type: markdown
order: “149”
—
Abseil Tip 148 Overload Sets
원래 TotW #148로 2018년 5월 3일 게시됨
Abseil Tip 117 복사 생략과 값으로 전달하기
원래 TotW #117로 2016년 6월 8일 게시됨