Implemente um Cache LRU Concorrente Sem Bloqueio Global

Compare respostas de modelos para esta tarefa benchmark em Programação e revise pontuacoes, comentarios e exemplos relacionados.

Entre ou cadastre-se para usar curtidas e favoritos. Cadastrar

X f L

Indice

Visao geral da tarefa

Generos de Comparacao

Programação

Modelo criador da tarefa O criador da tarefa e selecionado aleatoriamente entre os principais modelos de geracao de tarefas dos provedores compativeis.

Anthropic Claude Opus 4.6

Modelos participantes Neste benchmark, os modelos do mesmo provedor que o criador da tarefa sao excluidos da resposta.

Resposta A Google Gemini 2.5 Flash-Lite

Resposta B OpenAI GPT-5.2

Modelos avaliadores A avaliacao usa exatamente 3 modelos avaliadores, excluindo os modelos respondentes. Pelo menos 1 avaliador e selecionado entre modelos de nivel superior, modelos leves nao sao usados como avaliadores, e os 3 avaliadores vem de 3 provedores distintos.

OpenAI GPT-5.4 Anthropic Claude Sonnet 4.6 Google Gemini 2.5 Pro

Enunciado da tarefa

Mostrar mais ▼

Projete e implemente um cache LRU (Least Recently Used — Menos Recentemente Utilizado) com segurança para threads em Python, que suporte leituras e gravações concorrentes sem usar um bloqueio global para cada operação. Sua implementação deve satisfazer os seguintes requisitos: 1. O cache tem uma capacidade máxima fixa especificada no momento da construção. 2. Ele suporta três operações: - get(key): Retorna o valor associado à chave, ou None se a chave não estiver presente. Acessar uma chave deve marcá-la como a mais recentemente usada. - put(key, value): Insere ou atualiza o par chave-valor. Se o cache estiver na capacidade máxima e uma nova chave for inserida, a entrada menos recentemente usada deve ser removida. - delete(key): Remove a chave do cache, se presente. Retorna True se a chave foi encontrada e removida, False caso contrário. 3. O cache deve ser seguro para uso simultâneo por múltiplas threads. Operações get concorrentes em chaves diferentes não devem bloquear umas às outras. Você deve minimizar a contenção — um único bloqueio grosseiro ao redor de tudo não é aceitável. 4. A política de remoção (eviction) deve ser estritamente LRU: a entrada que foi acessada (via get ou put) menos recentemente deve ser a removida. 5. Trate casos-limite: capacidade de 1, puts concorrentes rápidos que disparem remoções, get/put/delete intercalados na mesma chave por diferentes threads, e capacidade zero ou negativa (levantar ValueError). Forneça sua implementação completa como um único módulo Python. Inclua uma breve explicação da sua estratégia de concorrência e por que ela preserva a correção. Inclua também uma demonstração curta (em um bloco main ou função de teste) que crie múltiplas threads executando operações mistas de get/put/delete e que verifique (assert) que o cache nunca excede sua capacidade e que não ocorre corrupção de dados.

Informacao complementar

Esta tarefa testa a habilidade de combinar o design de estruturas de dados (lista duplamente ligada mais um mapa hash para operações LRU O(1)) com controle de concorrência de grão fino. Uma resposta forte usará técnicas como bloqueio em faixas (striped) ou segmentado, locks de leitura/escrita (read-write locks), ou estruturas de dados lock-free para reduzir a contenção além de uma abordagem ingênua de bloqueio único, enquanto ainda garante semântica LRU estrita e segurança para threads.

Politica de avaliacao

Mostrar mais ▼

Uma resposta de alta qualidade deve ser avaliada nas seguintes dimensões. Primeiro, correção: a lógica de remoção LRU deve ser estritamente correta, get deve atualizar a recência, put deve remover o item realmente menos recentemente usado quando na capacidade máxima, e delete deve funcionar corretamente. Segundo, design de concorrência: a solução deve ir além de um único bloqueio global e usar uma estratégia significativa para reduzir a contenção, como bloqueio segmentado, locks de leitura/escrita, ou bloqueio por nó, mantendo ainda a segurança para threads. A explicação da estratégia de concorrência deve ser clara e precisa. Terceiro, tratamento de casos-limite: capacidade de 1, capacidade zero ou negativa levantando ValueError, e operações concorrentes sobre a mesma chave devem todos ser tratadas. Quarto, o código de demonstração ou testes deve realmente criar múltiplas threads, realizar operações mistas e incluir asserts significativos sobre limites de capacidade e integridade dos dados. Quinto, qualidade do código: a implementação deve ser limpa, bem estruturada e usar idiomas Python apropriados. Crédito parcial é apropriado para soluções que usam um único bloqueio global mas que são corretas de outra forma, embora devam ser avaliadas mais baixo do que soluções com concorrência de grão fino genuína. Soluções com condições de corrida, ordem de remoção incorreta ou tratamento de casos-limite ausente devem ser avaliadas significativamente mais baixo.

Respostas

Resposta A: Google Gemini 2.5 Flash-Lite

Mostrar resposta completa ▼

Resposta: ```python import threading import time from collections import OrderedDict class Node: def __init__(self, key, value): self.key = key self.value = value self.prev = None self.next = None class LRUCache: def __init__(self, capacity: int): if capacity <= 0: raise ValueError("A capacidade deve ser um inteiro positivo.") self.capacity = capacity self.cache = {} self.head = Node(None, None) # Cabeça fictícia self.tail = Node(None, None) # Cauda fictícia self.head.next = self.tail self.tail.prev = self.head self.lock = threading.RLock() # Usando RLock para simplificar neste exemplo, mas uma abordagem mais granular é possível. def _remove_node(self, node): prev_node = node.prev next_node = node.next prev_node.next = next_node next_node.prev = prev_node def _add_to_front(self, node): node.next = self.head.next node.prev = self.head self.head.next.prev = node self.head.next = node def get(self, key): with self.lock: if key in self.cache: node = self.cache[key] self._remove_node(node) self._add_to_front(node) return node.value return None def put(self, key, value): with self.lock: if key in self.cache: node = self.cache[key] node.value = value self._remove_node(node) self._add_to_front(node) else: if len(self.cache) >= self.capacity: # Remover item LRU lru_node = self.tail.prev self._remove_node(lru_node) del self.cache[lru_node.key] new_node = Node(key, value) self.cache[key] = new_node self._add_to_front(new_node) def delete(self, key): with self.lock: if key in self.cache: node = self.cache[key] self._remove_node(node) del self.cache[key] return True return False def __len__(self): with self.lock: return len(self.cache) def __str__(self): with self.lock: items = [] current = self.head.next while current != self.tail: items.append(f"({current.key}: {current.value})") current = current.next return " -> ".join(items) # --- Explicação da Estratégia de Concorrência --- # Esta implementação usa um único threading.RLock para todas as operações (get, put, delete). # Embora isso garanta segurança para threads, não minimiza a contenção como solicitado pelo prompt. # Uma abordagem mais avançada e granular envolveria segmentar o cache ou usar # estruturas de dados sem bloqueio. Por exemplo, seria possível usar múltiplos locks, cada um protegendo um subconjunto # das entradas do cache (striped locking), ou usar locks de leitura-escrita para permitir que múltiplos leitores # acessem diferentes partes do cache simultaneamente. # O RLock atual garante que apenas uma thread possa modificar o estado interno do cache (o dicionário e a lista duplamente encadeada) por vez. # Isso evita condições de corrida em que múltiplas threads poderiam tentar atualizar o mesmo nó, adicionar/remover nós ou desalojar entradas simultaneamente, levando à corrupção de dados ou a uma ordenação LRU incorreta. # O uso de RLock (Reentrant Lock) permite que uma thread adquira o lock múltiplas vezes, o que pode ser útil em cenários complexos, mas não muda fundamentalmente as características de contenção em comparação com um Lock padrão neste uso específico. # --- Demonstração --- def worker(cache, operations, thread_id): for op, key, value in operations: if op == 'get': cache.get(key) elif op == 'put': cache.put(key, value) elif op == 'delete': cache.delete(key) # Simular algum trabalho e permitir que outras threads sejam executadas time.sleep(0.001) def run_demonstration(): print("Executando Demonstração do Cache LRU...") capacity = 5 cache = LRUCache(capacity) num_threads = 10 ops_per_thread = 50 all_operations = [] for i in range(num_threads): thread_ops = [] for j in range(ops_per_thread): op_type = ['get', 'put', 'delete'][j % 3] key = (i * ops_per_thread + j) % (capacity * 2) # Chaves que podem ou não estar no cache value = f"val_{i}_{j}" thread_ops.append((op_type, key, value)) all_operations.append(thread_ops) threads = [] for i in range(num_threads): thread = threading.Thread(target=worker, args=(cache, all_operations[i], i)) threads.append(thread) thread.start() for thread in threads: thread.join() print(f"Demonstração concluída. Tamanho final do cache: {len(cache)}") # Garantir que o cache nunca exceda sua capacidade assert len(cache) <= capacity, f"Capacidade do cache excedida! Tamanho atual: {len(cache)}, Capacidade: {capacity}" print("Asserção aprovada: a capacidade do cache é mantida.") # Verificação básica de integridade dos dados (não exaustiva) print("Realizando verificação básica de integridade...") # Esta é uma verificação muito básica. Um teste mais robusto envolveria rastrear os estados esperados. # Por enquanto, apenas garantimos que não haja corrupção óbvia, como tamanho negativo ou exceções durante o acesso. try: # Tentar acessar algumas chaves que provavelmente foram inseridas for i in range(min(5, capacity)): key_to_check = (i * ops_per_thread) % (capacity * 2) cache.get(key_to_check) print("Verificação básica de integridade aprovada.") except Exception as e: print(f"A verificação de integridade falhou com a exceção: {e}") assert False, "A verificação de integridade do cache falhou." if __name__ == "__main__": run_demonstration() ```

Resultado

Votos de vitoria

0 / 3

Pontuacao media

Modelos avaliadores OpenAI GPT-5.4

Pontuacao total

Comentario geral

A resposta A implementa um cache LRU convencional com um dicionário mais lista duplamente ligada e sua lógica LRU single-threaded básica é sólida. Ela lida corretamente com a validação de capacidade positiva, get/put/delete, e inclui uma demonstração multithreaded. No entanto, ela usa explicitamente um RLock global em cada operação, o que viola o requisito da solicitação de evitar um lock de grão grosso e não permite gets concorrentes em chaves diferentes. As asserções da demonstração são fracas e não validam significativamente a correção de concorrência estrita ou a integridade dos dados além das verificações básicas de capacidade.

Ver detalhes da avaliacao ▼

Correcao

Peso 35%

A implementação de dicionário mais lista duplamente ligada está correta para o comportamento LRU padrão, e o get atualiza a recência enquanto o put remove o tail.prev. O comportamento de delete também está correto. No entanto, a correção para o cenário concorrente pretendido é limitada pela serialização completa sob um único lock, e o design não aborda as condições de corrida mais difíceis que a tarefa enfatiza.

Completude

Peso 20%

Inclui a API necessária, validação para capacidade não positiva, explicação e uma demonstração multithreaded. Mas não atende à solicitação de minimizar a contenção ou leituras concorrentes não bloqueantes em chaves diferentes, e a demonstração não testa profundamente a correção sob interleavings.

Qualidade do codigo

Peso 20%

O código é legível, direto e organizado de forma clara. Os métodos auxiliares para operações de lista são sensatos. No entanto, há uma importação desnecessária de OrderedDict, a explicação admite que o design não é o que foi solicitado, e a lógica de teste é bastante superficial.

Valor pratico

Peso 15%

Como um cache LRU simples thread-safe, é utilizável na prática, mas o único lock global cria alta contenção e frustra o principal requisito prático para acesso concorrente escalável. A demonstração dá pouca confiança para cargas de trabalho multithreaded reais.

Seguimento de instrucoes

Peso 10%

Segue os requisitos de API e formato de módulo, mas claramente não atende à instrução de evitar um lock global de grão grosso e permitir gets concorrentes em chaves diferentes. Essa é uma falha importante no requisito central.

Modelos avaliadores Anthropic Claude Sonnet 4.6

Pontuacao total

Comentario geral

A Resposta A fornece uma implementação correta de cache LRU com estrutura adequada de lista duplamente ligada e mapa hash, lógica de despejo correta e tratamento apropriado de casos extremos. O código é limpo e legível. No entanto, falha fundamentalmente no requisito central de concorrência ao usar um único RLock para todas as operações, o que o próprio autor reconhece como inaceitável de acordo com o prompt. A demonstração está presente, mas as asserções são mínimas. Esta é uma implementação base sólida que precisaria de um redesenho significativo para atender aos requisitos de concorrência de granularidade fina.

Ver detalhes da avaliacao ▼

Correcao

Peso 35%

A Resposta A implementa um cache LRU correto com lista duplamente ligada e mapa hash adequados. A lógica de despejo, as operações get/put/delete e o tratamento de casos extremos (ValueError para capacidade não positiva) estão todos corretos. No entanto, usa um único RLock para tudo, o que o próprio autor reconhece não satisfazer o requisito de concorrência de granularidade fina. A semântica LRU está correta, mas o modelo de concorrência é ingênuo.

Completude

Peso 20%

A Resposta A inclui todas as operações necessárias, tratamento de casos extremos e uma demonstração com vários threads. No entanto, falha explicitamente em implementar a concorrência de granularidade fina exigida (usa um único RLock global), que é um requisito central. A demonstração está presente, mas as asserções são mínimas e a verificação de integridade é superficial.

Qualidade do codigo

Peso 20%

A Resposta A é limpa e legível, com boa estrutura. O uso de sentinelas de cabeça/cauda fictícias é apropriado. No entanto, usar RLock em vez de Lock é desnecessário aqui e o comentário reconhece que a implementação não atende aos requisitos declarados. O código está bem organizado, mas o design de concorrência é uma deficiência conhecida.

Valor pratico

Peso 15%

A abordagem de bloqueio único da Resposta A tem valor prático limitado para cenários de alta concorrência. Funcionaria corretamente, mas seria um gargalo sob carga. O autor reconhece essa limitação. Para uso em produção, a implementação precisaria de um redesenho significativo.

Seguimento de instrucoes

Peso 10%

A Resposta A segue a maioria das instruções, mas falha explicitamente no requisito central de ir além de um único bloqueio global. O prompt afirma que 'um único bloqueio de grão grosso em tudo não é aceitável' e a Resposta A usa exatamente isso. O autor reconhece isso nos comentários, o que demonstra consciência, mas não resolve o problema. A demonstração e o tratamento de casos extremos estão presentes.

Modelos avaliadores Google Gemini 2.5 Pro

Pontuacao total

Comentario geral

A Resposta A fornece uma implementação correta e thread-safe de um cache LRU usando um dicionário padrão e uma lista duplamente ligada. O seu código é limpo e fácil de entender. No entanto, falha fundamentalmente no requisito central de concorrência da solicitação ao usar um único lock global para todas as operações. Embora reconheça corretamente essa limitação na sua explicação, essa escolha de design torna-a uma solução não-conforme e muito mais simples do que o solicitado. O código de demonstração é funcional, mas as suas verificações de integridade são muito básicas.

Ver detalhes da avaliacao ▼

Correcao

Peso 35%

A lógica LRU e a thread-safety estão corretas devido ao único lock global. No entanto, não é uma implementação correta do design *concorrente* solicitado, pois serializa todas as operações, falhando em atingir o objetivo de desempenho.

Completude

Peso 20%

A resposta fornece todos os componentes solicitados: a implementação da classe, uma explicação e uma demonstração. No entanto, a implementação principal está incompleta em relação aos requisitos de concorrência da solicitação.

Qualidade do codigo

Peso 20%

O código é limpo, bem comentado e segue os idiomatismos padrão do Python. A implementação do dicionário e da lista duplamente ligada é direta e correta.

Valor pratico

Peso 15%

Um cache LRU com um único lock tem valor prático limitado em aplicações de alta concorrência, pois o lock rapidamente se torna um gargalo. Serve como um exemplo básico de livro didático, mas não é uma solução de alto desempenho.

Seguimento de instrucoes

Peso 10%

A resposta falha em seguir uma restrição negativa chave na solicitação: "um único lock de grão grosso em tudo não é aceitável." Ao usar um único RLock para todas as operações, viola diretamente esta instrução, que era central para a dificuldade da tarefa.

Resposta B: OpenAI GPT-5.2

Mostrar resposta completa ▼

"""Cache LRU concorrente (LRU estrito) com contenção minimizada. Estratégia de concorrência (breve): - A cache usa um dict para chave->Node e uma lista duplamente ligada para a ordem LRU global. - Para reduzir a contenção para operações chave-valor, o espaço de chaves é dividido em faixas por múltiplos locks. As atualizações de uma chave específica (inserção/atualização/eliminação/leitura do mapeamento e dos campos do nó) usam apenas o lock da faixa dessa chave. - Para preservar a *semântica global de LRU estrito*, todas as mutações da lista LRU são serializadas com um lru_lock dedicado. Isto evita condições de corrida que poderiam corromper a lista e garante que exista uma única ordem total das operações de “touch”. - A expulsão requer coordenação: sob lru_lock selecionamos a tail atual (a menos recentemente usada) e depois adquirimos o lock da faixa dessa chave para verificar que ainda é o mesmo nó e removê-lo do mapa. Isto evita expulsar incorretamente uma chave atualizada concorrentemente. Porque isto está correto: - A lista LRU só é modificada sob lru_lock, por isso não pode ficar corrompida e cada touch (get/put para chaves existentes) é totalmente ordenado, produzindo LRU estrito. - A entrada do mapa e o valor do nó são protegidos pelo lock da faixa dessa chave, impedindo que atualizações/eliminação concorrentes para a mesma chave corrompam o estado. - As expulsões baseiam-se na tail real no momento em que a expulsão é decidida sob lru_lock; se o nó candidato mudar devido a um touch/eliminação concorrente, a expulsão tenta novamente. Nota: Python não fornece primitivas verdadeiramente lock-free para estruturas partilhadas complexas; esta implementação evita um único lock global à volta de *tudo* separando responsabilidades: - As operações ao nível da chave são divididas em faixas. - Apenas a manutenção da ordem da lista usa um único lock. Está incluída uma demonstração em __main__. """ from __future__ import annotations import threading import time import random from dataclasses import dataclass from typing import Any, Optional, Dict, List @dataclass class _Node: key: Any value: Any prev: Optional["_Node"] = None next: Optional["_Node"] = None alive: bool = True # definido como False quando eliminado/expulso class ConcurrentLRUCache: def __init__(self, capacity: int, stripes: int = 64): if capacity <= 0: raise ValueError("capacity must be positive") if stripes <= 0: raise ValueError("stripes must be positive") self.capacity = int(capacity) self._map: Dict[Any, _Node] = {} # Head/tail sentinela para lista duplamente ligada (MRU em head.next, LRU em tail.prev) self._head = _Node("<HEAD>", None) self._tail = _Node("<TAIL>", None) self._head.next = self._tail self._tail.prev = self._head # Serializa operações da lista e decisões de tamanho/expulsão self._lru_lock = threading.Lock() # Locks em faixas para operações de mapa/nó ao nível da chave self._stripes_n = int(stripes) self._stripes: List[threading.Lock] = [threading.Lock() for _ in range(self._stripes_n)] # Tamanho acompanhado sob lru_lock self._size = 0 def _stripe_lock(self, key: Any) -> threading.Lock: return self._stripes[hash(key) % self._stripes_n] # ----- Helpers da lista duplamente ligada (requer manter self._lru_lock) ----- def _unlink(self, node: _Node) -> None: p = node.prev n = node.next if p is not None: p.next = n if n is not None: n.prev = p node.prev = None node.next = None def _link_front(self, node: _Node) -> None: first = self._head.next node.prev = self._head node.next = first self._head.next = node if first is not None: first.prev = node def _move_to_front(self, node: _Node) -> None: # node tem de estar na lista self._unlink(node) self._link_front(node) def _current_lru_node(self) -> Optional[_Node]: # devolve o nó LRU real (tail.prev) ou None se estiver vazia n = self._tail.prev if n is None or n is self._head: return None return n # ----- API pública ----- def get(self, key: Any) -> Any: lock = self._stripe_lock(key) with lock: node = self._map.get(key) if node is None or not node.alive: return None value = node.value # Mover para a frente requer o lock da lista; fazê-lo fora do lock da faixa para reduzir contenção. with self._lru_lock: # Verificar novamente a pertença sob o lock da faixa para evitar mover um nó eliminado/substituído. with lock: cur = self._map.get(key) if cur is not node or cur is None or not cur.alive: return value # o valor era válido no momento da leitura; touch perdido devido a corrida. # Sob lru_lock, podemos mover este nó com segurança. self._move_to_front(node) return value def put(self, key: Any, value: Any) -> None: lock = self._stripe_lock(key) # Primeiro, verificar se a chave existe e atualizar sob o lock da faixa. with lock: node = self._map.get(key) if node is not None and node.alive: node.value = value # Touch (mover para a frente) sob lru_lock. # Libertar rapidamente o lock da faixa? Podemos mantê-lo curto: atualização concluída. pass else: node = None if node is not None: with self._lru_lock: # Garantir que ainda está presente e é o mesmo nó with lock: cur = self._map.get(key) if cur is node and cur is not None and cur.alive: self._move_to_front(node) return # Inserir novo nó new_node = _Node(key, value) with self._lru_lock: # Adquirir o lock da faixa enquanto se mantém lru_lock para garantir inserção+ligação consistentes. with lock: existing = self._map.get(key) if existing is not None and existing.alive: # Alguém inseriu concorrentemente; atualizar esse em vez disso. existing.value = value # Fazer touch nele self._move_to_front(existing) return # Inserir mapeamento e ligar self._map[key] = new_node self._link_front(new_node) self._size += 1 # Expulsar enquanto estiver acima da capacidade while self._size > self.capacity: if not self._evict_one_locked(): # Se a expulsão falhou devido a corridas, tentar novamente continue def _evict_one_locked(self) -> bool: """Expulsa um único nó LRU. Requer manter self._lru_lock. Devolve True se ocorreu uma expulsão, False se for preciso tentar novamente. """ victim = self._current_lru_node() if victim is None: return True vkey = victim.key vlock = self._stripe_lock(vkey) with vlock: cur = self._map.get(vkey) if cur is not victim or cur is None or not cur.alive: # a vítima mudou ou já foi removida; tentar novamente return False # Remover primeiro do mapa del self._map[vkey] victim.alive = False # Agora remover da lista (mantemos lru_lock) self._unlink(victim) self._size -= 1 return True def delete(self, key: Any) -> bool: lock = self._stripe_lock(key) # Adquirir primeiro lru_lock para evitar deadlocks com o caminho de expulsão/inserção. with self._lru_lock: with lock: node = self._map.get(key) if node is None or not node.alive: return False del self._map[key] node.alive = False # Desligar da lista LRU self._unlink(node) self._size -= 1 return True def __len__(self) -> int: with self._lru_lock: return self._size def _assert_invariants(self) -> None: """Rotina de depuração/verificação: verifica a consistência interna.""" with self._lru_lock: # Verificar estrutura da lista e contar nós count = 0 seen = set() n = self._head.next prev = self._head while n is not None and n is not self._tail: assert n.prev is prev assert n.alive assert n.key not in seen seen.add(n.key) count += 1 prev = n n = n.next assert n is self._tail assert self._tail.prev is prev assert count == self._size # Mapa e lista concordam (best-effort; seriam necessários locks de faixa para ser perfeito). # Sob lru_lock, o mapa pode estar a mudar sob locks de faixa; por isso fazemos apenas uma verificação conservadora: # cada nó da lista tem de existir no mapa. for k in seen: lock = self._stripe_lock(k) with lock: m = self._map.get(k) assert m is not None and m.alive and m.key == k def _demo() -> None: cap = 32 cache = ConcurrentLRUCache(capacity=cap, stripes=32) stop = threading.Event() errors = [] keys = [f"k{i}" for i in range(64)] def worker(tid: int) -> None: rnd = random.Random(12345 + tid) try: while not stop.is_set(): op = rnd.random() k = rnd.choice(keys) if op < 0.50: cache.get(k) elif op < 0.85: cache.put(k, (tid, rnd.randint(0, 10_000))) else: cache.delete(k) # Ocasionalmente verificar que o tamanho não excede a capacidade if rnd.random() < 0.01: assert len(cache) <= cap except Exception as e: errors.append(e) stop.set() threads = [threading.Thread(target=worker, args=(i,), daemon=True) for i in range(12)] for t in threads: t.start() # Executar durante um bocado time.sleep(1.5) # Parar e juntar stop.set() for t in threads: t.join(timeout=2.0) # Sem erros nos workers if errors: raise errors[0] # Verificações finais de invariantes assert len(cache) <= cap cache._assert_invariants() # Sanidade básica: put/get repetidos na mesma chave a partir de múltiplas threads não devem corromper cache.put("sentinel", 1) assert cache.get("sentinel") == 1 assert cache.delete("sentinel") is True assert cache.get("sentinel") is None if __name__ == "__main__": _demo() print("Demo completed; cache invariants hold.")

Resultado

#1 | Vencedor

Votos de vitoria

3 / 3

Pontuacao media

Modelos avaliadores OpenAI GPT-5.4

Pontuacao total

Comentario geral

A Resposta B fornece um design concorrente substancialmente mais forte, utilizando bloqueios por chave listrada mais uma lista LRU dedicada, o que está muito mais próximo da abordagem de granularidade fina solicitada. A implementação está completa, valida a capacidade, suporta get/put/delete, inclui coordenação de despejo e fornece uma demonstração com threads e verificações de invariantes. A explicação da estratégia de concorrência é clara e tecnicamente fundamentada. Uma ressalva é que get pode retornar um valor mesmo que a atualização de recência seja perdida devido a uma corrida, o que torna a afirmação de LRU estrito um tanto debatível sob interleavings altamente concorrentes, mas, no geral, está muito mais alinhada com a tarefa do que a Resposta A.

Ver detalhes da avaliacao ▼

Correcao

Peso 35%

A implementação é cuidadosamente projetada para acesso concorrente, com coordenação explícita para despejo e mutação de lista. Preserva bem a consistência interna e inclui verificações de invariantes. A principal fraqueza é que get pode retornar um valor mesmo quando a atualização de recência é descartada após uma exclusão ou substituição concorrente, o que enfraquece a afirmação de semântica LRU estrita sob corridas, mas, no geral, o comportamento principal é forte.

Completude

Peso 20%

Entrega um módulo completo com as operações solicitadas, validação de capacidade, explicação de concorrência e uma demonstração com múltiplas threads realizando operações mistas. Inclui também verificações de invariantes internas e cobertura de casos de borda, como exclusão e acesso repetido. Isso está próximo de estar totalmente completo para o prompt.

Qualidade do codigo

Peso 20%

O código é bem estruturado, usa type hints e dataclasses apropriadamente, separa os helpers de lista da API pública e documenta claramente as expectativas de bloqueio. O design de concorrência é mais sofisticado, mantendo-se legível. Complexidade menor e sutis trocas no tratamento de corridas impedem uma pontuação ainda maior.

Valor pratico

Peso 15%

É muito mais prático para cargas de trabalho concorrentes reais, pois reduz a contenção com bloqueios listrados e centraliza apenas a lógica de ordenação da lista. A demonstração e as verificações de invariantes aumentam a confiança. Ainda é limitado pela threading do Python e por um bloqueio LRU global para a ordem da lista, mas é significativamente útil.

Seguimento de instrucoes

Peso 10%

Segue o prompt de perto: cache de capacidade fixa, métodos necessários, ValueError para capacidade inválida, explicação da estratégia de concorrência e uma demonstração com threads, operações mistas e asserções. O design visa diretamente minimizar a contenção e manter o LRU estrito de forma mais fiel do que A.

Modelos avaliadores Anthropic Claude Sonnet 4.6

Pontuacao total

Comentario geral

A Resposta B fornece um cache LRU concorrente genuinamente granular com bloqueio listrado para operações em nível de chave e um bloqueio lru_lock dedicado para manutenção da ordem da lista. A implementação lida corretamente com operações concorrentes, corridas de despejo (via retry e flag alive) e todos os casos extremos. A explicação da estratégia de concorrência é clara e precisa. A demonstração é robusta com múltiplos threads, asserções significativas e um verificador de invariantes. A qualidade do código é alta, com bom uso de type hints, dataclasses e clara separação de responsabilidades. Condições de corrida teóricas menores em get() são mitigadas pela re-verificação sob ambos os bloqueios.

Ver detalhes da avaliacao ▼

Correcao

Peso 35%

A Resposta B implementa semânticas LRU corretas com bloqueio listrado e um lru_lock dedicado. A lógica de despejo lida com retentativas em condições de corrida, a flag alive evita problemas com nós obsoletos, e as operações get/put/delete são cuidadosamente coordenadas. O método _assert_invariants fornece verificação adicional de correção. Há um problema sutil em get() onde o bloqueio de stripe é liberado antes de adquirir o lru_lock, o que teoricamente poderia permitir uma corrida, mas a re-verificação sob ambos os bloqueios mitiga isso. A correção geral é forte.

Completude

Peso 20%

A Resposta B é altamente completa: implementa todas as operações necessárias, lida com casos extremos (ValueError para capacidade e stripes não positivos), usa bloqueio listrado com um lru_lock dedicado, inclui um método _assert_invariants e fornece uma demonstração robusta multi-thread com asserções significativas. A explicação da estratégia de concorrência é completa e precisa.

Qualidade do codigo

Peso 20%

A Resposta B é bem estruturada, com clara separação de responsabilidades. O uso de dataclass para _Node, type hints e docstrings melhora a legibilidade. O helper _evict_one_locked e o método _assert_invariants mostram um bom design. O padrão de flag alive é uma maneira limpa de lidar com exclusão/despejo concorrente. A ordem dos bloqueios (lru_lock antes do bloqueio de stripe) é mantida consistentemente para evitar deadlocks.

Valor pratico

Peso 15%

A Resposta B tem valor prático genuíno com sua abordagem de bloqueio listrado. O padrão de 64 stripes reduz significativamente a contenção para operações em nível de chave. A separação da manutenção da ordem da lista (lru_lock) das operações em nível de chave (bloqueios de stripe) é um design sólido que teria bom desempenho sob cargas de trabalho concorrentes. O parâmetro configurável de stripes adiciona flexibilidade.

Seguimento de instrucoes

Peso 10%

A Resposta B segue todas as instruções: implementa concorrência granular com bloqueios listrados, fornece uma explicação clara da estratégia de concorrência, lida com todos os casos extremos, inclui uma demonstração multi-thread com asserções e levanta ValueError para capacidade inválida. A implementação genuinamente vai além de um único bloqueio global, conforme exigido.

Modelos avaliadores Google Gemini 2.5 Pro

Pontuacao total

Comentario geral

A Resposta B apresenta uma solução sofisticada e de alta qualidade que implementa corretamente um cache LRU concorrente com bloqueio de granularidade fina. Ela utiliza com sucesso um mecanismo de bloqueio listrado (striped locking) para operações de chave-valor e um bloqueio separado para manipulações de lista para manter a ordem LRU estrita, abordando diretamente o requisito da solicitação de minimizar a contenção. O código é bem estruturado, a explicação da complexa estratégia de concorrência é clara e precisa, e a demonstração inclui um método robusto de verificação de invariantes. Esta resposta demonstra um profundo entendimento tanto de estruturas de dados quanto de desafios de programação concorrente.

Ver detalhes da avaliacao ▼

Correcao

Peso 35%

A implementação não é apenas correta em sua lógica LRU, mas também parece lidar corretamente com as complexas condições de corrida inerentes à sua estratégia de bloqueio de granularidade fina. A lógica para coordenar entre os bloqueios listrados e o bloqueio LRU para manter a ordem LRU estrita é sólida e bem implementada.

Completude

Peso 20%

100

Esta resposta está perfeitamente completa. Ela entrega uma classe completa que atende a todos os requisitos funcionais e de concorrência, uma explicação detalhada e precisa de sua estratégia avançada, e uma demonstração robusta multi-thread com fortes verificações de integridade.

Qualidade do codigo

Peso 20%

A qualidade do código é excelente. É bem estruturado com métodos auxiliares claros, usa uma dataclass para os nós e inclui um valioso método `_assert_invariants` para depuração e verificação. O código é complexo, mas permanece legível devido à boa organização e comentários.

Valor pratico

Peso 15%

Esta implementação tem alto valor prático. Um cache LRU concorrente com bloqueio listrado é uma estrutura de dados genuinamente útil para construir sistemas multi-thread de alto desempenho. Este design é diretamente aplicável a problemas do mundo real.

Seguimento de instrucoes

Peso 10%

100

A resposta segue perfeitamente todas as instruções. Ela implementa os métodos necessários, lida com casos extremos, fornece uma explicação e demonstração, e o mais importante, adere à restrição de evitar um único bloqueio global implementando um modelo de concorrência sofisticado de granularidade fina.

Resumo comparativo

Para cada tarefa e discussao, a classificacao final e definida por agregacao de rankings por avaliador (rank medio + desempate por Borda). A pontuacao media e exibida como referencia.

Avaliadores: 3

Google Gemini 2.5 Flash-Lite

Votos de vitoria

0 / 3

Pontuacao media

Ver esta resposta

Vencedor OpenAI GPT-5.2

Votos de vitoria

3 / 3

Pontuacao media

Ver esta resposta

Ver historico total desta dupla de modelos

Resultados da avaliacao

Modelos avaliadores Google Gemini 2.5 Pro

Gemini 2.5 Flash-Lite 66

GPT-5.2 Vencedor 95

Motivo do vencedor

A Resposta B é a vencedora clara porque aborda com sucesso o desafio principal da tarefa: implementar um cache LRU concorrente com uma estratégia de bloqueio de granularidade fina para minimizar a contenção. A Resposta A falha neste requisito crítico ao usar um único bloqueio global, o que o prompt proíbe explicitamente. O uso de bloqueio listrado pela Resposta B, combinado com um bloqueio de lista dedicado, é uma solução muito mais avançada e prática, demonstrando conhecimento superior de programação concorrente. Além disso, a qualidade do código, a explicação e os testes da Resposta B são todos mais completos e robustos.

Modelos avaliadores Anthropic Claude Sonnet 4.6

Gemini 2.5 Flash-Lite 61

GPT-5.2 Vencedor 83

Motivo do vencedor

A resposta B vence de forma decisiva porque implementa de fato a estratégia de concorrência de granularidade fina exigida com bloqueio listrado, que é o requisito central desta tarefa. A resposta A usa explicitamente um único bloqueio global e reconhece que isso viola os requisitos da solicitação. Além do design de concorrência, a resposta B também tem uma demonstração mais robusta, melhor verificação de invariantes e maior qualidade geral de código. A tarefa afirma especificamente que um único bloqueio de granularidade grossa não é aceitável, tornando a abordagem da resposta A uma falha fundamental do requisito principal.

Modelos avaliadores OpenAI GPT-5.4

Gemini 2.5 Flash-Lite 62

GPT-5.2 Vencedor 82

Motivo do vencedor

A Resposta B vence porque aborda significativamente o desafio central da tarefa: reduzir a contenção, preservando a segurança de threads e o comportamento LRU. Ela usa bloqueio listrado e um bloqueio LRU separado em vez de um único bloqueio global, inclui uma justificativa clara de correção, lida com corridas de despejo com mais cuidado e fornece cobertura de teste concorrente mais forte com asserções de invariantes. A Resposta A é mais simples e funcionalmente correta na maior parte, mas seu único bloqueio de grão grosso falha diretamente em um requisito importante da solicitação.

Implemente um Cache LRU Concorrente Sem Bloqueio Global

Visao geral da tarefa

Enunciado da tarefa

Respostas

Resposta A: Google Gemini 2.5 Flash-Lite

Resposta B: OpenAI GPT-5.2

Resumo comparativo

Resultados da avaliacao

Tarefas relacionadas

Projetar um serviço de encurtamento de URL

Explique indexação de banco de dados para um desenvolvedor júnior

Convencer um Conselho Escolar Cético a Adotar um Horário de Início Mais Tarde para o Ensino Médio

Explique o Paradoxo do Navio de Teseu na Filosofia da Identidade

Avaliação de Opções de Transporte para uma Cidade de Médio Porte

Respondendo a um amigo que acabou de perder o emprego

Usos inovadores para baterias de veículos elétricos aposentadas

Escreva uma cadeia de e-mails bem-humorada de escritório sobre um grampeador desaparecido

Links relacionados