Accueil

Comment ça marche — Cinematrix

Aperçu

Un jeu quotidien de devinette de titres de films. Les mots du titre sont cachés, et vos propositions sont scorées par similarité sémantique avec le synopsis du film via le modèle d'embeddings Qwen3-Embedding-8B.

Comment ça marche

  • Chaque jour, les films sont mélangés dans un ordre déterministe (Fisher-Yates avec graine SHA-256 basée sur la date + langue). Tous les joueurs ont la même séquence.
  • Les mots du titre sont classés : les mots vides (articles, prépositions) sont montrés comme « ? » cliquables, les mots de contenu sont cachés.
  • Une matrice de similarité (mots × films) pré-calculée par Qwen3-Embedding-8B donne un score instantané pour les mots du vocabulaire. Pour les mots hors vocabulaire, la proposition est encodée à la volée via OpenRouter.
  • Si votre proposition correspond à un mot du titre (après normalisation des accents), ce mot est révélé immédiatement dans l'affichage.
  • Cinq indices TMDB sont disponibles par film — classés du plus vague au plus révélateur grâce aux embeddings de tags, et filtrés pour exclure les mots du titre, les verbes triviaux et le vocabulaire grossier.
  • Les scores sont normalisés par rang par film avec une courbe cubique (rang³) — seuls les mots vraiment proches du synopsis obtiennent un score élevé. Un mot-clé TMDB exact donne un bonus de +0.12.
  • La recherche utilise simplemma pour la lemmatisation : « cannibales » matche « cannibal », « dinosaures » matche « dinosaure ».

Stack technique

Qwen3-Embedding-8B OpenRouter API simplemma (lemmatisation) SHA-256 (mélange quotidien) localStorage (progression)

Détails amusants

  • La matrice de similarité (mots × films × 2 langues) est pré-calculée hors-ligne via OpenRouter et stockée en fp16 dans backend/data/embeddings.npz (~166 Mo).
  • Les embeddings des films utilisent le texte brut (synopsis + intrigue Wikipedia) — les modèles d'embedding modernes comprennent mieux le langage naturel que des mots-clés filtrés.
  • À la fin de chaque film, le titre est révélé avec son synopsis et le top 10 des mots-clés TMDB — les mots que vous avez devinés sont surlignés.
  • La lemmatisation est préférée à la racinisation Snowball pour éviter les faux positifs (par exemple « mer » ne doit pas matcher « mère »).
  • La progression quotidienne est sauvegardée en localStorage — rafraîchir la page ne perd pas votre avancement.
← Retour au jeu