COMPASS: A Framework for Evaluating Organization-Specific Policy Alignment in LLMs

Автор: LuxaK

Загружено: 2026-01-18

Просмотров: 14

Описание:

The document introduces COMPASS (Company/Organization Policy Alignment Assessment), a novel and systematic framework for evaluating whether Large Language Models (LLMs) comply with organization-specific allowlist and denylist policies. It addresses a critical gap, as existing LLM safety evaluations primarily focus on universal harms like toxicity, neglecting nuanced organizational rules crucial for high-stakes enterprise applications in sectors like healthcare and finance. COMPASS systematically generates evaluation queries, including base queries for routine compliance and strategically designed edge cases to test adversarial robustness. These queries are synthesized from an organization's specific allowlist and denylist policies, with an LLM judge then assessing the chatbot's adherence. The framework was applied to eight diverse industry scenarios, generating and validating 5,920 queries, and used to evaluate seven state-of-the-art models. Key findings reveal a significant asymmetry: LLMs reliably handle legitimate allowlist requests with over 95% accuracy. However, they catastrophically fail at enforcing prohibitions, refusing only 13–40% of adversarial denylist violations, with some models dropping below 5% for policy-violating edge cases. This demonstrates that current LLMs lack the necessary robustness for policy-critical deployments, establishing COMPASS as a vital tool for organizational AI safety.
#COMPASS #LLMEvaluation #AISafety #OrganizationalPolicies #PolicyAlignment #EnterpriseAI #Denylist #Allowlist #AdversarialRobustness #Framework

paper - https://arxiv.org/pdf/2601.01836v1
subscribe - https://t.me/arxivpaper
donations:
USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7
BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr
ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7
SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e
created with NotebookLM

COMPASS: A Framework for Evaluating Organization-Specific Policy Alignment in LLMs

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Сверхчеловеческая производительность в спусках по горкам и лестницам благодаря глубоким нейронным...

Сверхчеловеческая производительность в спусках по горкам и лестницам благодаря глубоким нейронным...

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Как находить и оценивать идеи для стартапов | Стартап-школа

Как находить и оценивать идеи для стартапов | Стартап-школа

The Strange Math That Predicts (Almost) Anything

The Strange Math That Predicts (Almost) Anything

Conversation with Elon Musk | World Economic Forum Annual Meeting 2026

Conversation with Elon Musk | World Economic Forum Annual Meeting 2026

Пантеон: инженерная ошибка, которая пережила 2000 лет

Пантеон: инженерная ошибка, которая пережила 2000 лет

Бывший рекрутер Google объясняет, почему «ложь» помогает получить работу.

Бывший рекрутер Google объясняет, почему «ложь» помогает получить работу.

Краткое объяснение больших языковых моделей

Краткое объяснение больших языковых моделей

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

Hassabis on an AI Shift Bigger Than Industrial Age

Hassabis on an AI Shift Bigger Than Industrial Age

9 science textbooks that professors are obsessed with

9 science textbooks that professors are obsessed with

Механизмы, которые должен знать КАЖДЫЙ инженер-механик

Механизмы, которые должен знать КАЖДЫЙ инженер-механик

7 AI Terms You Need to Know: Agents, RAG, ASI & More

7 AI Terms You Need to Know: Agents, RAG, ASI & More

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

RAG vs Fine-Tuning vs Prompt Engineering: Optimizing AI Models

RAG vs Fine-Tuning vs Prompt Engineering: Optimizing AI Models

Большинство разработчиков не понимают, как работают контекстные окна.

Большинство разработчиков не понимают, как работают контекстные окна.

[1hr Talk] Intro to Large Language Models

[1hr Talk] Intro to Large Language Models

Current AI Models have 3 Unfixable Problems

Current AI Models have 3 Unfixable Problems

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Доработайте свою степень магистра права за 13 минут. Вот как

Доработайте свою степень магистра права за 13 минут. Вот как