مقاييس الأداء لفرق العمل البشري-الوكيل

تخيل أن فريقك المالي بدأ باستخدام وكيل (agent) للمساعدة في عملية الإغلاق الشهري. الوكيل يجلب البيانات من نظام ERP، ويُعد مسودة التعليقات، ويُحضّر الأدلة لكل حساب. وفجأة، يجد فريق المراقبة المالية (controllership) لديه المزيد من الوقت. السؤال الذي يطرح نفسه لم يعد "كم ساعة عمل تم توفيرها؟"، بل "هل تحسنت جودة الإغلاق حقًا؟" أو "هل ساعد الوكيل الفريق في اكتشاف حالات شاذة (anomalies) كانت ستُغفل سابقًا؟"

بدأت مثل هذه الأسئلة تظهر في العديد من الشركات. بعد تشغيل تجارب (pilots) للذكاء الاصطناعي الوكيل (agentic AI) في عدة وظائف - سواء كانت الإغلاق المالي، أو استقبال المشتريات، أو عمليات العملاء، أو فرز حوادث تقنية المعلومات (IT incident triage) - بدأت الإدارة تدرك أن المقاييس القديمة لم تعد كافية. لا تزال إنتاجية كل موظف بدوام كامل (FTE productivity)، ومعدل الاستغلال (utilization)، وحجم المعاملات، ومستويات الخدمة الأساسية (SLA) مفيدة، لكنها لا تلتقط ما يحدث حقًا عندما يعمل البشر والوكلاء معًا.

المشكلة هي أنه بدون المقاييس الصحيحة، تقع الشركات بسهولة في فخ وهمين. الوهم الأول هو تأثير العرض (demo effect): يبدو النظام متطورًا، والاستجابة سريعة، والواجهة مقنعة، لكن التأثير التشغيلي ضئيل. الوهم الثاني هو غرور الأتمتة (automation vanity): تفتخر الشركة بعدد المهام التي "تمت أتمتتها"، بينما ترتفع التكاليف أو المخاطر أو عبء المراجعة البشرية في الواقع.

لماذا لم تعد المقاييس القديمة كافية

نشأت المقاييس التقليدية من نموذج تشغيلي واضح نسبيًا: البشر يؤدون المهام، والأنظمة تدعم، ويُقاس الناتج بالحجم والوقت والتكلفة. في هذا النموذج، كان معدل استغلال الموظف (FTE utilization)، والإنتاجية (throughput)، والتراكم (backlog)، ومستوى الخدمة (SLA) ممثلاً بشكل كافٍ. لكن عندما يبدأ الوكيل في تولي جزء من العمل - قراءة السياق، واستدعاء الأدوات (tools)، وإعداد المسودات، وتوجيه الحالات، وتنفيذ إجراءات محدودة، والتصعيد (escalation) للبشر فقط عند الحاجة - يتغير هيكل العمل بشكل جوهري.

لم يعد ناتج عمل تجاري واحد يُنتج بواسطة نوع واحد من القوى العاملة. بل يُنتج من خلال مزيج من العمل الرقمي (digital labor)، والإشراف البشري، وتنسيق سير العمل (workflow orchestration)، وجودة البيانات، والحواجز الوقائية التشغيلية (guardrails). إذا استمرت الشركة في استخدام المقاييس القديمة بشكل منفرد، فستظهر عدة تشوهات.

خذ مثالاً من الإغلاق المالي. قد ينخفض معدل استغلال فريق المراقبة المالية لأن الوكيل تولى مهمة جمع الأدلة وإعداد مسودة التعليقات. إذا نُظر إلى الأمر بالعدسات القديمة، سيبدو هذا وكأنه "طاقة بشرية عاطلة". لكن ما يحدث في الواقع هو أن الطاقة البشرية تنتقل إلى مراجعة المواد، وتحليل الأسباب الجذرية (root-cause analysis)، والشراكة التجارية (business partnering). انخفاض النشاط اليدوي لا يعني دائمًا انخفاض القيمة. أحيانًا يكون علامة على تحسن النموذج التشغيلي.

في عمليات العملاء، قد يزيد الوكيل من عدد التذاكر التي تتم معالجتها يوميًا. لكن إذا كانت العديد من الحالات تتطلب تصحيحًا من المشرف، أو كان على العميل الاتصال مرة أخرى لأن المشكلة لم تُحل حقًا، فإن الإنتاجية العالية تكون مضللة. في الخدمات المشتركة (shared services)، يمكن للوكيل الاستجابة بسرعة لأي طلب تقريبًا. لكن إذا كانت هذه الاستجابة مجرد إقرار أو رد عام، فسيبدو مستوى الخدمة (SLA) أخضر بينما تكون جودة الحل ضعيفة. في المشتريات أو عمليات تقنية المعلومات، قد يقلل الوكيل من عبء العمل من المستوى الأول. لكن إذا زادت استدعاءات الأدوات غير المصرح بها (unauthorized tool calls)، أو الانحرافات عن السياسات (policy deviations)، أو أخطاء التوجيه، فإن التكاليف التي "تم توفيرها" قد تُدفع غاليًا لاحقًا.

لهذا السبب، تحتاج الشركات إلى إضافة أبعاد قياس جديدة. هناك خمسة أبعاد على الأقل يجب أن تدخل في بطاقة الأداء (scorecard): نواتج الأعمال (outcome)، ومستوى الاستقلالية (autonomy)، والاستثناءات والتصعيد (exception & escalation)، والثقة والتبني (trust & adoption)، وفعالية الرقابة (control effectiveness). بدون ذلك، يصعب التمييز بين تجارب الذكاء الاصطناعي الوكيل المثيرة للاهتمام والقدرات التي تستحق التوسع حقًا.

مقاييس الأعمال: ابدأ من النتيجة، وليس النشاط

يجب أن تظل الطبقة الأولى متعلقة بالأعمال. الوكيل ليس هدفًا بحد ذاته. الوكيل هو وسيلة جديدة لتحقيق النتائج. لذلك، يجب أن تظل المقاييس الرئيسية تجيب على السؤال: هل تحسنت العملية التجارية بعد تطبيق الوكيل؟

تشمل بعض المقاييس الأكثر صلة عادةً: زمن الدورة (cycle time)، والتكلفة لكل معاملة أو لكل حالة (cost per transaction/case)، والإنتاجية (throughput)، وتحقيق مستوى الخدمة (SLA achievement)، ورضا العملاء أو رضا المستخدم الداخلي، بالإضافة إلى تسرب الإيرادات أو تجنب الخسائر (revenue leakage/loss avoidance) لحالات استخدام محددة. لكل مجال تركيزه المختلف قليلاً.

في الإغلاق المالي، قم بقياس وقت الإغلاق، ووقت حل الاستثناءات، وعدد الحسابات التي تأخرت مراجعتها، وجودة مسودة التعليقات، وتراكم المشكلات (backlog) المنقولة إلى الفترة التالية. إذا كان وكيل الإغلاق يسرع عملية الصياغة فقط دون تقليل اختناق المراجعة، فإن القيمة التجارية لا تزال محدودة.

في عمليات المشتريات، قم بقياس زمن الدورة من الطلب إلى أمر الشراء (PO)، والنسبة المئوية للطلبات التي تسلك المسار الصحيح منذ البداية، ومعدل إعادة العمل (rework rate)، والامتثال لسياسات المصادر (sourcing policy)، ورضا مقدم الطلب الداخلي. الوكيل السريع ولكن الذي يخطئ في التصنيف بشكل متكرر سيزيد من عبء عمل المشتري، ولن يقلله.

في عمليات العملاء، قم بقياس معدل الحل من أول اتصال (first-contact resolution)، ومتوسط وقت الحل، ومعدل تكرار الاتصال، ورضا العملاء، وقيمة المبالغ المستردة أو التنازلات غير الضرورية. في عمليات تقنية المعلومات، قم بقياس متوسط وقت الفرز (mean time to triage)، ومتوسط وقت الحل (mean time to resolve)، وتراكم الحوادث (incident backlog)، وتأثير فشل التغيير (change failure impact)، وجودة التسليم (handoff) من الوكيل إلى المهندس. في سلسلة التوريد، قم بقياس وقت حل الاستثناءات، ومستوى الخدمة، وتوافر المخزون، وتكلفة التعجيل (expedite cost)، والتأثير على تنفيذ الطلبات.

أحد الانضباطات التي غالبًا ما يتم تجاهلها هو وضع خط الأساس (baseline) قبل التنفيذ. العديد من الفرق تطلق الوكيل مباشرة ثم تقارن النتائج بالتصورات، وليس بخط أساس حقيقي. بدون خط أساس، لا تستطيع الشركة الإجابة عما إذا كان زمن الدورة قد تحسن حقًا، أو ما إذا كانت التكلفة لكل نتيجة قد انخفضت، أو ما إذا كان التحسين ناتجًا في الواقع عن عوامل أخرى مثل تغيير السياسات، أو تحسين البيانات، أو إعادة تصميم العمليات اليدوية. كحد أدنى، قبل تشغيل الوكيل، تحتاج الشركة إلى توثيق حجم الحالات، ووقت الحل، ومعدل الأخطاء أو إعادة العمل، والتكاليف التشغيلية، وجودة النتائج الحالية.

تحتاج الشركات أيضًا إلى توخي الحذر بشأن إسناد القيمة (value attribution). ليست كل التحسينات بعد تنفيذ الوكيل تأتي من الوكيل. قد ينخفض زمن دورة المشتريات لأنه تم تبسيط مصفوفة الموافقات، وليس فقط بسبب وكيل الاستقبال. قد تتحسن جودة الإغلاق لأنه تم تحسين تعيين البيانات (data mapping). قد يرتفع رضا العملاء لأنه تم تنظيف قاعدة المعرفة. هذه ليست مشكلة - بل غالبًا ما تأتي القيمة من مزيج من إعادة تصميم العملية، وتنظيف البيانات، والوكيل. لكن يجب على الشركات أن تكون صادقة في إسناد القيمة. إذا تم ادعاء جميع التحسينات كنتيجة للذكاء الاصطناعي، فستكون دراسة الجدوى (business case) واهية وستفقد الحوكمة (governance) مصداقيتها.

مقاييس أداء الوكيل: قياس جودة العمل الرقمي

بعد نتائج الأعمال، تأتي الطبقة الثانية وهي أداء الوكيل نفسه. هذا مهم لأن المقياس التجاري الجيد لا يعني بالضرورة أن الوكيل سليم. قد تتحسن نتائج الأعمال بينما ترتفع تكاليف الحوسبة، أو يكون معدل التصحيح (correction rate) مرتفعًا، أو يتحمل المشرفون أعباءً كبيرة بصمت.

تشمل بعض المقاييس الأساسية التي يجب مراقبتها: معدل النجاح (success rate)، ومعدل التصعيد (escalation rate)، ومعدل فشل الأدوات (tool failure rate)، ومعدل التصحيح (correction rate)، ومعدل الهلوسة (hallucination rate)، ومعايرة الثقة (confidence calibration).

معدل النجاح ليس مجرد "الوكيل أعطى إجابة". عرّف النجاح على أنه نتيجة مكتملة وفقًا للهدف ولا تحتاج إلى تصحيح جوهري. في مكتب الخدمة، النجاح يعني أن الطلب اكتمل بشكل صحيح، وليس فقط أن التذكرة أغلقت. في المالية، النجاح يعني أن المسودة أو التوصية يمكن استخدامها من قبل المراجع مع الحد الأدنى من التصحيح. في المشتريات، النجاح يعني أن الطلب تم توجيهه بشكل صحيح ولم يؤد إلى إعادة عمل.

يُظهر معدل التصعيد عدد الحالات التي يجب رفعها إلى البشر. هذا مقياس مهم، لكن يجب قراءته في سياقه. ارتفاعه الشديد يعني أن الوكيل متحفظ جدًا أو لم ينضج بعد. انخفاضه الشديد يعني أن الوكيل قد يكون عدوانيًا جدًا ويخاطر بتجاوز الحالات التي كان يجب تصعيدها. الهدف ليس دائمًا "أقل قدر ممكن"، بل أن يكون مناسبًا لمستوى المخاطرة وتصميم سير العمل.

العديد من حالات فشل الوكيل لا ترجع إلى الاستدلال (reasoning)، بل إلى التكامل: فشل API، أو عدم توفر البيانات، أو أذونات خاطئة، أو انتهاء مهلة الأداة (tool timeout). إذا كان معدل فشل الأدوات مرتفعًا، فالمشكلة تكمن في البنية التحتية والمنصة (platform)، وليس بالضرورة في النموذج نفسه.

معدل التصحيح هو أحد أكثر المقاييس صدقًا. كم مرة يجب على البشر تصحيح مخرجات الوكيل؟ هذا المقياس مفيد جدًا في مسودات التعليقات المالية، وتوصيات الرد على العملاء، وتصنيف طلبات المشتريات، وفرز الحوادث، أو تلخيص استثناءات سلسلة التوريد. إذا كان معدل التصحيح مرتفعًا، فهناك إنتاجية زائفة: يبدو الوكيل نشطًا، لكن البشر ما زالوا يعيدون العمل.

بالنسبة لسير العمل الذي يتضمن استدلالًا يعتمد على المستندات أو المعرفة أو بيانات المؤسسة، تحتاج الشركة إلى تتبع عدد المرات التي يستشهد فيها الوكيل بسياسة غير موجودة، أو يستنتج حقائق غير مدعومة بأدلة، أو يعطي إجابة مقنعة ولكنها خاطئة. لا تستطيع جميع المؤسسات قياس معدل الهلوسة بشكل مثالي، لكن أخذ عينات المراجعة وتدقيق الحالات يمكن أن يعطي مؤشرات أولية.

معايرة الثقة مهمة أيضًا. الوكيل الجيد ليس فقط صحيحًا في كثير من الأحيان، بل يعرف أيضًا متى يكون غير متأكد. إذا ظهرت الثقة العالية في الحالات التي يخطئ فيها غالبًا، فإن المعايرة سيئة. هذا خطير لأن المستخدمين سينخدعون بسهولة أكبر بالمخرجات التي تبدو مؤكدة.

إذا كانت الشركة تستخدم منسقًا (orchestrator) وعدة وكلاء مهام (task agents)، أضف مقياسين مهمين: جودة التسليم (handoff quality) - هل ينتقل السياق بشكل صحيح بين الوكلاء أو إلى البشر - وفشل التنسيق (orchestration failure) - كم مرة يفشل سير العمل بسبب ترتيب الخطوات أو التبعيات أو التوجيه الخاطئ. في تسليم تقنية المعلومات، على سبيل المثال، قد يبدو وكيل المتطلبات، ووكيل البرمجة، ووكيل ضمان الجودة، ووكيل المراجعة كل منهم جيدًا، لكن سير العمل الكلي قد يفشل إذا كان التسليم سيئًا.

أخيرًا، لا تنسَ التكلفة لكل نتيجة ناجحة (cost per successful outcome). يمكن أن ترتفع تكاليف الرموز (tokens) والحوسبة والاسترجاع (retrieval) واستدعاء الأدوات بهدوء مع زيادة النطاق. لذلك، لا تقيس فقط التكلفة لكل تشغيل (cost per run) أو التكلفة لكل مطالبة (cost per prompt). قس التكلفة لكل نتيجة ناجحة. هذا يساعد في الإجابة على أسئلة أكثر استراتيجية: هل الوكيل حقًا أكثر اقتصادًا من نموذج العمل القديم؟ هل الاستقلالية الإضافية تستحق التكلفة؟ هل هناك حالات استخدام ناجحة تقنيًا ولكنها غير صحية اقتصاديًا؟

مقاييس الثقة والمخاطر: لأن التبني بدون ثقة لن يدوم

لن تكون فرق العمل البشري-الوكيل مستقرة إذا لم يثق المستخدمون في النظام، أو إذا شعرت وظيفة المخاطر (risk function) بأن عناصر التحكم (controls) أصبحت غير واضحة. لذلك، تحتاج الشركة إلى قياس شيئين في وقت واحد: الثقة والمخاطر.

بالنسبة للثقة، تشمل بعض المؤشرات الأكثر فائدة: معدل قبول المستخدم (user acceptance rate)، ومعدل التجاوز (override rate)، وفائدة الشرح (explanation usefulness)، والاستخدام المتكرر (repeat usage). يُظهر معدل قبول المستخدم عدد المرات التي يقبل فيها المستخدم توصيات أو مخرجات الوكيل دون الحاجة إلى تغييرها كليًا. يُظهر معدل التجاوز عدد المرات التي يرفض فيها البشر قرار الوكيل أو يستبدلونه. ارتفاع معدل التجاوز قد يعني جودة منخفضة، أو ثقة منخفضة، أو سياسات غير متوافقة. لكن معدل التجاوز الصفري ليس جيدًا تلقائيًا أيضًا - فقد يعني أن المستخدمين سلبيون أو ليسوا نقديين بما فيه الكفاية.

تقيس فائدة الشرح ما إذا كان شرح الوكيل يساعد المستخدمين على فهم الأسباب الكامنة وراء التوصية. في مجالات مثل المالية والمشتريات وعمليات تقنية المعلومات، غالبًا ما يكون الشرح المفيد أكثر أهمية من الإجابة السريعة. بدونه، يصعب بناء الثقة. الاستخدام المتكرر هو مؤشر بسيط لكنه قوي: هل يعود المستخدمون لاستخدام الوكيل عندما لا يكونون مضطرين؟ إذا كان الناس يستخدمون الوكيل فقط لأنهم طُلب منهم ذلك، فإن التبني لا يزال سطحيًا.

بالنسبة للمخاطر، يجب قراءة هذه الطبقة جنبًا إلى جنب مع وظائف المخاطر والامتثال والأمن والتدقيق الداخلي. تشمل بعض المقاييس الأساسية: انتهاكات السياسات (policy violations)، وحوادث تعرض البيانات (data exposure incidents)، واستدعاءات الأدوات غير المصرح بها (unauthorized tool calls)، ونتائج التدقيق (audit findings). يمكن أن تكون انتهاكات السياسات عبارة عن تقديم الوكيل لتوصيات خارج نطاق الصلاحية المفوضة، أو انتهاك حدود الموافقة، أو توجيه الحالات إلى مسار لا يتوافق مع السياسة. تقيس حوادث تعرض البيانات ما إذا كان الوكيل يعرض بيانات لا ينبغي للمستخدم أو لأداة معينة الوصول إليها - وهذا مهم جدًا لسير العمل الذي يتعامل مع أنظمة ERP أو HRIS أو CRM أو بيانات العملاء.

تقيس استدعاءات الأدوات غير المصرح بها ما إذا كان الوكيل يحاول أو ينجح في استدعاء أداة غير مسموح بها. هذا المقياس مهم بشكل خاص للوكلاء المتصلين بأنظمة المعاملات أو تنفيذ سير العمل. نتائج التدقيق هي نتائج مراجعة التدقيق الداخلي أو مراجعة الامتثال لتشغيل الوكيل. إذا كان مسار التدقيق (audit trail) ضعيفًا، أو الأدلة غير كاملة، أو مسار الموافقة غير واضح، فيجب تأجيل التوسع حتى لو بدت مقاييس الأعمال جيدة.

بطاقة أداء مجمعة: القيمة، الجودة، المخاطر، التبني

في النهاية، تحتاج الشركة إلى بطاقة أداء واحدة غير متحيزة. يمكن أن يتضمن هيكلها البسيط خمسة أبعاد. تُقاس القيمة بزمن الدورة، والتكلفة لكل معاملة، والإنتاجية، ومستوى الخدمة، ورضا العملاء أو المستخدم الداخلي. تُقاس الجودة بمعدل النجاح، ومعدل التصحيح، ومعدل الهلوسة، وجودة التسليم. يُقاس التبني والثقة بمعدل القبول، ومعدل التجاوز، والاستخدام المتكرر، وفائدة الشرح. تُقاس المخاطر والرقابة بانتهاكات السياسات، واستدعاءات الأدوات غير المصرح بها، وحوادث تعرض البيانات، ونتائج التدقيق. تُقاس كفاءة العمل الرقمي (Efficiency of Digital Labor) بالتكلفة لكل نتيجة ناجحة، ومعدل فشل الأدوات، ومعدل التصعيد.

تساعد بطاقة الأداء هذه المسؤولين التنفيذيين على تجنب خطأين: رؤية القيمة فقط دون النظر إلى المخاطر، أو التركيز كثيرًا على المخاطر لدرجة عدم قياس النتائج الفعلية أبدًا.

آثار عملية

بعد فهم هذا الإطار، هناك عدة قرارات يجب اتخاذها الآن. أولاً، حدد وحدة القياس الرئيسية. هل ستقيس لكل مهمة، أو لكل حالة، أو لكل معاملة، أو لكل نتيجة ناجحة؟ بالنسبة لفرق العمل البشري-الوكيل، عادة ما يكون المقياس الأخير هو الأكثر فائدة. ثانيًا، اتفق على خط الأساس قبل التوسع. لا تطلق الوكيل بدون بيانات مقارنة لزمن الدورة والتكلفة والجودة ومعدل الاستثناءات.

ثالثًا، قم ببناء بطاقة أداء عبر الوظائف. يجب أن يتفق كبار مسؤولي المعلومات (CIO)، وكبار مسؤولي العمليات (COO)، ومسؤولي المخاطر، وأصحاب العمليات على مزيج من مقاييس القيمة والجودة والتبني والمخاطر - وليس لكل منهم لوحة قيادة خاصة به. رابعًا، حدد من هو مالك كل مقياس. مالك العمل (business owner) يمتلك نتائج الأعمال، وفريق المنصة (platform team) يمتلك الموثوقية والتكلفة، والمشرف يمتلك أنماط التصحيح والتصعيد، ومالك المخاطر يمتلك مقاييس الرقابة. خامسًا، حدد عتبات (thresholds) للتوسع أو الإيقاف المؤقت أو التراجع. على سبيل المثال، متى يكون معدل التصحيح مرتفعًا جدًا، ومتى يجب تعليق حالة استخدام بسبب انتهاك السياسة، أو متى تصبح التكلفة لكل نتيجة ناجحة غير معقولة.

يجب توخي الحذر من بعض إشارات الخطر. إذا كان النجاح لا يزال يُقاس بشكل أساسي بعدد الأتمتة أو تقليل ساعات العمل، إذا لم يكن هناك خط أساس موثوق به قبل التنفيذ، إذا كانت فرق الأعمال وتقنية المعلومات والمخاطر تستخدم تعريفات مختلفة لـ "النجاح"، إذا كان التجاوز والتصحيح مرتفعين ولكن لا يتم إدخالهما في قائمة انتظار التحسينات، إذا كانت تكاليف الرموز والحوسبة ترتفع ولكن لا يتم ربطها بالنتائج، إذا لم يكن مسار التدقيق كافيًا لشرح سبب اتخاذ الوكيل لإجراء معين، إذا كان المستخدمون يستخدمون الوكيل لأنه مطلوب منهم وليس لأنه يساعد في العمل، أو إذا كانت انتهاكات السياسات تعتبر "ضوضاء صغيرة" طالما أن مقاييس الأعمال تبدو جيدة - فهذا يعني أن هذا الموضوع ليس جاهزًا للتوسع بعد.

سؤال تأملي لكبار مسؤولي المعلومات والعمليات والموارد البشرية وقادة التحول: إذا طُلب منك غدًا إثبات أن فريق العمل البشري-الوكيل في شركتك يخلق قيمة حقًا، هل يمكنك فقط عرض عرض توضيحي (demo) ومستويات الاستخدام - أم يمكنك بالفعل عرض بطاقة أداء متوازنة بين النتائج والجودة والتبني والتكلفة والرقابة؟ هذا هو الفرق بين تجربة ذكاء اصطناعي مثيرة للاهتمام ونموذج تشغيلي وكيل (agentic operating model) جاهز للتوسع.

لماذا لم تعد المقاييس القديمة كافية​

مقاييس الأعمال: ابدأ من النتيجة، وليس النشاط​

مقاييس أداء الوكيل: قياس جودة العمل الرقمي​

مقاييس الثقة والمخاطر: لأن التبني بدون ثقة لن يدوم​

بطاقة أداء مجمعة: القيمة، الجودة، المخاطر، التبني​

آثار عملية​