مع التطور التكنولوجي الحاصل، بات بإمكان أي كان تعديل الصور، والتعرف على الوجوه ورصدها بين الحشود، وتركيب صور وهمية لأشخاص بحيث تبدو كأنها حقيقية بالكامل وغيرها من الأمور. بالمقابل، هناك جهد يُبذل أيضاً لتطوير تقنيات صوتية لتعديل الأصوات ونسخها وحفظها والتحدّث بها. في عصر الأخبار المزيفة والخاطئة، التي ينشط العديد من شركات التكنولوجيا في محاربتها، لم يعد الأمر يقتصر على الأخبار والصور الخاطئة، وإنما دخلنا في دوامة أخرى تتمثل في نسخ الصوت وما يمكن أن تثيره هذه التقنية من مخاوف جدية.
اليوم، بات بإمكان أي كان أن يتحدث بصوتك ما إن يستطيع التقاط تسجيل مدته عشرات الثواني لك! فقد كشفت شركة Lyrebird الناشئة الشهر الفائت عن خوارزمية تقليد الصوت يمكن أن تحاكي صوت أي شخص وتقرأ أي نص مع مشاعر معينة، استناداً إلى تحليل بضع عشرات ثوانٍ من تسجيل صوتي، معتمدةً بذلك على نماذج التعلم العميق التي تم تطويرها في مختبر جامعة MILA في مونتريال. وبالتالي، هذه التكنولوجيا لا تسمح فقط بتعديل الصوت، كما يفعل العديد من التقنيات الأخرى، إنما بإمكانها إنتاج الصوت من الصفر بشكل حقيقي من دون أن تظهر على أنها منتجة من قبل كومبيوتر، وأولى التجارب التي عرضتها الشركة كانت نقاشاً زائفاً بأصوات كل من: باراك أوباما، دونالد ترامب وهيلاري كلينتون يوضح دقة وفعالية هذه التكنولوجيا حيث صيغت عبارات بأصوات هؤلاء من دون أن يكونوا قد قالوها فعلاً.

أولى التجارب التي عرضتها الشركة كانت نقاشاً زائفاً بأصوات باراك أوباما، دونالد ترامب وهيلاري كلينتون


سوف تقدم Lyrebird واجهة برمجة API لنسخ صوت أي شخص. وسوف تحتاج إلى دقيقة واحدة من تسجيل لصوت المتكلم لتعدّ نغمة فريدة تحدد الصوت. هذه النغمة تسمح بتوليد أي كلام من الصوت، وسوف تكون قوية بما فيه الكفاية للتعلم من التسجيلات الصاخبة. على موقعها، تعرض الشركة عينات تظهر ميزة نسخ الأصوات السريعة التي رصدتها من خلال تسجيلات لأشخاص لم تتجاوز الدقيقة، ومن دون أن تكون الجمل المنتجة منطوقة بالمطلق من قبلهم. كذلك تعرض مجموعة من الجمل المنتجة بتنغيمات وطبقات مختلفة كل مرة، وتقول الشركة إنها يمكن أن تولد ألف جملة في أقل من نصف ثانية.
المثير ــ والمخيف في الوقت نفسه ــ في هذه التقنية هو أن الشخص ليس بحاجة إلى قول أي من الكلمات التي يمكن أن تصاغ، إنما تستطيع هذه التقنية أن تلتقط صوته من التسجيلات الصاخبة وأن تضع عدة نغمات في صوته للتعبير عن عواطف متعددة.
في بيان لها، أعلنت الشركة أنها "تسير مع هذا الابتكار خطوة أخرى في تطوير تطبيقات الذكاء الاصطناعي من خلال تقديم حلول جديدة لتركيب الكلام للشركات والمطورين. وسيكون للمستخدمين القدرة على إنشاء الحوارات كاملة بأي صوت من اختيارهم وحتى يمكنهم تصميم الصوت الذي يريدونه". تتابع الشركة أنه يمكن استخدام هذه التقنية لمجموعة واسعة من التطبيقات كالمساعدين الشخصيين، قراءة الكتب السمعية بأصوات المشاهير، الأجهزة المتصلة من أي نوع، توليف الكلام للأشخاص ذوي الاحتياجات الخاصة، أفلام الرسوم المتحركة أو لاستوديوات ألعاب الفيديو.
لكن ماذا عن الاستعمالات الجرمية التي يمكن أن يتم استخدام هذه التكنولوجيا فيها؟ في الواقع، تطرح هذه التقنية إشكالية أخلاقية كبرى تتعلق بالكثير من الجرائم وعمليات الاحتيال التي يمكن أن تنجم عنها من خلال سرقة الهوية الصوتية للفرد، وهو ما تعترف به الشركة وهو ما كان السبب الأساسي لإعلانها عن هذه التكنولوجيا! تقول الشركة التي أسسها ثلاثة طلاب دكتوراه في جامعة MILA، إن هذه التكنولوجيا تطرح قضايا مجتمعية هامة؛ أبرزها أن "التسجيلات الصوتية تعتبر حالياً دليلاً قوياً في مجتمعاتنا، ولا سيما لدى السلطات القضائية لكثير من البلدان. تطرح التكنولوجيا الحالية أسئلة حول صحة هذه الأدلة لأنها تسمح بالتلاعب بسهولة بالتسجيلات الصوتية، وهذا يمكن أن يكون له عواقب خطيرة مثل الاحتيال ومشاكل أخرى تسببها سرقة الهوية الصوتية لشخص آخر. ومن خلال الكشف عن هذه التقنية الى العلن وجعلها متاحة للجميع، نريد أن نضمن أنه لن تكون هناك مثل هذه المخاطر لأننا نأمل أن يدرك الجميع قريباً أن هذه التكنولوجيا موجودة وأن نسخ صوت شخص آخر ممكن. وبصورة أكبر، نود أن نلفت الانتباه إلى ضعف الأدلة التي يمكن أن تقدمها التسجيلات الصوتية في المستقبل".
Lyrebird ليست التقنية الأولى التي يمكنها أن تعيد إنتاج الأصوات، فقد كشفت شركة Adobe العام الفائت عن برنامج Project VoCo الذي يمكنه تعديل خطاب الإنسان مثلما يفعل برنامجها فوتوشوب بالصور، إلا أنّ هذا البرنامج يحتاج إلى تسجيل صوتي من 20 دقيقة ليقوم بهذا الأمر، في حين أن Lyrebird يحتاج فقط إلى دقيقة واحدة، ما يشكل علامة فارقة جداً في هذا المجال.
للاطلاع على تكنولوجيا Lyrebird: lyrebird.ai

* للمشاركة في صفحة تكنولوجيا التواصل عبر البريد الإلكتروني: [email protected]