نقش مدل‌های بزرگ زبانی در شناسایی مغالطات منطقی: گامی به سوی ارتقای دقت و شفافیت در فرایند داوری همتا

نوع مقاله : مقاله پژوهشی

نویسندگان

1 نویسنده مسئول، گروه مدیریت فناوری اطلاعات، دانشکده مدیریت صنعتی و فناوری، دانشکدگان مدیریت، دانشگاه تهران، تهران، ایران

2 گروه مدیریت فناوری اطلاعات، دانشکده مدیریت صنعتی و فناوری، دانشکدگان مدیریت، دانشگاه تهران، تهران، ایران.

3 گروه مدیریت فناوری اطلاعات، دانشکده مدیریت صنعتی و فناوری، دانشکدگان مدیریت، دانشگاه تهران، تهران، ایران

4 استاد گروه فلسفه و منطق، دانشکده علوم انسانی، دانشگاه تربیت مدرس

10.22059/jlib.2025.387796.1767

چکیده

هدف : این پژوهش به بررسی نقش مدل‌های بزرگ زبانی در شناسایی مغالطات منطقی در فرایند داوری همتا پرداخته و تأثیر این فناوری‌ها بر بهبود دقت، شفافیت و قابلیت اطمینان مقالات علمی را مورد ارزیابی قرار می‌دهد. همچنین، امکان به‌کارگیری این مدل‌ها برای کاهش بار کاری داوران انسانی و استانداردسازی ارزیابی‌ها بررسی شده است.
روش پژوهش: سه آزمایش متفاوت در پژوهش حاضر طراحی و اجرا شد که شامل شناسایی و طبقه‌بندی مغالطات منطقی، حل مسائل استدلالی و ارزیابی متون علمی با طول و پیچیدگی متغیر بود. از مجموعه داده‌های استاندارد نظیر الک‌دب60-20 و سؤالات بخش منطق استعداد تحصیلی در آزمون دکتری ایران استفاده شد. مدل‌های زبانی پیشرفته مانند چت‌جی‌پی‌تی نسخه‌های o4 وo1  با روش‌های یادگیری ماشین کلاسیک نظیر ماشین بردار پشتیبان و جنگل تصادفی مقایسه شدند. مدل‌ها با استفاده از روش‌های بهینه‌سازی و یادگیری بدون نمونه برای تحلیل داده‌ها آماده شدند.
یافته‌ها: نتایج آزمایش‌ها نشان داد که چت‌جی‌پی‌تی o1 در شناسایی مغالطات منطقی به دقت 98.1 درصد و در حل مسائل منطقی آزمون استعداد تحصیلی کنکور دکتری به دقت 100 درصد دست یافت. در مقایسه، مدل‌های سنتی یادگیری ماشین، مانند ماشین بردار پشتیبان و جنگل تصادفی، به ترتیب تنها دقت 48 درصد و 49 درصد داشتند. مدل‌های زبانی میسترال و لاما نیز دقتی بین 76 درصد تا 5/78 درصد در شناسایی مغالطات ارائه کردند. در تحلیل متون طولانی‌تر، چت‌جی‌پی‌تی o1 دقت 100 درصد را در شناسایی و نام‌گذاری انواع مغالطات ثبت کرد، در حالی که مدل‌های دیگر توانایی کمتری نشان دادند. همچنین مدل‌های زبانی پیشرفته در تحلیل استدلال‌های پیچیده و ارائه بازخوردهای ساختاریافته بسیار مؤثر بودند.
نتیجه‌گیری: مدل‌های بزرگ زبانی ، به ویژه چت‌جی‌پی‌تی‌o1، توانایی بالایی در شناسایی و تحلیل مغالطات منطقی و بهبود فرایند داوری همتا دارند. این مدل‌ها با کاهش خطاهای انسانی، افزایش سرعت داوری و ارائه تحلیل‌های دقیق، نقشی کلیدی در بهبود کیفیت مقالات علمی ایفا می‌کنند. به‌کارگیری این فناوری‌ها می‌تواند به تقویت انسجام و شفافیت در فرایندهای علمی منجر شود، هرچند نظارت نهایی داوران انسانی برای ترکیب تخصص انسانی و هوش مصنوعی ضروری است.

کلیدواژه‌ها


عنوان مقاله [English]

The Role of Large Language Models in Identifying Logical Fallacies: A Step towards Improving Accuracy and Transparency in the Peer Review Process

نویسندگان [English]

  • Babak Sohrabi 1
  • Seyed Mohamad Ali Mousavian 2
  • Amir Manian 3
  • Lotfollah Nabavi 4
1 Corresponding Author, Department of Information Technology Management, Faculty of Technology and Industrial Management, College of Management, University of Tehran, Tehran, Iran
2 Department of Information Technology Management, Faculty of Technology and Industrial Management, College of Management, University of Tehran, Tehran, Iran.
3 professor at faculty of management at university of Tehran
4 Department of Philosophy and Logic, Faculty of Humanities, Tarbiat Modarres University.
چکیده [English]

Objective:This study investigates the role of large language models (LLMs) in detecting logical fallacies during the peer-review process, aiming to improve the accuracy, transparency, and reliability of scientific publications. Additionally, the research evaluates the potential of LLMs to reduce the workload on human reviewers and standardize evaluation practices.
Method: The research involved a series of experiments designed to evaluate the ability of advanced language models, such as ChatGPT (versions 4 and o1), to identify and classify logical fallacies, solve reasoning problems, and analyze academic texts of varying lengths and complexities. Standard datasets, including the ElecDeb2060 dataset and logic questions from the Iranian Ph.D. Entrance Exam, were used. Classical machine learning models, including Support Vector Machine (SVM) and Random Forest, were employed as baseline comparisons. Advanced optimization techniques and zero-shot learning approaches were applied to prepare the language models for the analyses.
Results: The results demonstrated the exceptional performance of advanced language models, particularly ChatGPT o1, which achieved 98.1% accuracy in detecting logical fallacies and 100% accuracy in solving logic problems from the Ph.D. Entrance Exam. In contrast, classical machine learning models, such as SVM and Random Forest, recorded significantly lower accuracies of 48% and 49%, respectively. Other advanced models, such as Mistral and LLama, exhibited moderate performances, with accuracies ranging from 76% to 78.5% in identifying logical fallacies. For longer and more complex texts, ChatGPT o1 maintained 100% accuracy in identifying and naming fallacies, while other models demonstrated reduced capabilities, with accuracies below 50%.
In addition to their accuracy, the advanced LLMs displayed a remarkable ability to analyze complex arguments, identify subtle logical errors, and provide structured feedback. These features highlight their potential for improving both the efficiency and the quality of the peer-review process by reducing human error and offering detailed, objective evaluations.
Conclusion: Large language models, particularly ChatGPT o1, have shown substantial potential to redefine traditional peer-review practices. These models can enhance the speed, precision, and transparency of evaluations, thereby supporting the publication of high-quality research articles. By identifying logical fallacies and cognitive biases, they offer structured feedback that aids authors in refining their work and ensures the integrity of scientific literature. However, human reviewers remain essential as final arbiters in the process, ensuring a balanced integration of AI's analytical capabilities with human expertise. This synergy can pave the way for a more robust, efficient, and transparent peer-review system, fostering progress in scientific research.

کلیدواژه‌ها [English]

  • large language models
  • fallacies
  • peer review
  • LLM
نبوی، لطف‌اله. (1384). مبانی منطق و روش شناسی. تهران: انتشارات دانشگاه تربیت مدرس.
نبوی، لطف‌اله. (1386). تراز اندیشه. تهران: انتشارات بصیرت.
خندان، علی‌اصغر. (1384). منطق کاربردی. تهران: کتاب طه.
حاج کاظمی، محبوبه (1403). توصیف و طراحی مصنوعات و مکانیزم‌های فرهنگی رسانه‌ای به منظور تغییر فرهنگ سازمانی همسو با ارزش‌های جدید. پایان‎نامه دکتری. دانشگاه تهران.