Ein offenes Automatisierungssystem zur Erkennung räuberischer Zeitschriften

Scientific Reports Band 13, Artikelnummer: 2976 (2023) Diesen Artikel zitieren

11.000 Zugriffe

3 Zitate

57 Altmetrisch

Details zu den Metriken

Eine Autorenkorrektur zu diesem Artikel wurde am 8. Mai 2023 veröffentlicht

Dieser Artikel wurde aktualisiert

Die wachsende Zahl von Online-Open-Access-Zeitschriften fördert den akademischen Austausch, aber die Verbreitung von Predatory Journals untergräbt den wissenschaftlichen Berichterstattungsprozess. Datenerfassung, Merkmalsextraktion und Modellvorhersage sind gängige Schritte in Tools, die darauf ausgelegt sind, zwischen seriösen und kriminellen wissenschaftlichen Zeitschriften und Verlagswebsites zu unterscheiden. Die Autoren nehmen sie in ihr vorgeschlagenes Predatory-Checking-System (AJPC) für akademische Zeitschriften auf, das auf Methoden des maschinellen Lernens basiert. Der AJPC-Datenerfassungsprozess extrahiert 833 Blacklists- und 1213 Whitelists-Informationen von Websites, um sie zur Identifizierung von Wörtern und Phrasen zu verwenden, die auf das Vorhandensein von Raubzeitschriften hinweisen könnten. Mittels Merkmalsextraktion werden Wörter und Begriffe identifiziert, die dabei helfen, räuberische Websites zu erkennen. In der Vorhersagephase des Systems werden acht Klassifizierungsalgorithmen verwendet, um zwischen potenziell räuberischen und legitimen Zeitschriften zu unterscheiden. Wir haben herausgefunden, dass die Verbesserung der Klassifizierungseffizienz des Bag-of-Words-Modells und des TF-IDF-Algorithmus mit Diff-Scores (ein Maß für Unterschiede in bestimmten Worthäufigkeiten zwischen Zeitschriften) bei der Identifizierung räuberischer Journal-Feature-Wörter hilfreich sein kann. Ergebnisse von Leistungstests deuten darauf hin, dass unser System genauso gut oder besser funktioniert als die, die derzeit zur Identifizierung verdächtiger Verlage und Veröffentlichungen verwendet werden. Das offene System liefert nur Referenzergebnisse und keine absoluten Meinungen und akzeptiert Benutzeranfragen und Feedback, um das System zu aktualisieren und die Leistung zu optimieren.

Raubzeitschriften gelten als erhebliche Bedrohung für die Vertrauenswürdigkeit und Legitimität der gängigen wissenschaftlichen Forschung und Berichterstattung1,2. Predatory Journals und Predatory Conference Proceedings werden als irreführende oder nur zum Schreiben vorgesehene Veröffentlichungen3,4 definiert und bedienen die wachsende Nachfrage von Wissenschaftlern nach der Veröffentlichung ihrer Forschungsergebnisse5,6,7,8. Sie behaupten, dass sie über schnelle Manuskript-Review-Prozesse verfügen, erwähnen aber oft nicht, dass sie sich nicht an die Standard-Peer-Review-Verfahren halten. Einige Raubzeitschriften sind dafür bekannt, dass sie Forscher mithilfe falscher Informationen dazu verleiten, Manuskripte einzureichen, und dann vor der Veröffentlichung exorbitante Artikelbearbeitungsgebühren (APCs) verlangen1,9,10. Im Jahr 2021 zeigt die Datenbank „Predatory Reports“ von Cabells, dass es etwa 15.000 aktive Predatory Journals gab, deren Autoren insgesamt Hunderttausende Dollar für die Veröffentlichung ihrer Artikel zahlten11.

Wenn ungenaue oder schlecht umgesetzte Forschungsergebnisse in Predatory Journals veröffentlicht werden, kann dies Auswirkungen auf nachfolgende Studien und die Richtigkeit der Informationen haben, die an die breite Öffentlichkeit weitergegeben werden1. In einigen Fällen werden diese und andere fadenscheinige Forschungsergebnisse auf Websites oder Medien wie Facebook, Twitter und Line veröffentlicht oder von lokalen Fernseh- und Radiosendern berichtet12. In vielen Fällen erhalten Personen, die diese Geschichten lesen oder hören, nicht genügend Informationen, um die Originalquellen zu überprüfen, was schließlich dazu führt, dass Nachrichtenkonsumenten nicht zwischen drei Arten von Wissenschaft unterscheiden können: legitim, Junk und Pseudo13. Ein einfaches Beispiel stammt aus Taiwan, wo ein Forschungsteam behauptete, Daten gefunden zu haben, die darauf hinwiesen, dass der tägliche Verzehr von Ananasfrüchten eine ausreichende Alternative zur medizinischen Behandlung von Augenflecken, sogenannten Glaskörperschwimmern, sei14. Als der ursprüngliche Artikel im Jahr 2019 veröffentlicht wurde, berichteten alle großen Nachrichtensender Taiwans über seine Ergebnisse, die auf mehreren Social-Media-Websites erneut veröffentlicht wurden. Forscher, die die Studie im Detail überprüften, stellten jedoch mehrere Punkte fest, die zu beanstanden waren, wie das völlige Fehlen demografischer Daten der Teilnehmer, das Fehlen einer Kontrollgruppe, falsche statistische Methoden und eine Kombination aus Übertreibungen und grundlegenden Grammatikfehlern im gesamten schriftlichen Bericht. In einem zweiten Beispiel aus dem Mazedonischen Journal of Medical Science behauptete eine Gruppe von Forschern, dass „im Zentrum der Erde möglicherweise eine Struktur ähnlich einem Schwarzen Loch existiert.“ Derselbe Autor dieses Berichts schrieb einen Artikel, in dem er behauptete, Coronaviren würden durch die Strahlung des 5G-Netzwerks verursacht15. Experten, die diese Studien erneut untersuchten, spekulierten, dass die Autoren absichtlich lächerliche Manuskripte bei einem Raubjournal eingereicht hatten oder dass ein Programm für künstliche Intelligenz verwendet wurde, um kritische Begriffe und Phrasen in eine Arbeit einzufügen, um sie wie legitime Forschung aussehen zu lassen.

In den letzten zwei Jahrzehnten kam es zu einem dramatischen Anstieg der Zahl von Open-Access-Zeitschriften (OA-Zeitschriften). Da der Zweck wissenschaftlicher und professioneller Zeitschriften darin besteht, Informationen auf eine Weise zu vermitteln, die eine Überprüfung und Replikation durch andere Forscher in gemeinsamen Gemeinschaften ermöglicht16, können Open-Access-Zeitschriften eine wichtige Rolle bei der Informationsmobilität und -verbreitung spielen, insbesondere da viele Open-Access-Publikationen kostenlos oder kostenlos sind kostengünstig und ermöglichen die schnelle Online-Verbreitung der neuesten Erkenntnisse7,9,17. Die Einfachheit der Online-Veröffentlichung hat jedoch zu einem explosionsartigen Anstieg der Zahl der Online-Zeitschriften geführt, was die Bestimmung der Qualität der veröffentlichten Forschung vor Herausforderungen stellt8. Da Universitäten und Forschungsinstitute von Wissenschaftlern verlangen, dass sie in Zeitschriften mit hohen Platzierungen im SCI, SSCI oder anderen Indizes veröffentlichen, besteht ein besonderes Anliegen darin, räuberische und qualitativ minderwertige Zeitschriften zu identifizieren und zu vermeiden6.

Predatory Journals sind erfolgreich, weil sie den Anforderungen von akademischen Beförderungen und Anstellungsverhältnissen, jährlichen wissenschaftlichen Beurteilungen und Beurteilungen von Bewerbern gerecht werden, wobei die Bewertungen auf der Anzahl der Veröffentlichungen, der Reihenfolge der Autoren und dem Impact der Zeitschrift basieren5,6,7. Heutzutage gilt das Sprichwort „Veröffentlichen oder zugrunde gehen“ insbesondere in Entwicklungsländern wie China, Indien und Südafrika, wo Wissenschaftler einem enormen Druck ausgesetzt sind, ihre Forschungsergebnisse zitiert zu bekommen7,18. Bestimmte geografische Gebiete werden für ihre Teilnahme am Veröffentlichungsprozess ausgezeichnet – beispielsweise die hochentwickelten östlichen Küstenstädte Chinas. Forscher in bestimmten Ländern (z. B. Indien, Nigeria, Türkei) sind für die enorme Anzahl an Artikeln bekannt, die in kriminellen Fachzeitschriften veröffentlicht werden6. Akademische Gemeinschaften in anderen Ländern unternehmen Schritte, um diesem Phänomen entgegenzuwirken. Das Center for Taiwan Academic Research Ethics Education arbeitet mit der National Yang Ming Chiao Tung University, der National Taiwan University und anderen Schulen und Forschungsinstituten zusammen, um Fakultätsmitgliedern und Forschern dabei zu helfen, zu lernen, wie man kriminelle Zeitschriften und Konferenzen erkennt. Die Schulung umfasst das Üben in drei Schritten: Nachdenken, Überprüfen und Einreichen bei seriösen Zeitschriften und Verlagen. Den Teilnehmern wird auch gezeigt, wie sie Bibliotheksressourcen wie Beall's List, die Stop Predatory Journals List, das Directory of Open Access Journals (DOAJ), die Master Journals List, das International Network for the Availability of Scientific Publications und African Journals Online nutzen können. Es gibt jedoch kein umfassendes zentrales Anfragesystem für Wissenschaftler, die an der Veröffentlichung ihrer Manuskripte interessiert sind.

Jeffrey Beall, dem die Prägung des Begriffs „Predatory Open Access Publishing“ zugeschrieben wird9,19, beschreibt das OA-Geschäftsmodell dadurch, dass außergewöhnlich hohe Bearbeitungsgebühren für Manuskripte erhoben werden, die in „kostenlosen“ Online-Zeitschriften veröffentlicht werden9. Zu seinen heuristischen Kriterien zur Identifizierung räuberischer Zeitschriften-Websites gehören die Annahme von Artikeln zu Themen, die nichts mit dem angegebenen Fachgebiet der Zeitschrift zu tun haben, das Versprechen einer schnellen Begutachtung und Veröffentlichung sowie die Erhebung außergewöhnlich hoher APCs ohne Garantien für angemessene redaktionelle Dienstleistungen9,20.

Derzeit verwenden Forscher bei der Untersuchung von Zeitschriftenlisten und Websites eine Kombination aus systematischen Überprüfungen und statistischen Analysen. Sowohl quantitative (Häufigkeiten und Prozentsätze von Merkmalen räuberischer Zeitschriften) als auch qualitative Methoden (thematische Analysen) wurden angewendet, um Marker für räuberische Zeitschriften in fünf häufig verwendeten bibliografischen Datenbanken zu erkennen21. Sie berichteten, dass in 78 % der Studien, die sie für ihr Projekt überprüften, die Autoren Kommentare, Meinungen, Briefe oder Leitartikel verwendeten, um Zeitschriftenmerkmale abzugrenzen oder zu diskutieren. Aus den verbleibenden 22 % extrahierten sie 109 einzigartige Merkmale und erstellten daraus sechs analytische Kategorien: Journaloperationen; Artikel-, Redaktions- und Peer-Review-Verfahren; Kommunikation; Artikelbearbeitungsgebühren; Verbreitung, Indexierung und Archivierung; und das Erscheinen von fünf Deskriptoren. Ihre Ergebnisse heben eine lange Liste von Warnsignalen hervor: irreführende Praktiken oder mangelnde Transparenz, die auf schlechte Qualitätsstandards hinweisen, Anzeichen unethischer Forschungs- oder Veröffentlichungspraktiken, die Verwendung bestimmter Arten überzeugender Sprache, Zeitschriften, die von Autoren für ein begrenztes Publikum in speziell identifizierten Ländern veröffentlicht werden, unklare Informationen über APCs und Behauptungen, unter anderem in bekannten Verzeichnissen oder Datenbanken aufgeführt zu sein. Weitere bibliometrische Analysen zur Überprüfung internationaler medizinischer Literatur zu Predatory Publishing22 und Predatory Journal Citern23. Die deskriptiven bibliometrischen Methoden wurden verwendet, um die Produktivität von Einzelpersonen, Institutionen und Nationen sowie den geografischen Standort und die Veröffentlichungen der zitierenden Autoren zu analysieren.

In einem gesonderten Artikel wird darauf hingewiesen, dass manuelle Klassifizierungsmethoden tendenziell auf unzureichenden oder von Natur aus verwirrenden Kriterien basieren6. Daher gibt es eine kleine Anzahl von Identifizierungsprogrammen, die andere Ansätze als die von Cobey et al.21 beschriebenen verwenden. Ein Beispiel, ein webbasiertes Plug-in von ispredatory.com, nutzt eine Kombination aus Bealls Liste und von Wissenschaftlern geteilten Predatory-Publisher-Daten – eine Form von Crowdsourcing24. Benutzer können nach Verlagen nach Namen, URL, Titel oder Zeitschriften-ISSN suchen und auf eine manuell aktualisierte Liste bestätigter Raubverlage zugreifen. Die Datenmusterextraktionsstrategie zur Erkennung falscher Indizierungsansprüche nutzt Elemente von Random Forest, RepTree und J48-Entscheidungsbäumen sowie zugehörige Algorithmen25. Um Verbindungen zwischen einzelnen Artikeln und räuberischen/legitimen Verlagen und Zeitschriften zu ermitteln, wurde ein datengesteuertes Trainingsmodell namens PredCheck mit Datensätzen von zwei in Indien ansässigen Verlagsgruppen verwendet: OMICS (OPG) und BioMedical Central (BMC)26. Im Durchschnitt erreichte ihr auf dem naiven Bayes-Klassifikator basierendes Modell eine Genauigkeit von 95 % und einen F1-Score von 0,89.

Diese Methoden und Kriterien nutzen die spezifische Datei, den Tag-Inhalt oder das Web-Plug-in und erfordern daher menschliches Eingreifen, um Informationen zu Überprüfungszwecken zu sammeln. Für Wissenschaftler gibt es derzeit kein offenes Abfragesystem, das keine Installation erfordert und intuitiver ist. Ziel der vorliegenden Studie ist es, ein intuitives Analysesystem zu entwerfen, das jeder ohne Plug-in nutzen kann, um räuberische Zeitschriften und Verlagswebsites zu identifizieren. Unsere vorgeschlagene Lösung umfasst Modelltraining unter Verwendung räuberischer und legitimer Datensätze, die aus Inhalten von Zeitschriftenwebsites erstellt wurden. Unser vorgeschlagenes System, das zur Erreichung seines Zwecks die kleinstmögliche Anzahl von Merkmalen verwendet, verwendet Diff-Scores (die in einem späteren Abschnitt beschrieben werden), um Merkmalswörter zu identifizieren, die häufig auf Websites von Raubjournalen vorkommen – mit anderen Worten, Begriffe, die eine positive Wirkung haben Auswirkungen auf die Modellleistung. Wir haben eine Webanwendung erstellt, die vollständigen öffentlichen Zugriff auf das AJPC-System bietet. Dies ist ein benutzerfreundliches Abfragesystem als Referenz.

Raubzeitschriften machen sich die Bereitschaft von Wissenschaftlern zunutze, Beiträge einzureichen, um Artikel anzuwerben. Zu den Funktionen gehören eine schnelle Überprüfung ohne professionellen Überprüfungsmechanismus, ein betrügerischer Einflussfaktor, gefälschte Redaktionen, in denen angesehene Wissenschaftler wahrheitsgemäß aufgeführt sind, eine umfangreiche Sammlung von Artikeln, Zeitschriftentitel, die scheinbar denen seriöser Zeitschriften ähneln, und aggressive Spam-Einladungen zur Einreichung von Artikeln. Darüber hinaus erzielen Predatory Journals Gewinne, indem sie hohe Bearbeitungsgebühren für Artikel erheben.

Wie in Abb. 1 dargestellt, werden sowohl auf räuberischen als auch auf seriösen Zeitschriften-Websites häufig Textblöcke mit den Bezeichnungen „Impact Factor“, „Redaktion“, „Über die Zeitschrift“ und „Kontakt“ angezeigt. Die Unterscheidung zwischen ihnen erfordert dieselben maschinellen Lerntaktiken, die zur Lösung binärer Klassifizierungsprobleme wie gefälschter Social-Media-Identitäten27, verdächtiger URLs in sozialen Netzwerken und der Entführung legitimer Websites25 eingesetzt werden. Beim maschinellen Lernen besteht der Textklassifizierungsprozess aus der Zuweisung von Tags oder Kategorien basierend auf dem Textinhalt. Obwohl Texte reichhaltige Informationsquellen bieten können, kann die Gewinnung von Erkenntnissen schwierig und zeitaufwändig sein, wenn es sich um unstrukturierte Daten handelt.

Unser vorgeschlagenes AJPC-System (Academic Journal Predatory Checking) identifizierte die erste Zeitschrift, Antarctic Science, als legitim und die zweite, International Journal for Development of Computer Science and Technology, als potenziell räuberisch. Ähnlichkeiten zwischen den beiden Websites sind in den Farbkastenrahmen vermerkt. 1a wurde von https://www.cambridge.org/core/journals/antarctic-science# und 1b von http://ijdcst.com/ aufgenommen.

Zu den Taktiken räuberischer Verlage gehören falsche Darstellungen von Peer-Review-Prozessen, redaktionellen Diensten und Datenbankindexierungsstatus1. Gewinnorientierte Raubzeitschriften reduzieren im Allgemeinen die Redaktions- und Veröffentlichungskosten drastisch, indem sie Verfahren wie Gutachtergutachten vollständig eliminieren, sich mit Problemen akademischen Fehlverhaltens befassen, mögliche Fälle von Plagiaten kennzeichnen und die Legitimität der Autorengruppe bestätigen29. Dennoch fällt es überraschend vielen Raubzeitschriften leicht, wissenschaftliche Beiträge von Autoren zu gewinnen, die daran interessiert sind, ihre Lebensläufe aufzufüllen21,30. Diese absichtlich irreführenden Handlungen können zu falschen Zitaten und Zitierungen führen, wodurch wertvolle Forschungsgelder und -ressourcen verschwendet werden und gleichzeitig das Vertrauen der Öffentlichkeit in die universitäre Forschung zerstört wird. Websites von Predatory-Journals verfügen in der Regel auch nicht über eine glaubwürdige Datenbankindizierung bei Agenturen wie Journal Citation Reports (JCR) oder dem Directory of Open Access Journals (DOAJ). Zusammengenommen führen diese Probleme zu Chaos in akademischen Gemeinschaften, wobei Herausgeber, Autoren, Gutachter und verwandte Personen verschiedene Strategien verfolgen, um die Forschungsqualität zu schützen31,32.

Da Predatory Journals dazu neigen, ihre Indexinformationen und Impact-Werte zu verfälschen und gleichzeitig hohe Akzeptanzraten zu fördern33, müssen Forscher, die Predatory Journals meiden möchten, mit aktuellen Indexrankings, wissenschaftlichen Indikatoren und Ankündigungen aus wissenschaftlichen Publikationsdatenbanken vertraut sein. Neben Redaktionsadressen scheinen Ausdrücke und Begriffe wie „Indexierung in [spezifischer] Datenbank“ und „Zeitschriftenmetriken“ auf Legitimität hinzuweisen, werden aber auch in irreführenden Werbe- und Verkaufsförderungs-E-Mails verwendet, die von Raubzeitschriften verschickt werden34. Weitere Warnsignale sind das Versprechen einer schnellen Begutachtung durch Fachkollegen; die Verwendung informeller oder persönlicher Kontakt-E-Mails, die nicht mit einer Website verbunden sind; Zeitschriften-Webseiten mit mehreren Rechtschreib-, Grammatik- und Inhaltsfehlern; falsche Behauptungen über hohe Einflussfaktoren bei selbst erstellten Indikatoren; und das Fehlen von Verlagseinträgen in universellen Datenbanken wie dem DOAJ, der Open Access Scholarly Publishers Association oder dem Committee on Publication Ethics13,19,33,34,35,36. Die unbeabsichtigte Veröffentlichung wissenschaftlicher Forschung durch Spam- und Phishing-E-Mails kann Ihrer Karriere schaden und zu finanziellen Verlusten führen. Forscher sind beunruhigt über die elektronischen Einladungen, die sie erhalten, um Vorträge einzureichen oder an Konferenzen teilzunehmen, und sie benötigen eine gute Ausbildung oder ein wertvolles Bewertungssystem, um beurteilen zu können, ob sie räuberisch sind oder nicht.

Wie Abb. 1 zeigt, sind die Besitzer von Predatory-Journal-Websites geschickt darin, die Layoutstile legitimer Websites nachzuahmen. Abbildung 2 zeigt die ersten Zeilen von Briefen und E-Mails von Predatory Journals, die Wissenschaftler regelmäßig erhalten und in denen sie zur Einreichung von Manuskripten aufgefordert werden. es ist schwierig, sie von Mitteilungen seriöser Zeitschriften zu unterscheiden21,30. Beide Abbildungen enthalten Textbeispiele, die die Vorzüge der einladenden Zeitschriften hervorheben, darunter hohe h5-Indexwerte; hohe Zitationsraten; und spezifische Indizierung (grüne, rote bzw. orangefarbene Kästchen).

Beispiele für potenziell irreführenden Text in Einladungen an Wissenschaftler, die Manuskripte einreichen.

Überwachtes, unüberwachtes und verstärkendes maschinelles Lernen für die Verarbeitung natürlicher Sprache sind nützliche Werkzeuge zur Lösung zahlreicher Probleme der Textanalyse. Die Hauptherausforderung bei der Erstellung eines praktischen Systems zur Identifizierung räuberischer Zeitschriften ist ähnlich wie bei Problemen mit Fake News und der Erkennung bösartiger URLs28,37: Bei beiden Problemtypen geht es um Textvariationen, verwirrende oder unklare Nachrichten und nachgeahmte Website-Layouts. Da es sich bei der Identifizierung räuberischer Zeitschriften-Homepages im Wesentlichen um ein Klassifizierungsproblem handelt, haben wir uns vorgenommen, einen oder mehrere Algorithmen zu modifizieren, um den menschenzentrierten maschinellen Lernprozess der Google UX Community38 zu verbessern. Derzeit sind die am häufigsten verwendeten Ansätze zur Textbewertung und -klassifizierung Support Vector Machine (SVM), Gaußsche naive Bayes, multinomiale naive Bayes, Random Forest (RF), logistische Regression, stochastischer Gradientenabstieg (SGD) und K-Nearest Neighbor (KNN). , und Abstimmung39. Alle verwenden fein abgestimmte Parameter, um die beste Konfiguration für jede Klassifizierungstechnik auszuwählen. Im Folgenden finden Sie kurze Beschreibungen dieser Ansätze.

SVMs werden häufig zur Erkennung irreführender Texte, Clickbait- und Phishing-Websites eingesetzt und sind praktische Tools, die mithilfe von Entscheidungsebenen Objekte in zwei Kategorien einteilen: erwartet und nicht erwartet37,40,41. Ein Beispiel für einen SVM-basierten Ansatz nutzt inhaltsbasierte Funktionen, um Klassifikatoren zu trainieren, die dann zum Markieren verschiedener Kategorien verwendet werden (F1 = 0,93)40. Ihr SVM-Algorithmus verwendete jeden Datensatz als Vektor, zeichnete ihn in einem hochdimensionalen Raum auf und konstruierte eine Hyperebene, um Klassen zu trennen. Die Hyperebene maximierte die Abstände zwischen den Ebenen und ihren nächstgelegenen Clickbait- und Nicht-Clickbait-Datenpunkten.

Das RF-System und die beiden naiven Bayesian-Systeme (NB) werden aufgrund ihrer Recheneffizienz und Implementierungsleistung häufig auf Textklassifizierungsprobleme angewendet42. Das Fehlen algorithmusspezifischer Parameter bedeutet jedoch, dass Benutzer des NB-Systems über gründliche Kenntnisse des untersuchten Modells verfügen müssen, was einen erheblichen Rechenaufwand für Optimierungszwecke mit sich bringt43. Das RF-System funktioniert als zufälliger Hyperlink mit spezifischen Parametern – zum Beispiel einem spezifischen Baum und Variablennummern für jede Aufteilung. Solange die Gesamteingabegröße ausreichend groß ist, gilt ihre Leistung als ausreichend robust, um Parameteränderungen zu verarbeiten. In einer Studie zur Erkennung von Phishing-Fällen hatte der RF-Klassifikator eine Genauigkeitsrate von 98,8 %41 und in einer separaten Studie zur Erkennung räuberischer biomedizinischer Fachzeitschriften ergab er einen F1-Score von 0,9326. Das RF-System wurde auch zusammen mit Entscheidungsbäumen als Strategie zur Verhinderung der Indizierung von Artikeln verwendet, die in Raubzeitschriften veröffentlicht wurden, da einige Personen sich darin auskennen, Zeitschriftenwebsites zu kapern und Bearbeitungs- und Veröffentlichungsgebühren von unvorsichtigen Autoren einzutreiben25.

Logistische Regressionen wurden verwendet, um Schlagzeilen und Inhalte zu klassifizieren. In einer Studie mit gefälschten und wahren Nachrichten in Bulgarien erreichte ein logistischer Regressionsansatz eine Genauigkeit von 0,75 für den schwierigsten Datensatz44. Logistische Regressionen weisen Merkmalen in einzelnen Stichproben Gewichtsfaktoren zu, wobei die vorhergesagten Ergebnisse dem Wert jedes Stichprobenmerkmals multipliziert mit seinem Einflussfaktor – dem Gleichungskoeffizienten – entsprechen. Dementsprechend werden Klassifizierungsprobleme in Probleme zur Lösung von Optimierungskoeffizienten umgewandelt.

SGD wurde erfolgreich auf umfangreiche und spärliche maschinelle Lernprobleme angewendet, die häufig bei der Textklassifizierung und der Verarbeitung natürlicher Sprache auftreten. Es kann entweder für Klassifizierungs- oder Regressionsberechnungszwecke verwendet werden. In einer indonesischen Studie wurde ein SGD-Klassifikator mit einem modifizierten Huber-Kernel zur Erkennung von Hoaxes auf Nachrichten-Websites verwendet und es wurde berichtet, dass er eine Genauigkeitsrate von 86 % aufwies35.

KNN ist eine instanzbasierte oder Lazy-Learning-Methode mit lokalen Approximationen und allen Berechnungen, die bis zur Nachklassifizierung verschoben werden45. KNN gilt als einer der einfachsten aller Algorithmen für maschinelles Lernen und reagiert empfindlich auf lokale Datenstrukturen. Diese Methode kann mit einem Trainingssatz verwendet werden, um Zeitschriften zu klassifizieren, indem die nächstgelegenen Gruppen identifiziert werden. Kategoriebezeichnungen werden entsprechend der Dominanz einer bestimmten Kategorie innerhalb einer Gruppe vergeben. Eine Studie wendete heuristische Merkmalsdarstellungen mit der KNN-Methode an, um räuberische Zeitschriften zu klassifizieren, und berichtete über eine Genauigkeitsrate von 93 %46.

Abstimmungen sind eine der einfachsten Möglichkeiten, Vorhersagen mehrerer Algorithmen für maschinelles Lernen zu kombinieren. Die Methode erfordert keinen tatsächlichen Klassifikator, sondern eine Reihe von Wrappern, die parallel trainiert und ausgewertet werden, um die Eigenschaften jedes Algorithmus zu nutzen.

Die Klassifizierung umfasst zwei Hauptziele: die Analyse von Faktoren, die sich auf die Datenklassifizierung auswirken, und die Zuweisung von Elementen zu vorab festgelegten Klassen über Merkmalsvorhersagen39. Wenn ein Klassifikator über ausreichende Daten verfügt, kann ein Modell die Merkmale der erwarteten Kategorien identifizieren und sie für weitere Datenkategorievorhersagen verwenden. Wenn zur Textklassifizierung Wortreihenfolgebeziehungen und Grammatikstrukturen in einer Datei nicht berücksichtigt werden, ist Bag of Words (BOW) eine gängige Vektorisierungsmethode, die Gewichtungen berechnet, die mit der Anzahl der Wortvorkommen in einem Text verbunden sind. BOW wurde häufig bei Aufgaben wie der Klassifizierung von Restaurantbewertungen, dem Abruf negativer Informationen und der Spam-Mail-Filterung eingesetzt28,37,47. Um maschinelle Lernalgorithmen nutzen zu können, müssen einzelne Dokumente in Vektordarstellungen umgewandelt werden. Unter der Annahme, dass in allen N Dokumenten mit T Termen verwendet werden, ist es möglich, alle Dokumente in eine Vektormatrix umzuwandeln. Nehmen Sie beispielsweise einen Vektor N3 = [15, 0, 1,…, 3] an, wobei das Wort T1 15 Mal, das Wort T3 einmal und das Wort Tt dreimal in Dokument 3 vorkommt. Obwohl BOW als einfache Methode zur Dokumenttransformation angesehen wird müssen zwei Probleme gelöst werden. Das erste besteht darin, dass die Gesamtzahl der Wörter pro einzelnem Dokument nicht gleich ist. Wenn es in Dokument 2 insgesamt 10.000 Wörter und in Dokument N 50 Wörter gibt und Wort 3 in Dokument 2 zehnmal, in Dokument N aber nur zwei Mal vorkommt, wird es in Dokument N offensichtlich ein viel größeres Gewicht haben. Das andere Problem sind die idiomatischen Ausdrücke und häufig verwendete Wörter haben erhebliche Auswirkungen auf einzelne Dokumente. Wenn beispielsweise ein gebräuchliches Wort wie „das“ oft in verschiedenen Dokumenten vorkommt, in einem jedoch am häufigsten vorkommt, wird es zu einem dominanten, aber bedeutungslosen Vektor.

Die frequenzinverse Dokumenthäufigkeit (TF-IDF) ist eine statistische Methode, die häufig beim Informationsabruf und in textbezogenen Szenarien verwendet wird, um die Wortbedeutung in Dokumenten zu bewerten43,49,50. Der TF-IDF-Algorithmus unterteilt Merkmalswörter nach Gewicht und reduziert die Anzahl der Wörter mit Nullgewicht. Bei dem Problem der Website mit räuberischen Zeitschriften kann die Suche nach besseren Gewichtungen von Merkmalswörtern die Unterscheidungseffizienz verbessern, wenn festgestellt werden kann, dass Wörter häufiger auf räuberischen Websites vorkommen. Eine kurze Liste von Merkmalswörtern, die diese Anforderung möglicherweise erfüllen, umfasst „international“, „amerikanisch“, „britisch“, „europäisch“, „universell“ und „global“, wobei einige Forscher vermuten, dass dies wahrscheinlicher ist in räuberischen Zeitschriftentiteln erscheinen21,34,51. Andere verdächtige Wörter stehen im Zusammenhang mit Kennzahlen: „Quality Impact Factor“, „Global Impact Factor“ und „Scientific Journal Impact Factor“ sind drei Beispiele. Andere Schlagworte beziehen sich auf Ideen, die in einem früheren Abschnitt dieses Papiers geäußert wurden: Versprechen von Peer-Review-Prozessen und kurzen Review-Zyklen, die von einigen Tagen bis zu weniger als vier Wochen reichen.

Da die frühzeitige Erkennung von Website-Mustern für die Identifizierung räuberischer Zeitschriften von zentraler Bedeutung ist, ist die Bestimmung der Modellgenauigkeit eine entscheidende Aufgabe. Zur Bewertung von Klassifikatoren wurden im Allgemeinen vier Leistungsmetriken verwendet: Genauigkeit (Prozentsatz korrekter Klassifizierungsvorhersagen), Präzision (Anteil korrekter positiver Identifizierungen), Rückruf (Prozentsatz relevanter Dokumente, die erfolgreich abgerufen wurden) und F1-Score (Durchschnitt aus Präzision und Rückruf als ausgewogener Index). Für diese Studie verwendeten wir Erinnerungs- und F1-Scores als Maß für die Leistung des Klassifikators. F1-Scores können zur Bestätigung von Erinnerungs- und Präzisionsniveaus verwendet werden, wobei höhere Scores auf weniger legitime Fehler bei der Journalklassifizierung hinweisen. Berechnungsmethoden für Genauigkeit, Präzision, Erinnerung und F1-Scores sind in Tabelle 1 aufgeführt.

Abbildung 3 zeigt die AJPC-Systemarchitektur, die mit Flask, einem in Python geschriebenen Webanwendungs-Framework, erstellt wurde. AJPC extrahiert von einem Benutzer eingegebene URL-Inhalte, verarbeitet die Daten vor, wandelt Website-Inhalte in Wortvektoren um und wendet ein Klassifizierungsmodell zur Kategorievorhersage an, bevor die Ergebnisse an das Back-End gesendet und angezeigt werden. Kurz gesagt besteht AJPC aus drei Hauptmodulen: Datenerfassung, Merkmalsextraktion und Modellvorhersage. Die Datenerfassung während der Vorverarbeitung natürlicher Sprache konzentriert sich auf URL-Inhalte zur Merkmalsextraktion mithilfe der BOW-Methode. Während der Modellvorhersagephase werden acht gängige Klassifikatoren auf das Modelltraining angewendet, wobei das beste Modell basierend auf der Rückrufrate und dem F1-Score ausgewählt wird.

Vorgeschlagene AJPC-Systemarchitektur (Academic Journal Predatory Checking).

Eine einzelne Liste räuberischer Zeitschriften wurde anhand von Informationen erstellt, die aus aktualisierten Beall's19 und der Liste „Stop Predatory Journals“52 gesammelt wurden. Zeitschriften, die auf diesen Listen erscheinen, werden im Hinblick auf ihre Glaubwürdigkeit überprüft, wie vom Ausschuss für Publikationsethik festgestellt, langfristige Beobachtungen und anonymes Community-basiertes Feedback19,52. Daten zu legitimen Zeitschriftenlisten wurden auf der Quest-Website des Berlin Institute of Health (BIH) gesammelt53, die Daten aus den Zeitschriftenlisten von DOAJ und Pubmed Central nutzt. Nachdem alle räuberischen und legitimen Journal-Links manuell überprüft wurden, um den aktiven Status zu bestätigen, wurde ein Webcrawler eingesetzt, um zwei Listen zu erstellen. Für diese Studie identifizierte AJPC 833 Links zu Predatory Journals und 1.213 zu legitimen Journals. Beim überwachten maschinellen Lernen werden Stichproben normalerweise in separate Trainings- und Testsätze unterteilt, wobei der erste zum Trainieren des Modells und der zweite zur Untersuchung der Leistung des als bestes ausgewählten Modells verwendet wird.

Vorverarbeitungsverfahren für die Datenerfassung umfassen üblicherweise das Entfernen von Tags, Stoppwörtern und Satzzeichen sowie die Umwandlung von Wortstämmen und Kleinbuchstaben54. Diese Verfahren verringern nicht nur die Dimensionalität des Merkmalsraums, sondern fördern auch die Effizienz des Textklassifizierungssystems54,55. In dem in Abb. 4 gezeigten Beispiel werden unnötige Tags (HTML, CSS) und Skripte herausgefiltert und einige der am häufigsten verwendeten „Stoppwörter“ entfernt – zum Beispiel „will“ und „and“ im Satz. „Information Sciences wird originelle, innovative, kreative und referierte Forschungsartikel veröffentlichen.“ „Publish“, „published“ und „publishing“ sind Beispiele für Stammwortvarianten; AJPC behält das Stammwort „publish“ bei, entfernt aber die beiden anderen56. Der gesamte Text wird in Kleinbuchstaben umgewandelt, um die Möglichkeit einer unterschiedlichen Behandlung von Wörtern mit gemischten Groß- und Kleinbuchstaben zu vermeiden.

Vorverarbeitungsschritte des AJPC-Systems.

Das Merkmalsextraktionsmodul verwendet die BOW-Methode, ein effizientes Tool zum Abrufen von Informationen für Textdaten19,57. BOW wandelt Text in numerische Werte und Vektoren um, die maschinelle Lernalgorithmen verarbeiten und als Eingabe verwenden können. Als Beispiel verwenden wir zwei Sätze:

„Es war die beste Zeit für die Seuchenbekämpfung“ (Satz 1)

„Es war die Zeit der wirtschaftlichen Erholung.“ (Satz 2)

BOW erfasst alle Vorkommen von Wörtern in beiden Sätzen in einem Wörterbuch des Trainingskorpus. Diese Methode sucht im Wörterbuch nach, wenn der Satz in einen Vektor umgewandelt wird. Wenn das Wort im Satz im Wörterbuch vorkommt, wird der Vektorwert als 1 gespeichert; andernfalls wird es als 0 gespeichert. Beispielsweise wird „Zeit“ in jedem Vektor als 1 gespeichert und die Wörter von Satz 2 (z. B. „best“, „epidemic“ und „control“) sind nicht im Wörterbuch und werden gespeichert als 0. In diesem Beispiel werden die beiden binären Vektoren als [1, 1, 1, 1, 1, 1, 1, 1, 0, 0] und [1, 1, 1, 0, 1, 1, 0, 0, 1, 1]. Diese Vektoren werden verwendet, um zwei Wortsätze zu erstellen, von denen einer mit Websites von Raubjournalen und der andere mit legitimen Websites verknüpft ist. Die TF-IDF-Methode verwendet die Sätze, um den Wichtigkeitsgrad einzelner Wörter in einer Sammlung von Dokumenten zu bewerten. Es wird angenommen, dass TF-IDF zwei mit dem BOW-Algorithmus verbundene Probleme löst: den Umgang mit Unterschieden in der Gesamtzahl der Wörter in zwei oder mehr Artikeln sowie wiederkehrende idiomatische Wörter und Ausdrücke, die einen erheblichen Einfluss auf Dokumente haben. Wie in einem früheren Beispiel erklärt, wenn das Wort \({w}_{2}\) neunmal im Dokument \({D}_{2}\) und zweimal im Dokument \({D}_{t} vorkommt \), aber \({D}_{2}\) 10.000 Wörter und \({D}_{t}\) nur 50 Wörter hat, ist \({w}_{2}\) viel wichtiger Datei \({D}_{t}\).

TF bezieht sich auf die Häufigkeit eines bestimmten Wortes. Mit \({tf}_{t,d}\) ausgedrückt als

wobei \({q}_{t,d}\) die Häufigkeit angibt, mit der das Wort t im Dokument \(d\) vorkommt und \({\sum }_{k}{q}_{k,d} \) bezeichnet die Gesamtzahl der Wörter im Dokument \(d\). Mit anderen Worten: Die TF-Methode berücksichtigt die Bedeutung jedes Wortes im Hinblick auf die Häufigkeit und nicht auf die Gesamtzahl des Auftretens, wobei die häufigsten Wörter von IDF vorverarbeitet werden. \({idf}_{t}\) bezeichnet ein Wortwichtigkeitsmaß, ausgedrückt als

Dabei ist D die Gesamtzahl der Wörter und \({d}_{t}\) die Anzahl der Dokumente, die das Wort t enthalten. \({d}_{t}\) ist größer und \({idf}_{t}\) kleiner für Wörter, die in vielen Artikeln vorkommen. Der Wert des Wortes t in Dokument d wird mithilfe einer Kombination aus TF und IDF berechnet und ausgedrückt als

Der Wert von \({score}_{t,d}\) ist höher, wenn Wort t häufiger in Dokument d vorkommt (d. h. ein größerer \({tf}_{t,d}\)) und wenn es erscheint selten in anderen Dokumenten (z. B. ein größeres \({idf}_{t}\)). Wenn also eine Predatory-Journal-Website „dies“, „Journal“, „is“ und „international“ enthält und eine legitime Zeitschriften-Website „this“, „Journal“, „has“, „peer review“ und „step“ enthält, , dann sollen die beiden Websites insgesamt 9 Wörter enthalten. Auf der Raubjournal-Website (d = 1) beträgt die dem Wort „Zeitschrift“ zugewiesene Punktzahl 2,1 \(1/4*\mathrm{log}(9/1)\) und auf der legitimen Zeitschriften-Website (d = 2) Die demselben Wort zugewiesene Punktzahl2,2 beträgt \(1/5*\mathrm{log}(9/1)\).

Nach der Erstellung von räuberischen und legitimen Zeitschriften-Website-Datensätzen für TF-IDF-Score-Berechnungen wurden Diff-Scores verwendet, um Merkmalswörter zu identifizieren. Ein Diff-Score, der das unterschiedliche Auftreten des Wortes t in den Dokumenten 1 (räuberisch) und 2 (legitim) darstellt, wird wie folgt berechnet

Unter Verwendung des obigen Beispiels ist \({diff}_{2}= 1/4*\mathrm{log}(9/1)-1/5*\mathrm{log}(9/1)\).

In diesem Fall weist ein größerer Diff-Wert darauf hin, dass das Wort t häufiger auf räuberischen als auf seriösen Zeitschriften-Websites vorkommt und daher möglicherweise einen größeren Nutzen für die Identifizierung des räuberischen oder legitimen Status einer Website hat. Die Rangfolge einzelner Wörter basierend auf ihren Diff-Scores wurde verwendet, um einen Merkmalswortsatz bestehend aus n Wörtern zu erstellen. Tabelle 2 listet die 20 Feature-Wörter auf, die am häufigsten auf den in dieser Studie verwendeten Raubjournal-Websites auftauchten.

Der Textinhalt aller 833 räuberischen und 1.213 legitimen Zeitschriften-Websites wurde in Vektoren umgewandelt. Insbesondere wurde für jede Website ein 1 × n-Vektor erstellt, wobei der Vektor t auf 1 gesetzt wurde, wenn Wort t eines der Top-n-Feature-Wörter im Journal ji war, und auf 0, wenn Wort t nicht als Top-Feature-Wort erschien. Wenn beispielsweise die Top-5-Feature-Wörter als „Journal“, „Issue“, „International“, „Volume“ und „Paper“ identifiziert wurden und der Journal-J-Textinhalt „Journal“, „Research“, „International“ umfasst, „Information“ und „Papier“, der resultierende Ji-Wortvektor, der für das Modelltraining und die Vorhersage verwendet wurde, war [1, 0, 1, 0, 1]. Das Hauptziel der Klassifizierung besteht darin, Kategorien oder Klassen für neue Daten zu bestimmen. Die Klassifizierung kann entweder mit strukturierten oder unstrukturierten Daten durchgeführt werden. Jeder Klassifikator erfordert eine Parameteroptimierung, um die genauesten Ergebnisse zu erzielen. Nach der Datenerfassung und Merkmalsextraktion wurden 80 % der Zeitschriften in unserer Stichprobe (666 räuberische, 970 legitime) nach dem Zufallsprinzip für die Verwendung als Trainingssatz ausgewählt; Die restlichen 20 % (167 Raubtiere, 243 legitime) wurden als Testsatz verwendet. Beim Modelltraining wurden auch die 50–9.000 wichtigsten Funktionswörter verwendet.

In der Webversion des AJPC-Systems werden Benutzeranfragen (URL oder Name der Website der Zeitschrift) an das Vorverarbeitungstool gesendet (Abb. 5). Nach der Durchführung aller oben beschriebenen Vorgänge gibt die Website eine „normale“ Meldung für legitime Zeitschriften und eine „existiert nicht auf dieser Website“-Meldung für Zeitschriften aus, die nicht in den Stop Predatory Journals, aktualisierten Beall's- oder BIH QUEST-Listen erscheinen . Alle anderen Ergebnisse lösen die Meldung „Verdacht auf Raubjournal“ aus. Beispiele für AJPC-Abfrageergebnisse sind in den Abbildungen dargestellt. 6a,b. Benutzer können zusätzliche Empfehlungen einbringen, um die Modellleistung zu optimieren und die Systemklassifizierungsfähigkeiten zu stärken. Wie in Abb. 7 dargestellt, sammelt das Website-Backend alle Benutzerabfrageergebnisse für zusätzliches Systemmodelltraining. Die Klassifizierungsbewertungsmethoden des AJPC-Systems werden im folgenden Abschnitt detailliert beschrieben.

Beispiele für legitime und räuberische Journalabfragen.

Legitime und räuberische Journalabfrageergebnisse, die vom AJPC-System zurückgegeben werden.

Vom AJPC-System zurückgegebene Ergebnisse legitimer und räuberischer Zeitschriften.

Die acht Klassifizierungsalgorithmen wurden untersucht, um den nützlichsten für Aufgaben zur Identifizierung räuberischer Zeitschriften zu ermitteln und um Merkmalswörter zu identifizieren, die zur Unterscheidung zwischen legitimen und räuberischen Zeitschriften-Websites nützlich sein können. Die Parametereinstellungen zum Trainieren der Klassifikatoren sind in Tabelle 3 dargestellt. Unsere Untersuchung wurde mit Python 3.7.3 mit einem Server durchgeführt, auf dem das Betriebssystem Ubuntu 18.04 ausgeführt wurde (Intel Core i5-8400 CPU mit 2,80 GHz Prozessor, NVIDIA GTX-1600 GPU, 16 GB RAM). Unsere Versuchsziele bestanden darin, (a) die besten Modellergebnisse in Bezug auf Genauigkeit, Präzision, Rückrufrate und F1-Score zu ermitteln und (b) festzustellen, ob Raubjournal-Websites korrekt klassifiziert werden können (d. h. die Klassifizierungseffizienz des Modells ist besser, wenn die Die Recall-Rate ist höher) und ob die einzelnen Modelle seriöse Zeitschriften nicht als räuberisch eingestuft haben (d. h. F1-Scores nahe 1 wurden als Indikatoren für den Modellerfolg angesehen). Das Folgende ist eine Zusammenfassung unserer Recall-Rate und F1-Score-Ergebnisse.

Ein Gaussian Naive Bayes (GNB)-Algorithmus kann auf mehrere Variablentypen angewendet werden, wenn räuberische Merkmale den Gaußschen Verteilungen entsprechen45. Während des Modellvorhersageschritts beobachteten wir eine Erinnerungsrate von 0,89, wenn die Anzahl der Wortmerkmale (NWF) 8.450 betrug, und einen F1-Score von 0,752, wenn NWF = 3.700.

Für diskrete Merkmalsklassifizierungen eignet sich ein multinomialer naiver Bayes-Algorithmus (MNB)58. Multinomiale Verteilungen erfordern normalerweise ganzzahlige Merkmalszählungen, aber auch gebrochene Zählungen, wie sie bei TF-IDF verwendet werden, können funktionieren. Die MNB-Methode wird hauptsächlich bei Dokumentenklassifizierungsproblemen verwendet, insbesondere bei Problemen mit der Worthäufigkeit. Unsere Versuchsergebnisse deuten auf eine maximale Erinnerungsrate von 0,904 bei NWF = 1.000 und einen F1-Score von 0,93 bei NWF = 1.150 hin.

Logistische Regressionen sind überwachte Lernalgorithmen, die hauptsächlich zur Lösung binärer Klassifizierungsprobleme verwendet werden59. Bei der Erstellung logistischer Regressionsgleichungen werden Maximum-Likelihood-Verhältnisse angewendet, um die statistische Signifikanz von Variablen zu bestimmen. Ein Merkmal logistischer Regressionen besteht darin, dass alle zurückgegebenen Werte zwischen 0 und 1 liegen. Durch die Bestimmung, ob ein Wert größer oder kleiner als 0,5 ist, können Daten mit der Bezeichnung 0 oder 1 klassifiziert werden. Unsere Regressionsergebnisse zeigen einen maximalen Recall von 0,964 bei NWF = 350 und einen F1-Score von 0,97 bei NWF = 1.650.

Random-Forest-Ensemble-Lernalgorithmen (RF) kombinieren mehrere Modelle, um ein einziges stabiles und robustes Modell zu erstellen, das frei von Verzerrungen und Überanpassungen ist60. Zufällige Wälder werden als Kombination mehrerer Entscheidungsbäume betrachtet, wobei jeder Baum eine separate Vorhersage liefert. RF-„Stimmen“ werden durch Trainingsdaten-Bootstrap-Stichproben und zufällige Merkmalsauswahl generiert. Vorhersagen, die die meisten Stimmen erhalten, werden als endgültig ausgewählt, wobei die Kategorie-Tags anhand der besten Ergebnisse für einzelne Entscheidungsbäume bestimmt werden. Diese Algorithmen wählen zufällig mehrere Merkmale aus, um die besten Parameter an allen Knoten des Entscheidungsbaums zu identifizieren. Dieser Auswahlprozess funktioniert gut in Situationen, die aus mehreren Features pro Vektor bestehen, da er die gegenseitige Abhängigkeit zwischen Feature-Attributen verringert. Unsere Vorhersageergebnisse zeigten eine RF-Erinnerungsrate von 0,982 bei NWF = 850 und einen F1-Score von 0,98 bei NWF = 1.200.

SGD-Algorithmen stellen eine vereinfachte Methode zur Ermittlung lokaler Funktionsminima dar61. Ein Vorteil von SGD-Algorithmen ist die Möglichkeit, Modelle mit Verlustwerten innerhalb akzeptabler Bereiche zu erhalten, ohne dass eine Probenextraktion erforderlich ist. Es besteht jedoch die Möglichkeit, dass durch Proben, die sich nicht bei allen Iterationen in die optimale Richtung bewegen können, Rauschen ausgelöst wird. Die Vorhersageergebnisse für SGD deuten auf eine maximale Erinnerungsrate von 0,97 bei NWF = 7.950 und einen F1-Score von 0,972 bei NWF = 1.550 hin.

SVM-Algorithmen sind für ihre Klassifizierungsleistung bei mehrdimensionalen und nichtlinearen Daten bekannt62. Diese Algorithmen nutzen die statistische Risikominimierung, um klassifizierte Hyperebenen zu schätzen. Der Hauptzweck eines SVM-Algorithmus besteht darin, maximale Entscheidungsgrenzen zwischen unterscheidbaren Etiketten zu lokalisieren. Wenn beispielsweise Gewichts- und Refraktometerdaten zur Unterscheidung zwischen einer Orange und einer Mandarine verwendet werden, werden deren Werte jeweils entlang der x-Achse und der y-Achse festgelegt, was zu einer Klassifizierungslinie führt, die die beiden trennt. Die Ergebnisse unserer SVM-Modellvorhersage deuten auf eine maximale Rückrufrate von 0,952 bei NWF = 350 und einen F1-Score von 0,934 bei NWF = 2.400 hin.

KNN-Klassifizierungsalgorithmen sind wirksame Werkzeuge für Problemdomänen mit unbekannten Dichten45,63. Nach der Berechnung der Abstände zwischen Zieldaten und einzelnen Datenpunkten berechnet ein KNN-Algorithmus anhand des minimalen Datenabstands K die Anzahl der Tags, zu denen jeder Datenpunkt gehört, bevor er die maximale Anzahl an Labels für die Zieldaten vorhersagt.

Diese Methode führt jedoch manchmal zu einer Überanpassung, wenn K = 1. Wenn K gleich der Anzahl der Trainingsbeispiele ist, entspricht die Anzahl der vorhergesagten Ergebnisse der maximalen Anzahl von Labels. Aus diesem Grund berechnete der KNN-Klassifizierungsalgorithmus die K-Fehlerrate (dh Fehlerrate = Fehlerklassifizierungsanzahl / Gesamtgröße des Testsatzes) und beobachtete eine Mindestrate von 0,065, wenn K = 4 (Abb. 8); Der Kategorieparameter für den KNN-Nachbarn wurde daher auf 4 gesetzt. Die KNN-Vorhersageergebnisse zeigen eine maximale Rückrufrate von 0,96 bei NWF = 3.000 und einen maximalen F1-Score von 0,93 bei NWF = 500.

Die Abstimmungsmethode kombiniert die oben genannten sieben Klassifizierungsalgorithmen64. Jeder Algorithmus erhält eine räuberische/legitime „Stimme“ und das Ergebnis, das die meisten Stimmen erhält, wird ausgewählt. Unsere Daten aus Abstimmungsvorhersagen zeigen eine Rückrufrate von 0,97 bei NWF = 2.900 und einen F1-Score von 0,973 bei NWF = 1700. Nachdem der schlecht funktionierende Gaußsche naive Bayes-Algorithmus aus der Abstimmungsliste entfernt wurde, betrug die höchste Rückrufrate 0,976 bei NWF = 2.150 und der höchste F1-Score 0,97, wenn NWF = 1.100. Anschließend haben wir die drei Ergebnisse des Recall-Modells mit der höchsten Wahrscheinlichkeit (Random Forest, SGD und logistische Regression) verwendet, um Raubtieretiketten zu bestimmen. Bei NWF = 950 wurde ein maximaler Recall von 0,97 und bei NWF = 1.800 ein maximaler F1-Score von 0,975 beobachtet. Mit anderen Worten: Die Ergebnisse dieser drei Modelle waren nahezu identisch. Die kombinierten Ergebnisse der experimentellen Vorhersage sind in Tabelle 4 und den Abbildungen dargestellt. 9 und 10.

Zusammenhang zwischen K-Abstand und Fehlerrate im KNN-Klassifikatoralgorithmus.

Rufen Sie die Leistungsdaten der acht in dieser Studie untersuchten Klassifikatoren ab.

F1-Score-Leistungsdaten für die acht in dieser Studie untersuchten Klassifikatoren.

Wir haben die falsch-negativen Ergebnisse für jedes Klassifizierungsmodell überprüft, um die Genauigkeit der Klassifizierung räuberischer/legitimer Websites zu bestätigen. Für die 167 Websites im Testdatensatz wies das Random-Forest-Modell sowohl hinsichtlich der Vorhersage (0,982 Rückrufrate, 0,98 F1-Score) als auch der Klassifizierungsgenauigkeit (falsch-negativ = 2) die beste Leistung auf. Daher haben wir dieses Modell für die Verwendung mit dem AJPC-Backend ausgewählt. Die Fehlklassifizierungsdaten sind in Tabelle 5 aufgeführt.

Beim maschinellen Lernen wird allgemein davon ausgegangen, dass die Ergebnisse eines Klassifizierungsmodells umso besser sind, je ausgeprägter die Merkmale des Klassifikatortrainings sind. Im Gegensatz zu den textbasierten Klassifizierungsmethoden, die in Bedmutha et al.26 und Adnan et al.46 beschrieben werden, verwendet unser vorgeschlagenes System Diff-Scores (ein Maß für Unterschiede in bestimmten Worthäufigkeiten zwischen Zeitschriften), um Merkmalswortsätze für Klassifizierungsvorhersagezwecke zu identifizieren. AJPC stellt außerdem objektive Daten aus drei Listen räuberischer Zeitschriften bereit: unter anderem aktualisierte Beall's und Stop Predatory Journals. Wie Moussa65 feststellte, ist es nahezu unmöglich, einen veröffentlichten Artikel aus einer Raubzeitschrift zurückzuziehen. In vielen Fällen kann die Unfähigkeit, legitime Zeitschriften von der zunehmenden Menge an Spam-E-Mails zu unterscheiden, wertvolle Forschungsmanuskripte um die Chance bringen, in besseren Zeitschriften veröffentlicht zu werden. Darüber hinaus verringert das vorgeschlagene System das Potenzial räuberischer Zeitschriftenverleger, den wissenschaftlichen Wert zu beeinträchtigen, und bietet Vorschläge für die Einreichung von Artikeln.

Wenn die Raubzeitschriften als legitime Zeitschriften beurteilt würden, hätte das schwerwiegende Folgen. Wenn die Rückrufrate höher ist, bedeutet dies, dass die Rate legitimer Zeitschriften höher ist, die korrekt vorhergesagt werden. Darüber hinaus geht bei der Aufrechterhaltung eines hohen F1-Scores nicht allzu viel Präzision verloren. Bedmutha et al.26 nutzten Forschungsartikel zum Training des Modells und erzielten einen F1-Score von mehr als 0,71 im technischen Bereich und einen F1-Score von 0,9 im biomedizinischen Bereich. Adnan et al.46 nutzten heuristische Funktionen, um einen F1-Score von 0,98 zu erreichen, aber dies erfordert im Vergleich zur NWF-Methode zu viel Verarbeitungszeit. Unsere Ergebnisse weisen eine höhere Leistung auf als ihre Ergebnisse (Tabelle 6).

Unsere Ergebnisse unterstützen die Gültigkeit der Verwendung von Merkmalswörtern und Diff-Scores zur Unterscheidung zwischen legitimen und möglicherweise räuberischen Zeitschriften-Websites. Unsere Diff-Scores identifizierten eine Reihe von Wörtern und Begriffen, die zur Bestimmung des Website-Typs einer Zeitschrift verwendet werden können, eine Liste, die unter anderem „Index“, „International“, „Impact“, „Faktor“, „Peer Review“ und „Einreichung“ umfasst Andere. Die von uns identifizierten Wörter ähneln den von Memon51, Rathore und Memon34, Cobey et al.21 und Berek66 erwähnten Wörtern, die häufig auf Websites von Raubjournalen zu finden sind. Die kombinierten Ergebnisse deuten darauf hin, dass räuberische Websites wahrscheinlich Ideen wie „Peer Review“ und „Indexierung“ betonen, während seriöse Zeitschriften nicht ausdrücklich erwähnen, was als Standardaspekte des Veröffentlichungsprozesses gilt. Es ist unwahrscheinlich, dass BOW- und TF-IDF-Klassifizierungsmethoden und Merkmalswortsätze allein das Problem der Identifizierung legitimer/räuberischer Zeitschriften vollständig lösen werden. Weitere nützliche Informationsquellen sind Ankündigungen von Indexierungsorganisationen. Beispielsweise entfernte das DOAJ im Jahr 2017 Zeitschriften, die von der Firma Business Perspectives wegen Verdachts auf redaktionelles Fehlverhalten herausgegeben wurden (der Herausgeber wurde im Januar 2019 wieder eingestellt). AJPC profitiert auch von Benutzerbeiträgen, die Raubjournale anhand ihrer persönlichen Erfahrungen identifizieren. Obwohl es einen Zeitaufwand erfordert, alle Behauptungen auf Legitimität oder Täuschung zu überprüfen, kann die Anhäufung mehrerer Berichte für bestimmte Zeitschriften oder Verlage die Genauigkeit der Identifizierung verbessern. Um das Problem zu lösen, dass Start-up-Zeitschriften ohne DOAJ- und Web of Science-Indexierung als räuberisch angesehen werden könnten, werden wir die folgenden Faktoren berücksichtigen, um die Legitimität der Zeitschrift widerzuspiegeln. Zum Beispiel die Zusammenarbeit mit der relevanten Fachgesellschaft wie der Ottawa-Gruppe von Grudniewicz et al., die Konzentration auf einen bestimmten Berufsbereich und die Berücksichtigung des realistischen Interessenumfangs, der sich in den Zeitschriftenanweisungen widerspiegelt. kann die Robustheit des Systems erhöhen.

Der Zweck unseres vorgeschlagenen AJPC-Systems besteht darin, akademischen Autoren dabei zu helfen, die besten Entscheidungen für die Einreichung ihrer Manuskripte zu treffen. Es wird derzeit von Wissenschaftlern in mehreren wissenschaftlichen Gemeinschaften in Taiwan verwendet: unter anderem der National Yang Ming Chiao Tung University (NYCU), dem Center for Taiwan Academic Research Ethics Education und dem National Taiwan University Office of Research and Development. Die neueste AJPC-Version steht derzeit allen interessierten Benutzern unter http://140.113.207.51:8000/ zur Verfügung. Wir freuen uns über Empfehlungen zum Whitelisting und Blacklisting von Websites, um die Genauigkeit zu optimieren. Unser Plan ist es, die URL dauerhaft auf eine dedizierte Domain an der NYCU zu verschieben.

Auch Forschungseinrichtungen und Förderorganisationen interessieren sich für dieses Thema. Universitäten und akademische Forschungszentren könnten bei der Beurteilung von Einzelpersonen für Einstellungs- und Anstellungsentscheidungen mehr Wert auf die Qualität der Veröffentlichungen als auf die Quantität legen und so die Anreize für Autoren verringern, eine Veröffentlichung in Predatory Journals in Betracht zu ziehen. Dieselben Parteien könnten auch Vorträge und Beratungsdienste anbieten, um das Bewusstsein für Raubjournaltaktiken zu schärfen. Das Center for Taiwan Academic Research Ethics Education sponsert Schulungsaktivitäten im ganzen Land und drei Organisationen (DOAJ, das Committee on Publication Ethics und die Open Access Scholarly Publishers Association) teilen Ressourcen, um eine „Think.Check.Submit“-Website zu starten Ziel ist es, Autoren zu zeigen, wie sie die besten Zeitschriften für ihre spezifischen Bedürfnisse identifizieren können.

Im Hinblick auf zukünftige Pläne sind mehrere Änderungen erforderlich, um das AJPC-System effizienter zu machen – viele davon geringfügig, einige erfordern erhebliche Überarbeitungen. Ein potenzielles Problem ist die Blockierung von Webcrawlern durch räuberische Journal-Websites, was möglicherweise zu „Internal Server Error“-Meldungen führt, die dazu führen, dass nachfolgende Abfragen fehlschlagen. Jede Lösung für dieses Problem muss in der Lage sein, die Anforderungen mehrerer Websites zu bewältigen. Ein weiteres softwarebezogenes Problem betrifft die Zeitschriftenabkürzungen, die für Systembenutzer verwirrend sein können. Während unserer Tests ist uns aufgefallen, dass einige Zeitschriftentitel, die in den aktualisierten Beall's- und Stop Journals-Listen erscheinen, nicht auf den AJPC-Ergebnisbildschirmen angezeigt wurden, und wir müssen verstehen, warum.

Ein weiteres wichtiges Verbesserungsziel besteht darin, mithilfe von Beiträgen aus verschiedenen akademischen Quellen eine Liste räuberischer Konferenzen zu erstellen, deren Protokolle häufig als Mittel zur Aufblähung der Lebensläufe von Forschern beworben werden. Lang et al.67 stellten fest, dass sowohl bei den Assistenzärzten als auch beim Personal der Universitäten ein erheblicher Mangel an Bewusstsein und Aufklärung über Raubzeitschriften und Konferenzen besteht. Neben den erfahrenen Lehrkräften, die den Studierenden Anregungen zur Veröffentlichung geben, ist auch ein effektives Bewertungssystem für Konferenzbeiträge wichtig. Für diese Aufgabe bitten wir möglicherweise um Erlaubnis, Ideen vom California Institute of Technology auszuleihen oder Links zu Inhalten des California Institute of Technology zu erstellen, dessen Bibliothekswebsite eine Liste fragwürdiger Konferenzen und Konferenzorganisatoren enthält. Es gibt Unterschiede zwischen Hinweisen für Predatory Journals und Predatory Conference-Websites, die Aufmerksamkeit erfordern, insbesondere die Präsenz gewinnorientierter Sponsororganisationen in Entwicklungsländern. Einige Konferenzen betonen eher ihre Standorte (z. B. Ferienorte) als den akademischen oder wissenschaftlichen Austausch, versprechen aber dennoch eine Aufnahme in Zeitschriftenverzeichnisse wie SCI, SSCI und EI.

Alle während dieser Studie generierten oder analysierten Daten sind in diesem veröffentlichten Artikel und seinen ergänzenden Informationsdateien enthalten. Der zugrunde liegende Quellcode ist unter https://github.com/nctu-dcs-lab/predatory_journals_detection verfügbar.

Eine Korrektur zu diesem Artikel wurde veröffentlicht: https://doi.org/10.1038/s41598-023-34493-1

Ferris, LE & Winker, MA Ethische Fragen bei der Veröffentlichung in Raubzeitschriften. Biochemia medica: Biochemia medica 27, 279–284 (2017).

Artikel PubMed PubMed Central Google Scholar

Gasparyan, AY, Nurmashev, B., Udovik, EE, Koroleva, AM & Kitas, GD Predatory Publishing ist eine Bedrohung für die Wissenschaft außerhalb des Mainstreams. J. Cor. Med. Wissenschaft. Rev. 32, 713–717 (2017).

Artikel Google Scholar

Berger, M. Alles, was Sie schon immer über Predatory Publishing wissen wollten, aber nicht zu fragen wagten. In ACRL, Baltimore, Maryland (2017).

Nicoll, LH & Chinn, PL In der Falle gefangen: Der Reiz betrügerischer Verleger. Nurse Author Editor 4, 1 (2015).

Google Scholar

Bohannon, J. Wer hat Angst vor Peer-Review?. Wissenschaft 342, 60–65 (2013).

Artikel ADS CAS PubMed Google Scholar

Demir, SB Predatory Journals: Wer veröffentlicht darin und warum? J. Informet. 12, 1296–1311 (2018).

Artikel Google Scholar

Iyandemye, J. & Thomas, MP Länder mit niedrigem Einkommen weisen den höchsten Anteil an Open-Access-Publikationen auf: Eine systematische Computeranalyse der biomedizinischen Literatur. PLoS ONE 14, e0220229 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Jamali, HR et al. Wie Wissenschaftler Vertrauen in ihre Lese-, Zitier- und Veröffentlichungsaktivitäten umsetzen: Geografische Unterschiede. Bibliothek Inf. Wissenschaft. Res. 36, 192–202 (2014).

Artikel Google Scholar

Beall, J. Predatory-Verlage korrumpieren Open Access. Natur 489, 179–179 (2012).

Artikel ADS CAS PubMed Google Scholar

Dell'Anno, R., Caferra, R. & Morone, A. Ein „Trojanisches Pferd“ im Peer-Review-Prozess kostenpflichtiger Wirtschaftszeitschriften. J. Informet. 14, 101052 (2020).

Artikel Google Scholar

Linacre, S. Predatory Reports 15K Titel und Klettern, https://blog.cabells.com/2021/09/01/mountain-to-climb/ (2021).

Vosoughi, S., Roy, D. & Aral, S. Die Verbreitung wahrer und falscher Nachrichten im Internet. Science 359, 1146–1151 (2018).

Artikel ADS CAS PubMed Google Scholar

Alrawadieh, Z. Veröffentlichung in räuberischen Tourismus- und Gastgewerbezeitschriften: Kartierung des akademischen Marktes und Identifizierung von Reaktionsstrategien. Tour. Hosp. Res. 20, 72–81 (2020).

Artikel Google Scholar

Horng, C.-T. et al. Pharmakologische Vitreolyse von Glaskörperschwimmern durch 3-monatige Ananasergänzung in Taiwan: eine Pilotstudie. Marmelade. Wissenschaft. 15, 1 (2019).

ADS Google Scholar

Leonid, S. Spermienteportation zwischen Massimo Fioranelli und Alireza Sepehri, https://forbetterscience.com/2020/10/12/sperm-teleportation-between-massimo-fioranelli-and-alireza-sepehri/ (2019).

Laakso, M. & Polonioli, A. Open Access in der Ethikforschung: eine Analyse der Open-Access-Verfügbarkeit und des Selbstarchivierungsverhaltens von Autoren vor dem Hintergrund von Urheberrechtsbeschränkungen für Zeitschriften. Szientometrie 116, 291–317 (2018).

Artikel Google Scholar

Björk, B.-C. Eine Untersuchung innovativer Merkmale in wissenschaftlichen Open-Access-Zeitschriften. J. Med. Internet Res. 13, e115 (2011).

Artikel PubMed PubMed Central Google Scholar

Xu, J., Wang, Z. & Tang, W. Wer hat in chinesischen Raubzeitschriften veröffentlicht? Eine Studie zur Autorschaft von Blacklist-Zeitschriften. Tagungsband der iConference 2020 (2020).

Beall, J. Bealls Liste potenzieller räuberischer Zeitschriften und Verlage, https://beallslist.net/standalone-journals/ (2020).

Ojala, M., Reynolds, R. & Johnson, KG Predatory Journal Herausforderungen und Antworten. Serienbibliothek 1, 1–6 (2020).

Google Scholar

Cobey, KD et al. Was ist ein Raubjournal? Eine Scoping-Überprüfung. F1000Research 7, 1 (2018).

Artikel Google Scholar

Beshyah, A., Basher, M. & Beshyah, S. Eine bibliometrische Analyse der internationalen medizinischen Literatur zum Thema Predatory Publishing. Ibnosina J. Med. Biomed. Wissenschaft. 12, 23–32 (2020).

Artikel Google Scholar

Frandsen, TF Untergraben räuberische Zeitschriften die Glaubwürdigkeit der Wissenschaft? Eine bibliometrische Zitieranalyse. Szientometrie 113, 1513–1528 (2017).

Artikel Google Scholar

Al-Matham, RN & Al-Khalifa, HS Ein webbasiertes Crowdsourcing-System zur Meldung räuberischer Verlage. In Proceedings of the 19th International Conference on Information Integration and Web-based Applications & Services. 573–576 (2017).

Dadkhah, M., Maliszewski, T. & Lyashenko, VV Ein Ansatz zur Verhinderung der Indexierung gekaperter Zeitschriftenartikel in wissenschaftlichen Datenbanken. Verhalten. Inf. Technol. 35, 298–303 (2016).

Artikel Google Scholar

Bedmutha, MS, Modi, K., Patel, K., Jain, N. & Singh, M. PredCheck: Erkennung von räuberischem Verhalten in der wissenschaftlichen Welt. In Proceedings of the ACM/IEEE Joint Conference on Digital Libraries in 2020, 521–522 (2020).

Google Scholar

Van Der Walt, E. & Eloff, J. Einsatz von maschinellem Lernen zur Erkennung gefälschter Identitäten: Bots vs. Menschen. IEEE Access 6, 6540–6549 (2018).

Artikel Google Scholar

Chen, C.-M., Guan, D. & Su, Q.-K. Feature-Set-Identifizierung zur Erkennung verdächtiger URLs mithilfe der Bayes'schen Klassifizierung in sozialen Netzwerken. Inf. Wissenschaft. 289, 133–147 (2014).

Artikel Google Scholar

Rupp, M. et al. Raubzeitschriften: Eine große Bedrohung in der orthopädischen Forschung. Int. Orthop. 43, 509–517 (2019).

Artikel PubMed Google Scholar

Grudniewicz, A. et al. Raubzeitschriften: keine Definition, keine Verteidigung. Nature Publishing Group (2019).

Chen, L.-X., Wong, K.-S., Liao, C.-H. & Yuan, S.-M. Raubtierzeitschriftenklassifizierung mithilfe maschineller Lerntechnik. Im Jahr 2020 3. IEEE International Conference on Knowledge Innovation and Invention (ICKII). 193–196 (2020).

Lawrence, PA Die Politik der Veröffentlichung. Natur 422, 259–261 (2003).

Artikel ADS CAS PubMed Google Scholar

Richtig, G., Berger, M., Lange-Asschenfeldt, B., Aberer, W. & Richtig, E. Problems and challenges of predatory journals. J. Eur. Acad. Dermatol. Venereol. 32, 1441–1449 (2018).

Artikel CAS PubMed PubMed Central Google Scholar

Rathore, FA & Memon, AR Wie man räuberische Zeitschriften erkennt und vermeidet. Wissenschaftliches Schreiben: Ein Leitfaden zur Kunst des medizinischen Schreibens und des wissenschaftlichen Publizierens. Karachi: Professional Medical Publications, 312–325 (2018).

Prasetijo, AB et al. Hoax-Erkennungssystem auf indonesischen Nachrichtenseiten basierend auf der Textklassifizierung mit SVM und SGD. Im Jahr 2017 4. Internationale Konferenz für Informationstechnologie, Computer und Elektrotechnik (ICITACEE). 45–49 (IEEE) (2017).

Shen, C. & Björk, B.-C. „Predatory“ Open Access: Eine Längsschnittstudie zu Artikelmengen und Marktmerkmalen. BMC Med. 13, 230 (2015).

Artikel PubMed PubMed Central Google Scholar

Bondielli, A. & Marcelloni, F. Eine Umfrage zu Fake News und Techniken zur Gerüchteerkennung. Inf. Wissenschaft. 497, 38–55 (2019).

Artikel Google Scholar

Lovejoy, J. & Holbrook, J. Menschenzentriertes maschinelles Lernen. 7 Schritte, um sich beim Entwerfen mit ML auf den Benutzer zu konzentrieren, https://medium.com/google-design/human-centered-machine-learning-a770d10562cd (2017).

Mirończuk, MM & Protasiewicz, J. Ein aktueller Überblick über die modernsten Elemente der Textklassifizierung. Expertensystem. Appl. 106, 36–54 (2018).

Artikel Google Scholar

Chakraborty, A., Paranjape, B., Kakarla, S. & Ganguly, N. Clickbait stoppen: Clickbaits in Online-Nachrichtenmedien erkennen und verhindern. Im Jahr 2016 ieee/acm internationale Konferenz über Fortschritte in der Analyse und dem Mining sozialer Netzwerke (Asonam). 9–16 (2016).

Nguyen, HH & Nguyen, DT Auf maschinellem Lernen basierende Erkennung von Phishing-Websites. In AETA 2015: Aktuelle Fortschritte in der Elektrotechnik und verwandten Wissenschaften, 123–131 (Springer, 2016).

Xu, S. Bayesianisch-naive Bayes-Klassifikatoren zur Textklassifizierung. J. Inf. Wissenschaft. 44, 48–59 (2016).

Artikel Google Scholar

Kim, D., Seo, D., Cho, S. & Kang, P. Multi-Co-Training zur Dokumentenklassifizierung unter Verwendung verschiedener Dokumentdarstellungen: TF–IDF, LDA und Doc2Vec. Inf. Wissenschaft. 477, 15–29 (2019).

Artikel ADS Google Scholar

Hardalov, M., Koychev, I. & Nakov, P. Auf der Suche nach glaubwürdigen Nachrichten. In der Internationalen Konferenz über künstliche Intelligenz: Methodik, Systeme und Anwendungen. 172–180 (2016).

Onan, A. & Korukoğlu, S. Ein Merkmalsauswahlmodell basierend auf genetischer Rangaggregation für die Klassifizierung der Textstimmung. J. Inf. Wissenschaft. 43, 25–38 (2017).

Artikel Google Scholar

Adnan, A. et al. Jenseits von Bealls schwarzer Liste: Automatische Erkennung von Open-Access-Zeitschriften zur Raubforschung. Im Jahr 2018 IEEE 20. Internationale Konferenz für Hochleistungsrechnen und Kommunikation; IEEE 16. Internationale Konferenz zu Smart City; IEEE 4. Internationale Konferenz für Datenwissenschaft und -systeme (HPCC/SmartCity/DSS). 1692–1697 (2018).

Costa-Jussa, MR et al. Verwendung von Anmerkungen auf Mechanical Turk zur überwachten Polaritätsklassifizierung spanischer Kundenkommentare. Inf. Wissenschaft. 275, 400–412 (2014).

Artikel Google Scholar

Desmet, B. & Hoste, V. Online-Suizidprävention durch optimierte Textklassifizierung. Inf. Wissenschaft. 439, 61–78 (2018).

Artikel Google Scholar

Chen, K., Zhang, Z., Long, J. & Zhang, H. Übergang von TF-IDF zu TF-IGM für die Begriffsgewichtung bei der Textklassifizierung. Expertensystem. Appl. 66, 245–260 (2016).

Artikel Google Scholar

Onan, A., Korukoğlu, S. & Bulut, H. Ensemble von Schlüsselwortextraktionsmethoden und Klassifikatoren in der Textklassifizierung. Expertensystem. Appl. 57, 232–247 (2016).

Artikel Google Scholar

Memon, AR Räuberische Zeitschriften-Spam für Veröffentlichungen: Was sollten Forscher tun? Wissenschaft. Ing. Ethik 24, 1617–1639 (2018).

Artikel PubMed Google Scholar

Zeitschriften, SP Stop Predatory Journals: Liste der Predatory Journals, https://predatoryjournals.com/journals/ (2020).

QUEST, B. Open-Access-Journal-Positivliste, http://s-quest.bihealth.org:3838/OAWhitelist/

Uysal, AK & Gunal, S. Der Einfluss der Vorverarbeitung auf die Textklassifizierung. Inf. Verfahren. Verwalten. 50, 104–112 (2014).

Artikel Google Scholar

Song, F., Liu, S. & Yang, J. Eine vergleichende Studie zu Textdarstellungsschemata bei der Textkategorisierung. Muster Anal. Appl. 8, 199–209 (2005).

Artikel MathSciNet Google Scholar

Vijayarani, S., Ilamathi, MJ & Nithya, M. Vorverarbeitungstechniken für Text Mining – ein Überblick. Int. J. Comput. Wissenschaft. Komm. Netw. 5, 7–16 (2015).

Google Scholar

Gutierrez, FR, Beall, J. & Forero, DA Falsche alternative Einflussfaktoren: Das Ausmaß des Problems aus akademischer Sicht. BioEssays 37, 474–476 (2015).

Artikel PubMed Google Scholar

Kibriya, AM, Frank, E., Pfahringer, B. & Holmes, G. Multinomiale naive Bayes für die Textkategorisierung überarbeitet. In der Australasian Joint Conference on Artificial Intelligence. 488–499 (2004).

Kang, JS et al. Risikovorhersage für bösartige intraduktale papilläre muzinöse Neoplasien der Bauchspeicheldrüse: logistische Regression versus maschinelles Lernen. Wissenschaft. Rep. 10, 1–8 (2020).

Artikel ADS Google Scholar

Alam, MS & Vuong, ST Zufällige Waldklassifizierung zur Erkennung von Android-Malware. Im Jahr 2013 fand die internationale IEEE-Konferenz zu Green Computing und Kommunikation sowie IEEE Internet of Things und IEEE Cyber, Physical and Social Computing statt. 663–669 (IEEE) (2013).

Bottou, L. Groß angelegtes maschinelles Lernen mit stochastischem Gradientenabstieg. In Proceedings of COMPSTAT'2010 177–186 (2010).

Kim, H., Howland, P. & Park, H. Dimensionsreduzierung bei der Textklassifizierung mit Support-Vektor-Maschinen. J. Mach. Lernen. Res. 6, 37–53 (2005).

MathSciNet MATH Google Scholar

Han, E.-HS, Karypis, G. & Kumar, V. Textkategorisierung mithilfe der gewichtsangepassten k-Nearest-Neighbor-Klassifizierung. Im pazifisch-asiatischen Raum Konferenz über Wissensentdeckung und Data Mining. 53–65 (2001).

Onan, A., Korukoğlu, S. & Bulut, H. Ein multiobjektiver gewichteter Voting-Ensemble-Klassifikator basierend auf einem Differential-Evolution-Algorithmus für die Klassifizierung der Textstimmung. Expertensystem. Appl. 62, 1–16 (2016).

Artikel Google Scholar

Moussa, S. Zitieransteckung: Eine Zitieranalyse ausgewählter Raubmarketing-Zeitschriften. Szientometrie 126, 485–506 (2021).

Artikel Google Scholar

Berek, L. Wie erkennt man Predatory Journals? Eine Idee eines Expertensystems. IPSI Trans. Adv. Res. 16, 3–6 (2020).

Google Scholar

Lang, R., Mintz, M., Krentz, HB & Gill, MJ Ein Ansatz zur Konferenzauswahl und -bewertung: Ratschläge zur Vermeidung „räuberischer“ Konferenzen. Szientometrie 118, 687–698 (2019).

Artikel Google Scholar

Referenzen herunterladen

Die Autoren danken den blinden Gutachtern für ihre aufschlussreichen und konstruktiven Kommentare. Diese Arbeit wurde vom taiwanesischen Ministerium für Wissenschaft und Technologie (Fördernummer 108-2511-H-009-009-MY3) und dem High-level Talent Research Project der Fuzhou University of International Studies and Trade (Fördernummer FWKQJ201909) unterstützt. .

School of Big Data, Fuzhou University of International Studies and Trade, Fuzhou, 350202, China

Li-Xian Chen

Fakultät für Informatik, National Yang Ming Chiao Tung University, Raum 702, MIRC, No.1001, University Road, Hsinchu, 30010, Taiwan

Shih-Wen Su, Chia-Hung Liao, Kai-Sin Wong und Shyan-Ming Yuan

Sie können diesen Autor auch in PubMed Google Scholar suchen

LX Chen: Konzeptualisierung, Methodik, Untersuchung, Schreiben – Originalentwurf, Schreiben – Überprüfung und Bearbeitung, Ressourcen und Visualisierung. SW So: Konzeptualisierung, Serveraufbau und -wartung, Schreiben, Überprüfen und Bearbeiten, Datenkuration. CH Liao: Konzeptualisierung, Methodik, Software, Untersuchung. KS Wong: Methodik, Software, Untersuchung, formale Analyse, Modelltraining und -optimierung. SM Yuan: Konzeptualisierung, Ressourcen, Schreiben, Rezension und Bearbeitung. Alle Autoren haben das Manuskript überprüft.

Korrespondenz mit Shyan-Ming Yuan.

Die Autoren erklären, dass ihnen keine konkurrierenden finanziellen Interessen oder persönlichen Beziehungen bekannt sind, die den Anschein erwecken könnten, dass sie die in diesem Artikel beschriebene Arbeit beeinflusst hätten.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Die ursprüngliche Online-Version dieses Artikels wurde überarbeitet: Die Erklärung zur Datenverfügbarkeit und die Dateien mit ergänzenden Informationen wurden aktualisiert.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Chen, LX., Su, SW., Liao, CH. et al. Ein offenes Automatisierungssystem zur Erkennung räuberischer Zeitschriften. Sci Rep 13, 2976 (2023). https://doi.org/10.1038/s41598-023-30176-z

Zitat herunterladen

Eingegangen: 07. Februar 2022

Angenommen: 17. Februar 2023

Veröffentlicht: 20. Februar 2023

DOI: https://doi.org/10.1038/s41598-023-30176-z

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein gemeinsam nutzbarer Link verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Veröffentlichung von Research Quarterly (2023)

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.