SEO ותוכן

בקרת גישה לבוטים מבוססי בינה מלאכותית

נתח את קובץ ה-robots.txt באתר שלך; קבל תצוגה בזמן אמת של מצב הגישה של GPTBot, ClaudeBot, Perplexity ועוד 17 דפדפנים בינה מלאכותית.

שם דומיין או כתובת URL

מידע

אודות בקרת גישה לבוטים מבוססי בינה מלאכותית

חברות בינה מלאכותית (OpenAI, Anthropic, Google, Meta, Amazon ועוד) משתמשות בבוטים מיוחדים לסריקת האינטרנט, לאמן מודלים של AI או לבצע חיפושים מיידיים של תוכן. הגישה של הבוטים הללו לאתר שלך, robots.txt נקבע לפי הכללים בתיק שלך. עם זאת, זה די מסובך לראות איזה בוט מותר ואיזה חסום במקום אחד.

כלי בקרת הגישה לבוטים בבינה מלאכותית מאפשר לך לגשת לאתר אליו אתה נכנס robots.txt הוא מושך את הקובץ שלו בזמן אמת על ידי השרת ומנתח אוטומטית את הסטטוס של 17 זחלני AI שונים: GPTBot, ChatGPT-User, OAI-SearchBot (OpenAI); ClaudeBot, anthropic-ai, Claude-Web (Anthropic); PerplexityBot ומשתמש בלבול (Perplexity); Google Extended (סקירה של Gemini/AI); Applebot-Extended; CCBot (זחילה נפוצה); Bytespider (טיקטוק); Amazonbot; מטא-אקסטרנלאגנט ו-FacebookBot (מטא); DuckAssistBot ו-cohere-ai. לכל בוט בחופשה, נכים או לא מוגדרת (הרשאה ברירת מחדל) אפשר לראות את הסטטוס עם תגיות צבעוניות.

מסך התוצאות גם מציג כיבוי מוחלט של בוטי בינה מלאכותית robots.txt מוצגים גם חוקים לדוגמה. אם אינך בעל האתר, תוכל גם להשתמש בו כדי לחקור את המדיניות של כל אתר. כל השאילתה היא בצד השרת; רק בקשות נשלחות לכתובות IP ציבוריות, חסימות רשת מקומיות ופרטיות נחסמות מסיבות אבטחה.

איך להשתמש בזה?

שלב אחר שלב

הזן את שם הדומיין או כתובת URL מלאה (לדוגמה, example.com או https://example.com).
צ'ק כפתור; אתר הרכב robots.txt קובץ.
לכל רובוט בינה מלאכותית בחופשה, נכים או לא צוין ראו את מעמדו עם תגיות צבעוניות.
אם צריך, העתק את הכללים המוכנים בתחתית הדף כדי ליצור את הכללים של האתר שלך robots.txt קובץ.

שאלות נפוצות

robots.txt הוא פרוטוקול סטנדרטי שאומר לדפדפנים לאילו דפים הם יכולים לגשת אליו. חברות בינה מלאכותית מתחייבות לוודא שבוטי איסוף הנתונים שלהן עומדים בדרישות הקובץ הזה. מבנה נכון של הקובץ הוא הדרך המהירה ביותר למנוע מהתוכן שלך להיכנס לנתוני אימון AI או לשמש בחיפושים מיידיים ב-AI.

אם לקובץ robots.txt שלך אין כלל ספציפי לבוט הזה, וחסימת User-agent: * (כל הבוטים) אינה כוללת הגבלה, הבוט נחשב כברירת מחדל כגישה מותרת. זה אומר שאם אתה רוצה לחסום את הבוט, עליך להוסיף כלל מותאם אישית.

לא, robots.txt פרוטוקול נימוס טכני; זו אינה חובה חוקית. בעוד שבוטים מחברות בינה מלאכותית רציניות מתחייבים לעקוב אחרי כללים אלו, זוחלים זדוניים עלולים לעצום עין. מומלץ לנקוט צעדים נוספים כגון בקרת גישה ואימות לתוכן רגיש.

Google-Extended הוא מזהה הדפדפן הבלעדי שבו משתמשת גוגל לפיתוח מוצרי הבינה המלאכותית שלה, כמו Gemini ו-AI Overviews. הוא נפרד מבוט החיפוש הרגיל של גוגל (Googlebot); רק אם הבוט הזה נחסם, דף האינטרנט שלך ימשיך להופיע בתוצאות החיפוש בגוגל.

Common Crawl הוא פרויקט ארכיון אינטרנט בקוד פתוח, ורבים ממודלי השפה הגדולים (כולל GPT-3/4) השתמשו בנתוני CCBot להדרכה. חסימת CCBot יכולה להפחית את הכניסה של התוכן שלך למודלים עתידיים של בינה מלאכותית בקוד פתוח.

חזרה לכל הכלים החינמיים

בקרת גישה לבוטים מבוססי בינה מלאכותית

אודות בקרת גישה לבוטים מבוססי בינה מלאכותית

שלב אחר שלב

שאלות נפוצות

למה robots.txt חשוב?

מה המשמעות של 'סטטוס לא מוגדר'?

האם הכללים robots.txt מחייבים מבחינה משפטית?

מה זה Google-Extended?

למה CCBot (Common Crawl) נמצא ברשימה הזו?