محتوای تکراری (Duplicate Content) - دلایل و راه حل رفع آن

موتورهای جستجو مانند گوگل "محتوای تکراری یا duplicate content" را به راحتی تشخیص می دهند. محتوای تکراری به این معنی است که یک محتوای مشابه در چندین سایت (URL) در وب ظاهر می شود و در نتیجه موتورهای جستجو نمی دانند که کدام URL را در نتایج جستجو نشان دهند.

این موضوع می تواند به رتبه بندی یک صفحه وب صدمه بزند و مشکل وقتی بدتر می شود که مردم شروع به لینک زدن به نسخه های مختلف یک محتوای یکسان کنند.

این مقاله به شما کمک می کند تا دلایل مختلف محتوای تکراری را درک کنید و برای هر یک از آنها راه حل پیدا کنید و البته از آن دوری کنید.

 

محتوای تکراری چیست

محتوای تکراری محتوایی است که محتوای صفحات کپی مشابه یا دقیق آن در سایت ها یا در صفحات مختلف یک وب سایت وجود دارد. تعداد زیاد محتوای تکراری در یک سایت می تواند بر رتبه بندی آن سایت تاثیر منفی بگذارد.

به عبارت دیگر:

داپلیکیت کانتنت محتوایی است که کلمه به کلمه آن محتوا در صفحه دیگری که URL متفاوتی دارد نشان داده می شود.

محتوای تکراری چیست

اما "محتوای تکراری" برای محتوایی که مشابه مطالب دیگر هم استفاده می شود ... حتی اگر کمی بازنویسی شود.

محتوای مشابه

از آنجا که در این حالت، بیش از یک URL محتوای یکسانی را نشان می دهد، موتورهای جستجو نمی دانند که کدام URL را در نتایج جستجو بالاتر قرار دهند. بنابراین ممکن است هر دو URL را پایین تر قرار داده و ارجحیت را به سایر صفحات وب بدهند.

در این مقاله، ما بیشتر به دلایل فنی به وجودآمدن duplicate content و راه حل های آنها خواهیم پرداخت.

 

چرا محتوای تکراری در سئو اهمیت دارد؟

به طور کلی، گوگل نمی خواهد صفحات دارای محتوای تکراری را رتبه بندی کند.

گوگل میگوید:

«گوگل تلاش می کند تا محتواهای یونیک و کاملا جدید را ایندکس و رتبه بندی کند.»

بنابراین اگر صفحاتی در سایت خود داشته باشید با محتوای کپی، می تواند به رتبه بندی سایت شما آسیب برساند.

به طور خاص، در اینجا سه ​​مسئله اصلی وجود دارد که سایت های با محتوای تکراری، زیاد با آن روبرو می شوند:

کاهش ترافیک ارگانیک:

این خیلی مشخص است. گوگل نمی خواهد صفحاتی که محتوای تکراری در سایت دارند را در serp نمایش دهد.

(حتی اگر محتوای تکراری در صفحات داخلی سایت باشد)

به عنوان مثال، فرض کنید شما سه صفحه در سایت خود با محتوای مشابه دارید.

کاهش ترافیک ارگانیک

گوگل متوجه نمی شود که کدام صفحه "اصلی" است. بنابراین هر سه صفحه برای رتبه بند بهتر گرفتن در نتایج وجود دارند.

رقابت صفحات برای رتبه بهتر

پنالتی (خیلی کم)

گوگل اعلام کرده که محتوای تکراری می تواند یکی از دلایل پنالتی شدن سایت یا خارح شدن سایت از حالت index شود.

پنالتی شدن سایت

با این حال، این حالت خیلی نادر است. و این فقط در مواردی انجام می شود که سایتی به طور هدفمند محتوای سایت های دیگر را از برمی دارد یا کپی می کند.

تاثیر محتوای تکراری بر سئو

بنابراین اگر چند صفحه با محتوای تکراری در سایت خود دارید، نگران "پنالتی شدن محتوای تکراری" نباشید.

ایندکس کمتر این صفحات:

این به ویژه برای وب سایت هایی که صفحات زیادی دارند (مانند سایت های فروشگاهی) بسیار مهم است.

گوگل فقط رتبه صفحات با محتوای تکراری را از بین نمی برد. در واقع از index کردن آن ها خودداری می کند.

ایندکس کمتر این صفحات:

بنابراین اگر در سایت خود صفحاتی دارید که index نمی شوند، دلیل آن این است که بودجه خزش شما برای محتوای تکراری به هدر می رود.

بیایید این موضوع را با یک مثال توضیح دهیم

برای بدتر کردن وضعیت، فرض کنید مقصد نهایی نیز کمی متفاوت باشد. به عنوان یک خواننده، شاید این موضوع برای شما اهمیتی نداشته باشد چرا که بالاخره محتوای مورد نظرتان را خواهید یافت، اما یک موتور جستجو باید انتخاب کند که کدام صفحه را در نتایج جستجو نشان دهد، زیرا نمی خواهد مطالب یکسان را دو بار به نمایش بگذارد.

بیایید فرض کنیم که مقاله شما در مورد "کلمه کلیدی x" در 
http://www.example.com/keyword-x/ و http://www.example.com/article-category/keyword-x/ 
به صورت کاملا یکسان ظاهر شود .

این وضعیت خیالی و ساختگی نیست. این اتفاق در بسیاری از سیستم های مدرن مدیریت محتوا اتفاق می افتد.

بعد از این فرض کنیم که مقاله شما توسط چندین وبلاگ نویس برداشته شده و برخی از آنها نیز به URL اول لینک زده باشند، در حالی که برخی دیگر به URL دوم لینک زده اند. این دقیقا زمانی است که مشکل داپلیکیت کانتنت در موتور جستجو ماهیت واقعی خود را نشان می دهد.

و این مساله فرایند سئو شما را مختل می کند. در واقع duplicated content مشکل شماست زیرا هر دو آن لینک ها، به URL های مختلفی ارزش می دهند . اگر همه آنها به یک URL لینک می زدند، شانس شما برای رتبه بندی برای "کلمه کلیدی x" بیشتر می بود.

اگر نمی دانید که مساله محتوای تکراری بر روی کدام نتایج شما در رتبه بندی گوگل تاثیر گذاشته است، ابزارهای کشف محتوای تکراری به شما کمک می کنند تا به این موضوع پی ببرید!

 

دلایل بوجود آمدن duplicate content

ده ها دلیل برای مشکل داپلیت کانتنت وجود دارد. بیشتر آنها فنی هستند. خیلی طبیعی نیست که کسی تصمیم بگیرد محتوای یکسان را در دو مکان مختلف قرار دهد بدون اینکه مشخص کند کدام یک از آن ها اصلی است. مگر اینکه پستی را کپی کرده و آن را به طور تصادفی و یا غیر تصادفی منتشر کرده باشید.

در غیر این صورت، این کار امری غیر طبیعی است.

اگر چه دلایل فنی زیادی وجود دارد، اما این اتفاق بیشتر به این دلیل رخ می دهد که برنامه نویس یا توسعه دهنده مانند مرورگر و یا حتی کاربر فکر نمی کنند، در حالیکه موتور جستجوی گوگل تصمیم دارد مانند کاربر فکر کند و تجربه ای لذت بخش برای کاربران ایجاد کند.

مقاله ای را که قبلاً در http://www.example.com/keyword-x/ و http://www.example.com/article-category/keyword-x/ مثال زدیم را در نظر بگیرید. اگر از برنامه نویس بپرسید، او می گوید که مقاله مورد نظر فقط در یک URL وجود دارد.

برداشت اشتباه در مورد مفهوم یک URL

نه، آن برنامه نویس دیوانه نشده است ، آنها فقط به زبان دیگری صحبت می کنند. CMS احتمالاً چرخ وب سایت را به حرکت در خواهد آورد و در آن پایگاه داده نیز فقط یک مقاله وجود دارد، اما نوع برنامه نویسی سایت به گونه ای است که مقاله مورد نظر موجود در پایگاه داده از طریق چندین URL پیدا و نمایش داده می شود.

دلیل این اتفاق چیست؟ از نظر توسعه دهنده، شناسه منحصر به فرد (unique identifier, ID) یک مقاله، شناسه ای است که هر مقاله در پایگاه داده دارد (نه URL آن). اما برای موتور جستجو، URL شناسه منحصر به فرد برای یک محتوا محسوب می شود.

اگر این موضوع را برای یک برنامه نویس توضیح دهید، آنها مشکل را پیدا می کنند و راهکارهای حل این مساله پیدا خواهد شد.

Session ID ها

شما معمولا می خواهید رفتار بازدیدکنندگان سایت خود را دنبال کنید و به آنها اجازه دهید تا عملی را انجام دهند. برای مثال، کالاهایی را که قصد خریدشان را دارند را در سبد خرید ذخیره کنند. برای انجام این کار، باید "Session" به آنها بدهید.

تعریف Session به طور مختصر تاریخچه کاری است که بازدید کننده در سایت شما انجام داده است و می تواند حاوی مواردی مانند اضافه کردن کالای موجود در سبد خریدشان باشد.

برای حفظ آن Session، هنگامی که بازدید کننده از یک صفحه به صفحه دیگر کلیک می کند، شناسه منحصر به فرد آن Session (که Session ID نامیده می شود) باید در جایی ذخیره شود. رایج ترین راه حل انجام این کار با کوکی ها (Cookies) است. با این حال، موتورهای جستجو معمولاً کوکی ها را ذخیره نمی کنند.

در این مرحله، برخی از سیستم ها با استفاده از Session ID ها، آن ها را در URL بازمی گردانند. این به این معنی است که هر لینک داخلی در وب سایت، Session ID مورد نظر را به URL خود اضافه می کند و به دلیل اینکه آن Session ID مخصوص همان Session است ، یک URL جدید ایجاد می شود و بنابراین محتوای تکراری تکثیر می شود.

پارامترهای URL که برای ردیابی و مرتب سازی استفاده می شوند

دلیل دیگر محتوای تکراری استفاده از پارامترهای URL ای است که محتوای صفحه را تغییر نمی دهند. به عنوان مثال، در پیگیری و دنبال کردن لینک ها می بینید که برای یک موتور جستجو http://www.example.com/keyword-x/ و http://www.example.com/keyword-x/?source=rss، URL های یکسانی نیستند.

مورد دوم ممکن است به شما این امکان را بدهد تا ردیابی کنید که مردم از چه منبعی آمده اند، اما همچنین ممکن است که رتبه بندی را برای شما دشوار کند و این یک اثر جانبی ناخواسته بر روی فرایند سئوی سایت شما است.

البته این موضوع فقط برای پارامترهای ردیابی نیست. بلکه برای هر پارامتری است که می توانید به یک URL اضافه کنید در صورتی که محتوای مهم و اصلی را تغییر ندهد. چه این پارامتر برای "تغییر مرتب سازی در مجموعه ای از محصولات" باشد و یا "نمایش سایدبار (sidebar)"، همه آنها باعث محتوای تکراری می شوند.

سایت های دزد محتوا (Scrapers) و هم نشری محتوا (Content Syndication)

بیشتر دلایل Duplicate Content یا به محتوا نویس سایت شما و یا به برنامه نویس سایت تان مرتبط است. با این حال، گاهی اوقات وب سایت های دیگر با اجازه و یا بدون رضایت شما از محتوایتان استفاده می کنند. آنها همیشه به مقاله اصلی شما لینک نمی زنند؛ بنابراین موتور جستجو آن را تشخیص نمی دهد و مجبور است با نسخه دیگری از همان مقاله سروکار داشته باشد.

هرچه سایت شما محبوبیت بیشتری پیدا کند، سایت های دزد محتوا (scrapers) بیشتری به خود جذب خواهد کرد که باعث بدتر شدن مشکل می شود.

ترتیب پارامترها

دلیل متداول دیگر این است که CMS از URL های تمیز و خوب استفاده نمی کند. بلکه از URL هایی مانند /?id=1&cat=2 استفاده می کند که id به مقاله و cat به دسته بندی مورد نظر اشاره می کند. URL /?cat=2&id=1 در اکثر سیستم های وب سایت ها، نتایج مشابهی را رندر می کند در حالی که برای موتور جستجو کاملاً متفاوت است.

صفحه بندی (Pagination) نظرات (comment)

در وردپرس، و همچنین در برخی از سیستم های دیگر ، گزینه ای برای صفحه بندی نظرات شما وجود دارد. این موضوع منجر به تکرار شدن محتوا در سراسر URL مقاله و URL مقاله + /comment-page1/، /comment-page-2/ و غیره می شود.

صفحات مناسب چاپ

اگر سیستم مدیریت محتوای شما صفحات مناسب چاپ ایجاد کند و شما از صفحه های مقاله خود به آن ها لینک بزنید، گوگل معمولاً آنها را پیدا می کند، مگر اینکه آنها را بطور اختصاصی مسدود بکنید.

شما باید از خود بپرسید که کدام نسخه را می خواهید که گوگل نشان دهد؟ موردی که با تبلیغات و محتوای جانبی شما همراه است و یا آن که فقط مقاله شما را نشان می دهد؟

WWW در مقابل non-WWW

این مورد یکی از قدیمی ترین دلیل های این موضوع است، اما گاهی اوقات موتورهای جستجو هنوز آن را اشتباه می گیرند: داپلیکیت کانتنت WWW در مقابل non-WWW

البته این مورد زمانی اتفاق می افتد که هر دو نسخه سایت شما قابل دسترسی باشد. وضعیت متداول دیگری که من نیز آن را دیده ام ، محتوای تکراری HTTP در مقابل HTTPS است ، که در هر دو آن ها محتوای یکسان ارائه می شود.

در صورت یکه اطلاعات کافی درباره Https ندارید مقاله زیر را مشاهده نمایید:

 

HTTPS چیست؟ تمام مواردی که نیاز است بدانید

راه حل مفهومی:  "کنونیکال URL"

همانطور که قبلاً نیز دیده ایم، این موضوع که چندین URL به یک محتوای یکسان ختم شوند، اگر چه یک مشکل است اما قابل حل است.

فردی که در یک نشریه کار می کند به طور معمول می تواند به راحتی به شما بگوید که URL صحیح برای یک مقاله خاص کدام است، اما گاهی اوقات وقتی از سه نفر در یک شرکت سوالی بپرسید، سه پاسخ متفاوت دریافت می کنید.

این قضیه مشکلی است که باید به آن پرداخت، زیرا که در نهایت، فقط یک (URL) می تواند وجود داشته باشد. موتورهای جستجو از آن URL "صحیح" متناظر با محتوا، با عنوان Canonical URL یاد می کنند.

راه حل مفهومی:  "کنونیکال URL"

 

شناسایی مشکلات Duplicate content

شاید از این که آیا در سایت خود با محتوای تکراری روبرو هستید یا نه، آگاه نباشید. استفاده از گوگل یکی از ساده ترین راه ها برای ردیابی محتوای تکراری است.

چندین اپراتور جستجو وجود دارد که در مواردی از این دست بسیار مفید هستند. اگر می خواهید تمام URL های سایت خود را که حاوی مقاله ای با کلمه کلیدی X هستند را پیدا کنید ، عبارت جستجوی زیر را در گوگل تایپ می کنید:

site:example.com intitle:"Keyword X"

سپس گوگل همه صفحاتی که در آن ها کلمه کلیدی مورد نظر وجود دارد را در example.com به شما نشان خواهد داد. هرچه قسمت intitle آن خاص تر و مشخص تر باشد، آسان تر از شر داپلیکیت کانتنت خلاص خواهید شد.

برای شناسایی محتوای تکراری در وب نیز می توانید از همین روش استفاده کنید. بیایید فرض کنیم که عنوان کامل مقاله شما "کلمه کلیدی X - چرا عالی است" باشد ، در این صورت شما باید عبارت زیر را جستجو کنید:

intitle:"Keyword X - why it is awesome"

و گوگل همه سایت هایی که با این عنوان مطابقت دارند را به شما می دهد. بعضی اوقات ارزش این را دارد که حتی یک یا دو جمله کامل از مقاله خود را جستجو کنید، زیرا ممکن است بعضی از سایت های دزد محتوا (scrapers) عنوان را تغییر دهند.

در بعضی موارد، وقتی به این صورت جستجو می کنید، ممکن است گوگل در صفحه آخر نتایج چنین اعلانی را نشان دهد:

گوگل از قبل در حال "حذف محتوای تکراری (deduping) "

این علامتی است که نشان می دهد گوگل از قبل در حال "حذف محتوای تکراری (deduping) " از نتایج بوده است. اما این هنوز یک راهکار کامل نیست، بنابراین لازم است روی لینک کلیک کرده و به سایر نتایج نگاه کنید تا ببینید که آیا می توانید برخی از آنها را برطرف کنید یا نه.

 

بهترین روش برای داپلیکیت کانتنت

هنگامی که تصمیم گرفتید که کدام URL کنونیکال برای محتوای شما است، باید فرآیند کنونیکالیزیشن را شروع کنید. این به این معناست که ما باید به موتورهای جستجو در مورد نسخه کنونیکال یک صفحه بگوییم و به آنها اجازه دهیم که در کمترین زمان ممکن آن ها را پیدا کنند. به ترتیب اولویت، چهار روش برای حل این مشکل وجود دارد:

  • عدم ایجاد محتوای تکراری
  • ریدایرکت کردن محتوای تکراری به URL کنونیکال
  • افزودن یک عنصر لینک کنونیکال به صفحه تکراری
  • افزودن لینک HTML از صفحه تکراری به صفحه کنونیکال

به URL صفحات با محتوای مشابه دقت کنید

 

این رایج ترین دلیلی است که باعث به وجود آمدن محتوای تکراری می شود.

به عنوان مثال، فرض کنید شما یک سایت فروشگاهی دارید.

و یک صفحه محصول دارید که تیشرت می فروشد.

صفحه فروش تیشرت

اگر همه چیز درست تنظیم شود، هر اندازه و رنگ آن تی شرت همچنان در یک URL است.

به URL صفحات با محتوای مشابه دقت کنید

اما بعضی اوقات میبینید که سایت شما برای انواع مختلف محصول یک URL جدید ایجاد می کند… که منجر به هزاران صفحه با محتوای تکراری می شود.

url های مشابه

مثال دیگر:

اگر سایت شما قابلیت سرچ دارد، آن صفحات نتیجه جستجو نیز می توانند ایندکس شوند. باز هم، این می تواند به راحتی 1000+ صفحه به سایت شما اضافه کند. همه آنها دارای محتوای تکراری هستند.

صفحات ایندکس شده را چک کنید

یکی از ساده ترین راه ها برای یافتن محتوای تکراری این است که به تعداد صفحات سایت خود که در گوگل نمایه شده اند نگاهی بیندازید.

این کار را می توانید با جستجوی site:example.com در گوگل انجام دهید.

صفحات ایندکس شده را چک کنید

یا صفحات index خود را در سرچ کنسول بررسی کنید.

 بررسی index در سرچ کنسول

در هر صورت، این شماره باید با تعداد صفحاتی که به صورت دستی ایجاد کرده اید، برابر باشد.

مطمئن شوید که صفحات به درستی ریدارکت شده اند.

گاهی اوقات شما فقط چندین نسخه از یک صفحه را ندارید ... بلکه نسخه های تفاوتی از یک سایت را دارید.

اگر چه شاید خیلی بعید باشد اما باز هم ممکن است.

وقتی نسخه "WWW" سایت شما به نسخه "بدون WWW" ریدایرکت نشود، این مشکل به وجود می آید.

(یا برعکس)

اگر برای سایت خود Https را راه اندازی کرده اید و نسخه http را به https ریدایرکت نکرده باشید، این اتفاق می افتد.

به طور خلاصه تمام نسخه های مختلف سایت باید به یک آدرس ریدایرکت شوند.

مطمئن شوید که صفحات به درستی ریدارکت شده اند.

از ریدایرکت 301 استفاده کنید.

ریدایرکت 301 ساده ترین راه برای رفع مشکلات محتوای تکراری در سایت شما است.

بنابراین اگر صفحات با محتوای تکراری سایت خود را پیدا کرده اید، آنها را به صفحه اصلی ریدایرکت کنید.

از ریدایرکت 301 استفاده کنید.

وقتی Googlebot متوقف شد ، هدایت را پردازش می کند و فقط محتوای اصلی را فهرست می کند.

مراقب محتوای مشابه باشید

محتوای تکراری فقط به معنای محتوایی نیست که کلمه به کلمه از جای دیگری کپی شده باشد.

در حقیقت، گوگل محتوای تکراری را به این صورت تعریف می کند:

تعریف محتوای مشابه

به عنوان مثال، فرض کنید شما سایتی دارید که به مردم یاد می دهد چگونه فرانسه صحبت کنند.

 

اجتناب از محتوای تکراری

برخی از دلایل محتوای تکراری که در بالا آمده اند راه حل های بسیار ساده ای دارند:

  • آیا Session ID در URL های شما وجود دارد؟

این موارد اغلب فقط می توانند در تنظیمات سیستم شما غیرفعال شوند.

  • آیا صفحات تکراری مناسب چاپ دارید؟

این موارد کاملاً غیرضروری هستند: شما فقط باید از print style sheet استفاده کنید.

  • آیا از صفحه بندی نظرات در وردپرس استفاده می کنید؟

شما فقط باید این ویژگی را (در بخش settings >> discussion) در 99٪ سایتها غیرفعال کنید.

  • آیا پارامترهای شما ترتیب دیگری دارند؟

به برنامه نویس خود بگویید که یک اسکریپت ایجاد کند تا همیشه پارامترها را در یک ترتیب یکسان قرار دهد.

  • آیا مشکلات لینک های دنبال کننده وجود دارد؟

در بیشتر موارد، می توانید به جای ردیابی کمپین مبتنی بر پارامتر ، از ردیابی کمپین مبتنی بر هشتگ استفاده کنید.

  • آیا مشکلات WWW درمقابل non-WWW دارید؟

یکی را انتخاب کنید و با ریدایرکت کردن یکی به دیگری، با آن همراه شوید. همچنین می توانید درGoogle Webmaster Tools اولویت تعیین کنید.

اگر مشکل شما با روش های بالا برطرف نشد ،ارزش دارد تا بیشتر تلاش کنید و هدفتان این باشد که از ظاهر شدن محتوای تکراری به طور کامل جلوگیری شود.

استفاده از لینک ها

بعضی اوقات شما نمی خواهید و یا نمی توانید از نسخه تکراری مقاله خلاص شوید، حتی اگر بدانید که این URL اشتباه است. برای حل این مسئله خاص، موتورهای جستجو، تگ کنونیکال را معرفی کرده اند. این تگ در بخشسایت شما قرار گرفته است و به صورت زیر است:

 

 

در قسمت href آن، URL کنونیکال صحیحی را برای مقاله خود قرار می دهید. هنگامی که یک موتور جستجو که از کنونیکال پشتیبانی می کند، این عنصر لینک را پیدا کند، یک ریدایرکت 301 انجام می دهد و بیشتر لینک های جمع شده توسط آن صفحه را به صفحه کنونیکال شما منتقل می کند.

اگرچه این روند کمی کندتر از ریدایرکت 301 است ، اما اگر فقط قادر به ریدایرکت 301 هستید، ترجیحا همین کار را بکنید (همانطور که توسط جان مولر گوگل گفته شد).

لینک برگشت زدن به محتوای اصلی

اگر نمی توانید هر کدام از موارد بالا را انجام دهید، احتمالاً به این دلیل است که بخشسایتی را که محتوای شما در آن نمایش داده می شود را نمی توانید کنترل کنید، پس افزودن لینک برگشت به مقاله اصلی در بالا و یا پایین مقاله همیشه ایده خوبی است. ممکن است بخواهید این کار را در (RSS feed) خود با اضافه کردن لینک برگشتی به مقاله موجود در آن انجام دهید.

برخی از سایت های دزد محتوا (scrapers) این لینک را فیلتر می کنند در حالی که برخی دیگر ممکن است کاری با آن نداشته باشند. اگر گوگل با چندین لینک روبرو شود که به مقاله اصلی شما اشاره می کنند، به زودی پی خواهد برد که این همان نسخه کنونیکال است.

 

نتیجه گیری: محتوای تکراری قابل اصلاح است و باید اصلاح شود

محتوای تکراری در همه جا اتفاق می افتد. من هنوز با سایتی با بیش از 1000 صفحه مواجه نشده ام که حداقل دارای یک مشکل کوچک محتوای تکراری نباشد. این چیزی است که شما باید دائماً مراقب آن باشید ، اما این مسئله قابل حل است و پاداش های آن می تواند فراوان باشد. فقط با خلاص شدن از شر محتوا تکراری از سایت خود، محتوای با کیفیت شما می تواند جایگاه بالاتری در رتبه بندی گوگل کسب کند.

 

 

پست های مشابه

روش های افزایش بک لینک های طبیعی

24

آبان