TF-IDF’nin etkisi nedir ve SEO stratejinize gerçekten yardımcı olabilir mi? “Bu çılgın SEO çalışanları… daha sonra ne düşünecekler?” Diye düşündüğünüz için affedilirsiniz. Ama bu, bu düşünce liderinin ya da yeni bir cümle kurmaya çalışmanın bir örneği değil. Bu bölümde, TF-IDF’nin ne olduğunu, nasıl çalıştığını, neden SEO sözlüğünün bir parçası olduğunu ve en önemlisi – Google’ın bunu bir sıralama faktörü olarak kullanıp kullanmadığını öğreneceksiniz.
İddia: TF-IDF Bir Sıralama Faktörüdür
Bu konu hakkında daha fazla bilgi edinmek için giderseniz, bu yıl TF-IDF’ye bütçe ayırmayarak kendinizi eksik hissettirmek için tasarlanmış çılgınca başlıklar göreceksiniz:
- SEO için TF-IDF: Neler Çalışır ve Neler Yaramaz.
- TF-IDF: SEO’ların kullanmadığı en iyi içerik optimizasyon aracı.
- TF IDF SEO: Rakiplerinizi TF-IDF ile Nasıl Ezebilirsiniz?
TF-IDF, kaçırdığınız SEO taktiği mi?
Bir Sıralama Faktörü Olarak TF-IDF İçin Kanıt
Şununla başlayalım: TF-IDF nedir? Terim frekansı-ters belge frekansı , bilgi alma alanından bir terimdir. Bir bütün olarak belge koleksiyonuna verilen herhangi bir kelimenin istatistiksel önemini ifade eden bir rakamdır. Sade bir dilde, bir kelime bir belge koleksiyonunda ne kadar sık görülürse, o kadar önemlidir ve o terim o kadar ağırdır. Bunun aramayla ne alakası var? Google, dev bir bilgi alma sistemidir. 500 belgelik bir koleksiyonunuz olduğunu ve bunları [sallanan ve yuvarlanan] terimiyle alaka düzeyine göre sıralamak istediğinizi varsayalım. Denklemin ilk kısmı, terim frekansı (TF), şu şekilde olacaktır:
- Üç kelimeyi de içermeyen belgeleri yok sayın .
- Kalan her belgede her terimin kaç kez göründüğünü sayın .
- Belgenin uzunluğundaki faktör .
Sistemin sonunda her belge için bir TF rakamı bulunur. Ancak bu rakam tek başına sorunlu olabilir. Terime bağlı olarak, yine de bir yığın belgeyle karşılaşabilir ve hangisinin sorgunuzla en alakalı olduğuna dair gerçek bir ipucu elde edemeyebilirsiniz. Bir sonraki adım olan ters belge frekansı (IDF), TF’nize biraz daha bağlam kazandırır. Belge sıklığı = belge koleksiyonundaki terimleri sayma. Ters = En sık görünen terimlerin önemini tersine çevirme. Burada sistem [ve] terimini denklemden çıkarır çünkü bu özel sorguyla alakasız olacak şekilde 500 belgenin tamamında çok sık kullanıldığını görebiliriz. En çok [ve] en üst sıralarda yer alan belgeleri istemiyoruz. Metin uzunluğu için normalleştirme yapılırken [sallanma] ve [yuvarlanma] için en yüksek ağırlıklı belgelerin [sallanma ve yuvarlanma] hakkında bilgi arayan kişilerle alakalı olma olasılığı daha yüksektir.
Bir Sıralama Faktörü Olarak TF-IDF Aleyhindeki Kanıt
Belge koleksiyonunun boyutu ve çeşitliliği arttıkça, bu metriğin faydası daralır. Google’dan John Mueller bu konuda konuştu ve açıkladı
“Bu oldukça eski bir ölçü ve işler yıllar içinde biraz gelişti. Başka birçok metrik de var. ”
Bunun bir faktör olmadığını söylediğini sanmıyorum; Bence gayet açık bir şekilde bunun artık o kadar da önemli olmadığını söylüyor. Ve insanlar Mueller’in üzerlerine çekmeye çalıştığına inanmaktan hoşlansa da, onun bu konuda yalan söylemesine imkan yok. Bir araştırmacının sorguladığı kelimeleri hangi belgelerin içerdiğini belirlemek, bir yanıt döndürmek için gerekli bir ilk adımdır. Ancak bununla birlikte, kendi başına kullanışlı olmayan eski bir ölçümdür. Google boyutundaki bir dizinde, TF-IDF’nin yapabileceği en iyi şey, milyonlarca veya milyarlarca sonucu geri getirmektir.
Bunun için optimize edebilir misiniz? Numara. TF-IDF için optimize etmeye çalışmak, belirli bir anahtar kelime yoğunluğu elde etmeye çalışmak anlamına gelir ve buna anahtar kelime doldurma denir . Yine de bu, bu kavramın SEO uzmanları için önemli olmadığı anlamına gelmez.