Daha İyi SEO için Doğal Dil İşleme Araçları

0
71
views

Doğal dil işleme (NLP) yıllar içinde uzun bir yol kat etti ve SEO’da her zaman bir çeşit gizem ve hype havası tuttu. Bu çok kötü, çünkü arkasındaki matematik ve bilgisayar bilimi hayal bile edilemeyecek kadar karmaşık hale gelse de, motivasyon basit.

Makineler okuyamaz; sadece matematik yapabilirler. Bulanık, özensiz ve belirsiz insan tarafından üretilen metni analiz etme sorununu çözmek için, makinelerin sayılar gibi kelimeleri üzerinde işlem yapabilmeleri için ele almaları gerekir. Bu, bir arama motorunun işini oldukça zorlaştırır. İçeriği okuyabilmeksizin kullanıcı sorgularıyla eşleştirmeleri gerekir ve bunu hiçbir insanın yürütemeyeceği bir ölçekte ve hızda yapmak zorundadır.

Arama motoru sorununun doğası göz önüne alındığında, arama motorlarının daha kolay matematik problemleri yapmasına yardımcı olmaya çalışarak SEO için doğal dil araçlarını kullanarak yaklaşıyorum. Arama motorları, sıralamak istediğimde çoğunlukla sağladığım içeriğe bağlı olduğundan, içeriğimin arama motorlarının işleyebilmesi için kolay olduğundan emin olmalıyım .

Bu makale, içeriğimizi arama motorlarının üstüne çekecek sihirli bir kelime dizisi bulmakla ilgili değildir. Böyle bir sihir yok. Bu makale, arama motorları ve kullanıcılar için belirsizliği azaltmamıza ve içeriğimizde daha iyi hale getirmemize yardımcı olacak kör noktaları ortaya çıkarmamıza yardımcı olacak araçlar hakkındadır.

SEO’da NLP’nin Kısa Tarihi

BERT ve SEO için ne anlama geldiğinden bahsetmek istiyorum, ancak önce sorunun etrafına bir bağlam vermek ve hala bizimle olan bazı yanılgıları gidermek istiyorum.
Web aramasına erken yaklaşımlar sadece bilgi erişim teknolojilerinin uygulamalarıydı; web dokümanlarına uygulanan kütüphane anahtar kelime aramasından daha gelişmiş değildir.

Arama motorları basit olduğu için SEO oldukça basitti. O zamanlar SEO kolaydı: rakiplerinizden daha yüksek bir sıralama elde edene kadar hedef anahtar kelimenizi sayfaya stratejik olarak ekleyin. “Anahtar kelime yoğunluğu” gibi kavramların ortaya çıkmasına neden olan şey, memnuniyetini aşan bir fikir.

Yaklaşık 12 yıl önce, NLP’deki hype Latent Semantic Indexing gibi kelime kümeleme yaklaşımları etrafındaydı. Daha iyi içerik yazmak için hiçbir zaman süper yararlı olmadı, çünkü asla bunun için değildi.

Gizli Semantik Dizinleme (LSI), aynı belgelerde sık sık ortaya çıkan terimlerin aynı sayıyla temsil edildiği sözcükler için sayısal bir kodlama oluşturmak üzere doğrusal bir cebir hilesi kullanmakla ilgilidir. Eğer şanslıysanız, bir şekilde ilişkili kelimeler “kaktüs” ve “etli” gibi bir araya toplanacaktır.

LSI oldukça basit olduğundan, “kaktüs” ve “gökyüzü” gibi bir araya getirilmiş saçmalıklara da sahip olabilirsiniz, çünkü Sonoran Çölü’nün doğal güzelliğini tartışan birçok belge vardı. “LSI anahtar kelimeleri” ne dayalı bir SEO talebi bulursanız, bunu ciddiye almayın.

Google, 2013 yılında, yakındaki diğer kelimeleri kullanarak kelimeleri sayılarla eşleştirmeye yönelik bir sinir ağı yaklaşımı olan Word2Vec’i halka açıkladı. Word2Vec’in amacı, web içeriğindeki kelimeleri almak ve bunları vektörlerle eşlemektir, böylece benzer bağlamlara sahip kelimelerin benzer yön ve büyüklükte vektörleri olacaktır.

Bazı vektör aritmetiğinin <king> – <man> + <woman> ~ = <queen> gibi kodladığı kelimelerin arkasındaki anlamı koruduğu Word2Vec’in açıklamalarını sıklıkla görürsünüz. Bu harika bir sonuç, ancak yaklaşımla çalışan herkes böyle düzgün sonuçlar elde etmiyor.

Word2Vec mükemmel olmasa da, daha sinir ağı ve vektör gömme yaklaşımları için kapı açarak ileriye doğru önemli bir adımdı. Aynı zamanda doğrusal cebir ve istatistiklere dayalı insan tarafından okunabilir tekniklerden sinir ağlarına dayalı kara kutu tekniklerine geçişi sembolize eder.

Pazarlamacının getirdiği paket, Google’ın kelimeleri sayı olarak kodlamada daha iyi hale gelmesiyle, kelimeler ve sayılar arasındaki bağlantının anlaşılmasının daha zor olması ve önemli olmadığıdır. Anahtar kelimelerimizi içerikte daha sık kullanmak işe yaramayacaktır; makineler artık çok daha sofistike.

BERT: Google’ın Yeni Etkinliği

Google’ın BERT’si, vektör düğünleri oluşturmak için en son mimarisidir. Word2Vec’in arkasındaki fikri alır ve sinir ağını daha büyük ve daha sağlam hale getirir. Çok fazla hype üretiyor ve haklı olarak. Öne Çıkan Parçacıklar ve konuşma sorgusu eşleştirme gibi birkaç arama özelliğinde yer alır. Bu çok önemli.

BERT, kelimelerin sayısal temsillerini oluşturmak için bağlamı kullanmakta daha iyidir. Önceki sözcük vektörü yaklaşımları, sözcük bağlamını belirlemek için yalnızca soldan sağa veya sağdan sola görünür. BERT, bir kelimenin hangi anlamda kullanıldığını belirlemek için diğer tüm kelimeleri bir cümlede kullanır.

Örneğin, eğer bağlamı meyve ile değil teknoloji şirketi ile ilgili olduğunu gösteriyorsa, BERT “elmayı” farklı şekilde kodlayacaktır. Bu, bir kelimenin birden fazla anlamı olduğunda polisizmi ele almada bir gelişmedir.

BERT, eşanlamlıları ele alma konusunda da daha iyidir. “Seçkin”, “ünlü” ve “seçkin” kelimelerinin tümü, “Euler 18. yüzyılın en _______ matematikçisinden biriydi ve tarihin en büyük matematikçilerinden biri olarak tutulursa benzer şekilde kodlanırdı. ” çünkü hepsi Euler’in ne kadar harika olduğunu tanımlama işlevini yerine getiriyor.

BERT’e göre, herhangi bir kelimenin “anlamı” onu çevreleyen kelimelere bağlıysa, o zaman tematik anlam taşıyan kelimeleri seçmeliyiz. Bir kullanıcının sorgusunu doğrudan yanıtladığımızda BERT’nin bilmesini kolaylaştırmak için içeriğimizi çok açık hale getirmek istiyoruz.

TF-IDF Araçları: İstatistiksel Olarak Olasılıksız Sözcük Bulma

Yazdığımız bir blog yazısı için bir kelimenin veya ifadenin önemli olup olmadığını anlamanın naif yolu nedir? Yayınınızda birkaç kez ve nadiren başkalarının web sitesinde görünür. TF-IDF’nin arkasındaki temel motivasyon budur. Terim Sıklığı-Ters Belge Sıklığı anlamına gelir.

TF-IDF puanını hesaplamanın bir sürümü için bir formül:

Bir kelime içeriğinizde nispeten sık, başkalarının nadiren göründüğü takdirde, TF-IDF puanı yüksektir. İçeriğimizin ne zaman kolayca ekleyebileceğimiz önemli kelimeleri kullanmadığını belirlemek için TF-IDF (veya bazen sadece temel kelime sıklığı) kullanmak istiyoruz.

Kullanmayı düşünmek istediğimiz istatistiksel olarak nadir kelimeleri bulmanın en kolay yolu rakiplerimizin sayfalarına bakmaktır. Bu bağlamda, gerçekten sadece kelime kullanımı için rekabetçi boşluk analizi yapıyoruz, ancak dikkatli olmalıyız çünkü daha fazlası mutlaka daha iyi anlamına gelmez.

“İnsanlar neden çaya süt koyuyorlar?” ve makalemiz soruyu açıkça cevaplıyor ve tarihsel bağlam sağlıyor (insanlar çay bardaklarını çok sıcak çayla kırmak istemiyorlardı), bir şeyleri kaçırıp kaçırmadığımızı görmek için üst düzey içeriğin kelime sıklıklarını kontrol etmeliyiz.

“Porselen”, “soğutma”, “eklemeden önce” ve “hassas” kelimelerini kaçırdığımızı varsayalım. Mantıklı ve kullanıcı deneyimine değer katıyorsa bunları makalemize eklemeli miyiz? Evet kesinlikle. Makalemizle alakasızlarsa eklemeliyiz ve anlaşmalı metnin bir paragrafında ayakkabı çekmesi gerekir mi? Hayır, bu kötü bir fikir.

Bunu yapmamıza yardımcı olabilecek birkaç araç var. Hepsi TF-IDF kullanmıyor, ama bu iyi çünkü TF-IDF sayı puanı önemli değil, sadece BERT gibi şeyler için daha iyi bir bağlam üretecek kelimeleri istiyoruz.

  1. Seobility: Araçları bize günde üç ücretsiz kontrol sağlıyor.
  2. SEMRush: SEO İçerik Şablonu aracı, önerilen ifadelerin sıkı bir listesini üretir. Zaten bir SEMRush hesabınız varsa, göz atın.
  3. Ryte: Ücretsiz hesaplar ayda 10 TF-IDF raporu ile birlikte gelir. Çok fazla değil, ancak her ay birkaç içerik incelemesi için yeterli.
  4. Çevrimiçi Metin Karşılaştırıcısı: İki belge arasında temel bir kelime sayısı karşılaştırması yapar. Karşılaştırma yapmak istediğiniz birkaç sayfa varsa çok kullanışlıdır.

Google’ın Cloud Natural Language API’sı

Google’ın birçok farklı görev yapabilen doğal bir dil işleme API’sı vardır. Sorun geliştiricilere ve mühendislere yönelik olması.

Neyse ki, ana sayfamızda, içeriğimizdeki kelimeler hakkında birkaç şey söyleyecek ücretsiz bir demo var: hangileri varlıklar ve belgeyle ilgili çıkarımları. API demosu bizim için de yararlıdır, çünkü Google’ın NLP görevlerini temel kelime sayımının çok ötesinde ne kadar kolay yapabileceğinin açık bir örneğidir.

Bu araçtan biraz yararlanmak için, önce birkaç tanıma ihtiyacımız var:

Varlık: Doğru bir isim veya cümledeki konu veya nesne olarak görünecek adlandırılmış herhangi bir şey. Bu demoda Google’ın NLP hizmeti, tescilli bir Adlandırılmış Varlık Tanıma yaklaşımı kullanarak varlıkları metinden otomatik olarak çıkarıyor.

Dikkat Çekme: Bir işletmenin bir belgeye göreli önemi. Gizli sos tekniği kullanarak Google, gönderdiğimiz metinde bulduğu her bir varlığa 0 ile 1 arasında bir sayı atar. Belgedeki diğer varlıklardan herhangi biri ile ne kadar çok varlık kullanılırsa, o kadar yüksek çıkıntı olmalıdır.

Peki bu demo çıkışı ile ne yapacağız? Hemen hemen başka bir içerik boşluğu analizi. İçeriğimizde, üst sıralarda yer alan sayfaların sıklıkla dahil ettiği dikkat çekici varlıkları kaçırıp kaçırmadığımızı bilmek istiyoruz.

Yine de iyi bir yargıya sahip olmalıyız. Bir aracın numarasını artırmak için içeriğimize mümkün olduğunca çok sayıda varlık eklemeye çalışmıyoruz. Bu boşluk analizinin, kullanıcılara faydalı içerik sağlamak için gözden kaçan fırsatlar bulmamıza yardımcı olmasını istiyoruz.

Dikkat çeken sayılara çok yakından bakmamanın diğer nedeni, bu API demosunun genel amaçlı olması için yapılmış bir araç olmasıdır. Google, web araması için aynı şekilde herhangi bir algoritma kullanıyorsa, muhtemelen daha gelişmiş ve çok özel bir göreve ayarlanmıştır.

Yazım, Dilbilgisi ve Stil Araçları

İnsanlar yazım ve dilbilgisi hatalarını ele almakta oldukça iyidir, ancak makineler değildir. Oldukça değişmez olma eğilimindedirler.

Öyleyse bir arama motoru, yazım hataları, pasif ses ve belirsiz öncülerle doluysa metni düzgün bir şekilde nasıl analiz edebilir? Arama motorlarının hataları otomatik olarak düzeltmenin ve belirli bir yanlışlık derecesine izin vermenin yollarını geliştirdiğini düşünüyorum, ancak işi onlar için daha zor hale getirmemeliyiz.

Grammarly veya Hemmingway gibi bir düzeltme okuma yardımcısı aracı kullanmak istemenin nedenleri oldukça açıktır. Makineler, onları yanlış yazdığımız varlıkları tanımlamakta zorlanacaklar ve kullanım kurallarını ihlal edersek konuşmanın hangi kısmı olduklarını bilmeyecekler.

Stil de önemlidir. Gramer sık ​​sık pasif ses ve belirsiz öncüler kullanma konusunda beni uyarıyor. Tıpkı insanlar gibi, ben de belirsiz olursam, makinelerin varlık bağlamını ve çıkarımını belirleme konusunda bir sorunu olacaktır. Pasif sesi kullanmamalıyız, çünkü eylemi yapan tüzel kişiyi gizler. Belirsiz öncüler de zor, çünkü varlığı bir zamir belirsiz anlamına gelir.

Bu, Grammarly’deki her öneriyi izlememiz gerektiği anlamına gelmez. Açıklık ve stil arasında bir denge bulmalıyız. Ve bazen, araç sadece düz yanlıştır.

Zaten En İyi NLP Aracına sahipsiniz

Hiçbir içerik analizi veya NLP aracı sizin için harika içerik üretemez; yalnızca içeriği parlatma ve geliştirme konusunda zaman kazanmanın yollarından biridir.

Sonuçta, pazarlamacılar olarak içeriğimizin birisinin sorgusunu yanıtlayıp yanıtlamadığına karar vermek zorundayız ve bunu yapmak için gereken çabayı göstermemiz gerekiyor. Makine öğreniminde her zaman bir sonraki atılım olacak ve her zaman bize para kazanmak için kullanacağımız en iyi kelimeleri vaat edecek bir sonraki NLP aracı olacak. Büyülü düşünmeye veremeyiz. İçeriğimizin taleplerini karşılayıp karşılamadığını bilen tek kullanıcı, araçlar bunu yapmıyor.

CEVAP VER

Please enter your comment!
Please enter your name here