Algorytm Google SMITH – co znowu szykują w Mountain View?
SMITH to póki co mało znany algorytm Google. Pozostaje w cieniu i tak naprawdę nie wiadomo, czy w ogóle jest w użyciu. Warto się jednak przyjrzeć informacjom na jego temat, ponieważ są dość ciekawe – i mówią trochę o kierunku, w którym chce się rozwijać korporacja.
Google SMITH czai się za rogiem – czyli o co właściwie chodzi?
Google od dłuższego czasu stara się jak najlepiej rozumieć indeksowane treści. Robi to głównie poprzez analizę kontekstu, w jakim znajdują się poszczególne słowa, czemu służy chociażby algorytm BERT, o którym pisał jakiś czas temu Paweł. Problemem BERT-a jest jednak długość badanych fragmentów treści. Owszem, wyszukiwarka jest w stanie z jego pomocą przewidywać „najbardziej dopasowane” słowa, czy nawet kolejne zdania. Problem pojawia się jednak w momencie oceniania dłuższych bloków treści.
Algorytm Google SMITH – co to jest?
SMITH (akronim od Siamese Multi-depth Transformer-based Hierarchical) to nowy model analizy treści, którego celem jest zrozumienie całego badanego dokumentu – a przynajmniej dużej jego części. O ile BERT próbował rozumieć treści na poziomie zdań, algorytm SMITH idzie krok dalej, próbując przewidzieć kolejne akapity i na tej podstawie ocenia sens tekstu.
SMITH vs BERT – jak duża jest różnica?
Porównując te dwa algorytmy, już na początku warto wspomnieć, że póki co SMITH nie jest rozważany jako „zamiennik” BERT-a, a ma go raczej uzupełniać.
Wracając jednak do pytania o skalę różnic – głównym problemem w próbach analizowania dłuższych treści jest ogromne zużycie pamięci TPU/GPU. Model opracowany w ramach SMITH-a pozwala jednak zminimalizować ten problem, a jednocześnie zwiększa maksymalną długość tekstu wejściowego z 512 do 2048 znaków. Z jednej strony to nadal za mało na ocenę bardzo długich artykułów. Z drugiej – ocena kontekstu staje się dużo łatwiejsza i bardziej kompleksowa.
Czy Google SMITH jest w użyciu?
Na wzmianki na temat algorytmu SMITH można było trafić już w zeszłym roku, jednak jak do tej pory Google nie ogłaszało wdrożenia tego mechanizmu. Wiadomo natomiast, iż póki co badacze Google oceniają nowy algorytm jako obiecujący i przewyższający możliwości BERT-a, jednak nadal wymagający dalszych prac.
W praktyce oznacza to, że choć można tylko zgadywać, czy na dzień dzisiejszy SMITH jest w choćby częściowym użyciu (a jeśli tak, to w jakich językach i w jakiej skali), to z dużym prawdopodobieństwem można się go spodziewać w przyszłości. Jego lub podobnego rozwiązania.
Dlaczego te informacje są istotne?
Rozumienie fragmentu tekstu w kontekście nie tylko sąsiadujących z nim słów, ale i całego dokumentu (a przynajmniej dłuższej jego części, aniżeli w przypadku BERT-a) ma całkiem sporo konsekwencji dla SEO.
Siłą rzeczy analiza większych fragmentów może też wpłynąć na pracę copywriterów, wymuszając na nich (lub na osobach, które będą teksty od copywriterów modyfikować pod kątem Google) korzystanie z dodatkowych narzędzi, sugerujących wykorzystanie i rozmieszczenie dodatkowych fraz.
Równolegle zapewne zacznie rosnąć znaczenie wykorzystania sztucznej inteligencji do generowania treści (ciekawym przykładem jest GPT-3, o którym niedawno pisał Tomek). Nie tylko ze względu na szybkość działania, a przy odpowiednio dużej skali także na oszczędność finansową. Sztucznej inteligencji, jeśli tylko będzie w stanie generować naturalnie brzmiące i sensowne treści w danym języku, łatwiej będzie dopasować tekst do „ideału” wynikającego z matematycznych wzorców.
Sytuacja jest zresztą dość ciekawa, bo Google pracuje nad rozumieniem treści nie tylko tekstowej – jakiś czas temu wspominałem o tym opisując jak sztuczna inteligencja coraz sprawniej radzi sobie z takimi zadaniami, jak rozpoznawanie obrazu (niektóre firmy pracują w tym zakresie nie tylko ze statycznymi grafikami, lecz również z materiałem video). I jak się okazuje, w tym zakresie również trwa wyścig zbrojeń, ponieważ równolegle rozwijają się algorytmy do generowania obrazów.
Osiągaj wysokie pozycje w wyszukiwarce, które przełożą się na większą sprzedaż.
Osobną kwestią jest jednak pytanie, czy treści i grafiki najlepiej dopasowane do wyszukiwarki (a więc wykorzystujące pewne statystyczne zależności) nadal będą najbardziej atrakcyjne dla człowieka. Być może właśnie w szukaniu kompromisów pomiędzy „wyszukiwarkowym ideałem” a wrażeniem oryginalności znajdzie się nisza dla przyszłych copywriterów i grafików.
Polecamy również: