DZWON

Są tacy, którzy czytali tę wiadomość przed tobą.
Zapisz się, aby otrzymywać świeże artykuły.
E-mail
Nazwa
Nazwisko
Jak chcesz przeczytać „Dzwon”?
Bez spamu

- — Tematyka ochrona informacji EN częstotliwość użycia słów … Przewodnik tłumacza technicznego

Y; częstotliwości; I. 1. na Często (1 cyfra). Monitoruj częstotliwość powtarzania ruchów. Wymagana część sadzenia ziemniaków. Zwróć uwagę na tętno. 2. Liczba powtórzeń identycznych ruchów, oscylacje w jakim kierunku. jednostka czasu. Godziny obrotu koła. H... słownik encyklopedyczny

I Alkoholizm jest chorobą przewlekłą, charakteryzującą się połączeniem zaburzeń psychicznych i somatycznych wynikających z systematycznego nadużywania alkoholu. Najważniejsze przejawy A.x. mają zmienioną wytrzymałość na... ... Encyklopedia medyczna

SCHWYTAĆ- jedno ze specyficznych terminów używanych w rosyjskich zapisach haków. polifonia nieliniowa, charakteryzująca się rozwiniętą subwokalną strukturą polifoniczną i ostrym dysonansem pionu. Śpiewanie realizacja tego terminu w dzisiejszych czasach. czas nie był badany... Encyklopedia ortodoksyjna

Stylostatyczna metoda analizy tekstu- polega na wykorzystaniu narzędzi statystyki matematycznej z zakresu stylistyki do określenia typów funkcjonowania języka w mowie, wzorców funkcjonowania języka w różnych sferach komunikacji, typów tekstów, konkretnych funkcjonalności. style i...

Porcjowany snus smakowy, mini porcja Snus to rodzaj wyrobu tytoniowego. Jest to rozdrobniony zwilżony tytoń, który umieszcza się pomiędzy górną (rzadziej dolną) wargą a dziąsłem... Wikipedia

Styl naukowy– przedstawia naukowe. sfera komunikacji i aktywności mowy związana z wdrażaniem nauki jako formy świadomości społecznej; odzwierciedla myślenie teoretyczne, występujące w postaci konceptualnie logicznej, którą charakteryzuje obiektywizm i abstrakcja... Stylistyczny słownik encyklopedyczny języka rosyjskiego

- (w literaturze specjalistycznej także patronimiczna) część nazwiska rodowego, która jest nadawana dziecku przez imię ojca. Odmiany imion patronimicznych mogą łączyć ich nosicieli z bardziej odległymi przodkami, dziadkami, pradziadkami... ... Wikipedia

Powszechne użycie, zastosowanie, rozpowszechnienie, zastosowanie, zbywalność, ogólnie przyjęty Słownik rosyjskich synonimów. rzeczownik użytkowy, liczba synonimów: 10 ogólnie przyjętych (11) ... Słownik synonimów

Rozumowanie- - funkcjonalnie semantyczny typ mowy (patrz) - (FSTR), odpowiadający formie abstrakcyjnego myślenia - wnioskowanie, wykonywanie specjalnego zadania komunikacyjnego - nadanie mowie uzasadnionego charakteru (logicznie dojść do nowego wyroku lub ... ... Stylistyczny słownik encyklopedyczny języka rosyjskiego

Napisałem zabawny skrypt PHP. Przepuściłem przez niego wszystkie teksty w Spectatorze, żeby sprawdzić język. W sumie w tekstach zastosowano 39 110 różnych form wyrazów. Ile dokładnie różnych? słowa- dość trudne do ustalenia. Aby chociaż w jakiś sposób przybliżyć się do tej liczby, wziąłem tylko 5 pierwszych liter słowa i porównałem je. W rezultacie powstało 14 373 takich kombinacji. Nazywanie tego słownictwem „widza” byłoby nadużyciem.

Następnie wziąłem słowa i zbadałem je pod kątem częstotliwości powtarzania liter. Idealnie byłoby, gdybyś wziął jakiś słownik, aby uzupełnić obraz. Nie możesz pisać tekstów, potrzebujesz tylko unikalnych słów. W tekście niektóre słowa powtarzają się częściej niż inne. Otrzymano więc następujące wyniki:

o - 9,28%
a - 8,66%
mi - 8,10%
i - 7,45%
n - 6,35%
t - 6,30%
p - 5,53%
s - 5,45%
l - 4,32%
w - 4,19%
k - 3,47%
n - 3,35%
m - 3,29%
r - 2,90%
d - 2,56%
Ja - 2,22%
s - 2,11%
b - 1,90%
z - 1,81%
b - 1,51%
g - 1,41%
t - 1,31%
godz. - 1,27%
ty - 1,03%
x - 0,92%
f - 0,78%
w - 0,77%
c - 0,52%
sch - 0,49%
f - 0,40%
mi - 0,17%
ъ - 0,04%

Radzę tym, którzy udają się na „Pole Cudów”, aby zapamiętali tę tabelę. I nazwij słowa w tej kolejności. Na przykład wydawałoby się, że taka „znana” litera „b” jest używana rzadziej niż „rzadka” litera „s”. Musimy także pamiętać, że słowo ma więcej niż jedną samogłoskę. I że jeśli odgadłeś jedną samogłoskę, musisz zacząć podążać za spółgłoskami. Poza tym słowo jest odgadywane dokładnie na podstawie spółgłosek. Porównaj: „**a**i*e” i „sr*vn*t*”. W obu przypadkach słowo brzmi „porównaj”.

I jeszcze jedna uwaga. Jak nauczyłeś się angielskiego? Pamiętać? E długopis, e ołówek, e stół. To, co widzę, jest tym, o czym śpiewam. O co chodzi?.. Jak często w normalnym życiu wypowiadasz słowo „ołówek”? Jeśli zadaniem jest nauczenie mówienia tak szybko i skutecznie, jak to możliwe, musisz uczyć tego odpowiednio. Analizujemy język i podkreślamy najczęściej używane słowa. I zaczynamy się od nich uczyć. Aby mniej więcej mówić po angielsku, wystarczy zaledwie półtora tysiąca słów.

Kolejne rozpieszczanie: tworzenie słów z liter losowo, ale biorąc pod uwagę częstotliwość występowania, tak aby wyglądało to jak normalne słowa. W pierwszych dziesięciu „losowych” czteroliterowych słowach pojawił się „osioł”. W ciągu następnych pięćdziesięciu - słowa „pęd” i „NATO”. Ale, niestety, istnieje wiele dysonansowych kombinacji, takich jak „bltt” lub „nrro”.

Dlatego - kolejny krok. Podzieliłem wszystkie słowa na dwuliterowe kombinacje i zacząłem je łączyć losowo (ale biorąc pod uwagę częstotliwość powtórzeń). Stal w dużych ilościach spowoduje powstanie słów podobnych do „normalnego”. Na przykład: „koivdiot”, „voabma”, „apy”, „depoid”, „debyako”, „orfa”, „poesnavy”, „ozza”, „chenya”, „rhetoria”, „urdeed”, „utoichi” , „stikh”, „sapot”, „gravda”, „ababap”, „obarto”, „eleuet”, „lyarezy”, „myni”, „bromomer”, a nawet „todebyst”.

Gdzie złożyć wniosek... są możliwości. Napisz na przykład generator pięknych, markowych, zabawnych nazw. Do jogurtów. Na przykład „memoliso” lub „utororerto”. Lub - generator futurystycznych wierszy „Burliuk-php”: „opeldiy miaton, linoaz okmiaya… deesopen odesson”.

I jest jeszcze jedna opcja. Muszę spróbować...

Niektóre statystyki dotyczące użycia rosyjskich słów:

  • Średnia długość słowa wynosi 5,28 znaku.
  • Średnia długość zdania wynosi 10,38 słów.
  • 1000 najczęściej występujących lematów zajmuje 64,0708% tekstu.
  • Najczęściej spotykane lematy z 2000 roku zajmują 71,9521% tekstu.
  • 3000 najczęściej występujących lematów zajmuje 76,5104% tekstu.
  • 5000 najczęściej występujących lematów zajmuje 82,0604% tekstu.

Po notatce otrzymałem taki list:


Witaj Dmitrij!

Po przeanalizowaniu artykułu „Język zaprowadzi Cię do Kijowa” i części, w której opisujesz swój program, zrodził się pomysł.
Scenariusz, który napisałeś, wydaje mi się, że jest przeznaczony absolutnie nie do „Pola cudów” w większym stopniu, ale do czegoś innego.
Pierwszym najbardziej rozsądnym wykorzystaniem wyników Twojego skryptu jest określenie kolejności liter podczas programowania przycisków dla urządzeń mobilnych. Tak, tak – to właśnie w telefonach komórkowych jest to wszystko potrzebne.

Rozdawałem to falami ()

Poniżej przedstawiono rozkład według przycisków:
1. Wszystkie litery z pierwszej fali trafiają do 4 przycisków w pierwszym rzędzie
2. Wszystkie litery drugiej fali znajdują się także na pozostałych 4 przyciskach w tym samym pierwszym rzędzie
3. Wszystkie litery z trzeciej fali trafiają do pozostałych dwóch przycisków
4. Fale 4,5 i 6 trafiają do drugiego rzędu
5. Fale 7,8,9 trafiają do trzeciego rzędu, a fala dziewiąta przechodzi w całości (mimo pozornie dużej liczby liter) do trzeciego rzędu 9-tego przycisku, tak że 10-ty przycisk pozostaje dla wszelkiego rodzaju znaków interpunkcyjnych znaki (kropka, przecinek itp.).

Myślę, że wszystko jest jasne takie jakie jest, bez szczegółowych wyjaśnień. Czy mógłbyś jednak przetworzyć za pomocą swojego skryptu (łącznie ze znakami interpunkcyjnymi) następujące teksty:

A potem opublikować statystyki? Wydaje mi się? aby teksty w jak największym stopniu odzwierciedlały naszą współczesną mowę, a mimo to zarówno mówimy, jak i piszemy SMS-y.

Z góry bardzo dziękuję.

Istnieją zatem dwa sposoby analizy częstotliwości powtarzania liter. Metoda 1. Weź tekst, znajdź w nim unikalne (nie powtarzające się) formy wyrazów i przeanalizuj je. Metoda jest dobra do budowania statystyk w oparciu o słowa w języku rosyjskim, a nie o teksty. Metoda 2. Nie szukaj w tekście unikalnych słów, ale od razu przejdź do liczenia częstotliwości powtarzania się liter. Częstotliwość liter otrzymujemy w tekście rosyjskim, a nie w słowach rosyjskich. Aby tworzyć klawiatury i inne rzeczy, musisz zastosować dokładnie tę metodę: teksty są wpisywane na klawiaturze.

Klawiatury powinny uwzględniać nie tylko częstotliwość liter, ale także najbardziej trwałe słowa (formy słów). Nietrudno zgadnąć, które słowa są najczęściej używane: po pierwsze, są to: urzędnik części mowy, gdyż ich rolą jest służenie zawsze i wszędzie oraz zaimki, których rola jest nie mniej istotna: zastąpienie jakiejkolwiek rzeczy/osoby w mowie (to, on, ona). Cóż, główne czasowniki (być, powiedzieć). Na podstawie wyników analizy powyższych tekstów otrzymałem następujące „popularne” słowa: „i, nie, w, że, on, ja, na, z nią, jak, ale, jego, to, aby , a, cała, ona, była, więc, wtedy, powiedziała, dla ciebie, och, w, on, ja, tylko, dla mnie, tak, ty, od, był, kiedy, od, dla, wciąż, teraz , oni, powiedzieli, już, on, nie, był, ona, być, cóż, ani, jeśli, bardzo, niczym, tutaj, sama, więc dla siebie to, może, tamto, wcześniej, my, oni, czy, był, jest, czy, czy ona” i tak dalej.

Wracając do klawiatur, oczywiste jest, że na klawiaturze kombinacje liter „nie”, „co”, „on”, „on” i inne powinny znajdować się jak najbliżej siebie, a jeśli nie blisko, to w jakimś optymalnym sposób. Należy przeprowadzić badania, w jaki sposób dokładnie poruszają się palce po klawiaturze, znaleźć najwygodniejsze dla nich pozycje i umieścić w nich najczęściej używane litery, nie zapominając jednak o kombinacjach liter.

Problem, jak zawsze, jest jeden: nawet jeśli uda się stworzyć unikalną klawiaturę, co stanie się z milionami ludzi, którzy są już przyzwyczajeni do qwerty/ytsuken?

A co do urządzeń mobilnych... Chyba ma to sens. Przynajmniej litery „o”, „a”, „e” i „i” muszą znajdować się dokładnie na tym samym klawiszu. Znaki interpunkcyjne według częstotliwości użycia: , . -? ! " ; :) (

Pragnę ostrzec, że informacje przedstawione w tym artykule są nieco nieaktualne. Nie przepisałem go, żeby później móc porównać, jak standardy SEO zmieniają się w czasie. Aktualne informacje na ten temat znajdziesz w nowych materiałach:

Witam, drodzy czytelnicy bloga. Dzisiejszy artykuł ponownie zostanie poświęcony takiemu tematowi jak optymalizacja stron internetowych pod kątem wyszukiwarek (). Wcześniej poruszaliśmy już wiele kwestii związanych z takim pojęciem jak.

Dziś chcę kontynuować rozmowę na temat wewnętrznego SEO, wyjaśniając jednocześnie niektóre poruszone wcześniej kwestie, a także porozmawiać o tym, czego jeszcze nie omówiliśmy. Jeśli potrafisz pisać dobre, unikalne teksty, ale nie zwracasz wystarczającej uwagi na to, jak są postrzegane przez wyszukiwarki, to nie będą one mogły przedostać się na samą górę wyników wyszukiwania na zapytania związane z tematyką Twojego wspaniałego artykuły.

Co wpływa na trafność tekstu dla wyszukiwanego hasła?

I to jest bardzo smutne, bo w ten sposób nie wykorzystasz w pełni potencjału swojego projektu, który może okazać się bardzo imponujący. Musisz zrozumieć, że wyszukiwarki to w większości głupie i proste programy, które nie są w stanie wyjść poza swoje możliwości i spojrzeć na Twój projekt ludzkimi oczami.

Nie zobaczą zbyt wiele wszystkiego, co dobre i konieczne w Twoim projekcie (który przygotowałeś dla zwiedzających). Potrafią jedynie analizować tekst, biorąc pod uwagę wiele jego elementów, ale wciąż są bardzo dalekie od ludzkiej percepcji.

Dlatego będziemy musieli choć na chwilę wejść w skórę robotów wyszukujących i zrozumieć, na czym skupiają swoją uwagę, oceniając różne teksty pod kątem różnych zapytań (). I do tego musisz mieć pojęcie, w tym celu musisz przeczytać dostarczony artykuł.

Zwykle starają się używać słów kluczowych w tytule strony, w niektórych wewnętrznych nagłówkach, a także rozmieszczać je równomiernie i możliwie naturalnie w całym artykule. Tak, oczywiście, można też zastosować klawisze podświetlające w tekście, jednak nie należy zapominać o nadmiernej optymalizacji, która może skutkować.

Istotna jest także gęstość klawiszy w tekście, ale teraz nie jest to raczej czynnik pożądany, a wręcz przestroga – nie należy z tym przesadzać.

Określenie gęstości występowania słowa kluczowego w dokumencie jest dość proste. W rzeczywistości jest to częstotliwość jego użycia w tekście, którą określa się, dzieląc liczbę jego wystąpień w dokumencie przez długość dokumentu słownie. Wcześniej pozycja witryny w wynikach wyszukiwania bezpośrednio zależała od tego.

Ale prawdopodobnie rozumiesz, że nie będzie możliwe skompilowanie całego materiału tylko z kluczy, ponieważ będzie to nieczytelne i dzięki Bogu nie jest to konieczne. Dlaczego pytasz? Tak, ponieważ istnieje ograniczenie częstotliwości użycia słowa kluczowego w tekście, po przekroczeniu którego trafność dokumentu dla zapytania zawierającego to słowo kluczowe nie będzie już wzrastać.

Te. Wystarczy nam osiągnięcie określonej częstotliwości i w ten sposób zoptymalizujemy ją maksymalnie. Albo przesadzimy i wpadniemy pod filtr.

Pozostaje rozwiązać dwa pytania (a może trzy): jaka jest maksymalna gęstość występowania słów kluczowych, po której zwiększanie jej jest już niebezpieczne, a także dowiedzieć się.

Faktem jest, że słowa kluczowe wyróżnione znacznikami wyróżnienia i ujęte w znacznik TITLE mają większą wagę wyszukiwania niż podobne słowa kluczowe po prostu pojawiające się w tekście. Ale ostatnio webmasterzy zaczęli z tego korzystać i całkowicie spamowali ten czynnik, dlatego jego znaczenie spadło, a nawet może doprowadzić do zablokowania całej witryny z powodu nadużywania mocnych stron.

Ale klucze w TYTULE są nadal aktualne, lepiej ich tam nie powtarzać i nie próbować upchać za dużo w tytule jednej strony. Jeżeli słowa kluczowe znajdują się w TYTULE, to możemy znacznie zmniejszyć ich liczbę w artykule (a tym samym sprawić, że będzie on czytelny i bardziej odpowiedni dla ludzi, a nie dla wyszukiwarek), osiągając tę ​​samą trafność, ale bez ryzyka popadnięcia w filtr.

Myślę, że w tym pytaniu wszystko jest jasne - im więcej klawiszy ujętych jest w znaczniki akcentu i TITLE, tym większa szansa na utratę wszystkiego na raz. Ale jeśli w ogóle ich nie użyjesz, to też nic nie osiągniesz. Najważniejszym kryterium jest naturalność wprowadzenia słów kluczowych do tekstu. Jeśli istnieją, ale czytelnik się na nich nie potyka, to wszystko jest świetnie.

Teraz pozostaje ustalić, jaka częstotliwość użycia słowa kluczowego w dokumencie jest optymalna, co pozwala uczynić stronę tak trafną, jak to tylko możliwe i nie pociąga za sobą sankcji. Przypomnijmy sobie najpierw formułę używaną przez większość (prawdopodobnie wszystkie) wyszukiwarki do rankingu.

Jak określić dopuszczalną częstotliwość używania klucza

O modelu matematycznym rozmawialiśmy już w artykule wspomnianym tuż powyżej. Jego istotę dla tego konkretnego zapytania wyraża jedna uproszczona formuła: TF*IDF. Gdzie TF to bezpośrednia częstotliwość występowania tego zapytania w tekście dokumentu (częstotliwość występowania w nim słów).

IDF to odwrotna częstotliwość występowania (rzadkość) danego zapytania we wszystkich innych dokumentach internetowych indeksowanych przez daną wyszukiwarkę (w zbiorze).

Ta formuła pozwala określić zgodność (trafność) dokumentu z wyszukiwanym hasłem. Im wyższa wartość produktu TF*IDF, tym bardziej odpowiedni będzie dokument i tym wyższa będzie jego pozycja w rankingu, przy wszystkich innych czynnikach niezmiennych.

Te. okazuje się, że waga dokumentu dla danego zapytania (jego zgodność) będzie tym większa, im częściej w tekście użyte zostaną klucze z tego zapytania i im rzadziej te klucze odnajdą się w innych dokumentach internetowych.

Jest oczywiste, że nie możemy wpłynąć na IDF, chyba że wybierzemy inne żądanie, pod kątem którego będziemy optymalizować. Ale możemy i będziemy wpływać na TF, ponieważ chcemy przejąć naszą część (i to nie małą) ruchu z wyników wyszukiwania Yandex i Google w odpowiedzi na potrzebne nam pytania użytkowników.

Ale faktem jest, że algorytmy wyszukiwania obliczają wartość TF za pomocą dość przebiegłej formuły, która uwzględnia wzrost częstotliwości użycia słowa kluczowego w tekście tylko do pewnego limitu, po którym wzrost TF praktycznie się zatrzymuje, pomimo fakt, że zwiększasz częstotliwość. Jest to swego rodzaju filtr antyspamowy.

Stosunkowo dawno temu (do około 2005 roku) wartość TF obliczano za pomocą dość prostego wzoru i faktycznie była ona równa gęstości występowania słowa kluczowego. Wyniki obliczania trafności za pomocą tego wzoru nie do końca spodobały się wyszukiwarkom, ponieważ uległy spamerom.

Potem formuła TF stała się bardziej skomplikowana, pojawiło się takie pojęcie jak mdłości strony, które zaczęło zależeć nie tylko od częstotliwości występowania, ale także od częstotliwości użycia innych słów w tym samym tekście. A optymalną wartość TF można by osiągnąć, gdyby klucz okazał się najczęściej używanym słowem.

Możliwe było także zwiększenie wartości TF poprzez zwiększenie rozmiaru tekstu przy zachowaniu procentu występowania. Im większy ręcznik z artykułem i tym samym procentem kluczy, tym wyższa będzie pozycja dokumentu.

Teraz formuła TF stała się jeszcze bardziej skomplikowana, ale jednocześnie nie musimy już doprowadzać gęstości do wartości, gdy tekst stanie się nieczytelny i wyszukiwarki narzucą zablokować nasz projekt ze względu na spam. Nie ma też już potrzeby pisania nieproporcjonalnie długich arkuszy.

Przy zachowaniu tej samej idealnej gęstości (wyznaczymy ją tuż poniżej z odpowiedniego wykresu), zwiększenie rozmiaru artykułu słownego poprawi jego pozycję w wynikach wyszukiwania tylko do określonej długości. Gdy już uzyskasz idealną długość, dalsze zwiększanie jej nie będzie miało wpływu na trafność (a dokładniej będzie, ale bardzo, bardzo mało).

Wszystko to można wyraźnie zobaczyć, jeśli zbudujesz wykres w oparciu o ten podstępny TF (częstotliwość bezpośredniego występowania). Jeżeli na jednej skali tego wykresu znajduje się TF, a na drugiej procent częstotliwości występowania słowa kluczowego w tekście, to w efekcie otrzymamy tzw. hiperbolę:

Wykres jest oczywiście przybliżony, bo niewiele osób zna prawdziwą formułę TF, z której korzysta Yandex czy Google. Ale jakościowo można to określić optymalny zasięg, w którym powinna znajdować się częstotliwość. Stanowi to około 2-3 procent całkowitej liczby słów.

Jeśli weźmiesz pod uwagę, że część klawiszy umieścisz także w znacznikach akcentujących i nagłówku TYTUŁ, to będzie to granica, po przekroczeniu której dalsze zwiększanie zagęszczenia może być obarczone zakazem. Nie opłaca się już nasycać i zniekształcać tekstu dużą liczbą słów kluczowych, bo będzie więcej minusów niż plusów.

Jaka długość tekstu będzie wystarczająca do promocji?

Opierając się na tym samym założonym TF, można słownie wykreślić jego wartość w funkcji długości. W takim przypadku częstotliwość słów kluczowych można przyjąć stałą dla dowolnej długości i równą np. dowolnej wartości z optymalnego zakresu (od 2 do 3 procent).

Co ciekawe, otrzymamy wykres o dokładnie takim samym kształcie jak omawiany powyżej, jedynie długość tekstu w tysiącach słów zostanie dostosowana wzdłuż osi x. I na tej podstawie będzie można wyciągnąć wnioski optymalny zakres długości, przy którym osiągnięto już prawie maksymalną wartość TF.

W rezultacie okazuje się, że będzie się on mieścić w przedziale od 1000 do 2000 słów. Przy dalszym wzroście trafność praktycznie nie wzrośnie, a przy krótszej długości spadnie dość gwałtownie.

To. Możemy stwierdzić, że aby Twoje artykuły zajmowały wysokie pozycje w wynikach wyszukiwania, musisz używać w tekście słów kluczowych z częstotliwością co najmniej 2-3%. To pierwszy i główny wniosek, jaki wyciągnęliśmy. Cóż, druga sprawa jest taka, że ​​teraz wcale nie trzeba pisać bardzo obszernych artykułów, aby dostać się na sam szczyt.

Wystarczy przekroczyć próg 1000 - 2000 słów i uwzględnić w nim 2-3% słów kluczowych. To wszystko - to wszystko przepis na idealny tekst, który będzie w stanie powalczyć o miejsce w czołówce w przypadku zapytań o niskiej częstotliwości, nawet bez stosowania zewnętrznej optymalizacji (zakup linków do tego artykułu z kotwicami zawierającymi klucze). Chociaż poszperaj trochę Miralinkse , GGL, Rotapost czy GetGoodLink, możesz, bo to pomoże Twojemu projektowi.

Jeszcze raz przypomnę, że możesz sprawdzić długość napisywanego przez Ciebie tekstu, a także częstotliwość użycia w nim określonych słów kluczowych, korzystając ze specjalistycznych programów lub korzystając z serwisów internetowych specjalizujących się w ich analizie. Jedną z takich usług jest ISTIO, o pracy, z którą rozmawiałem.

Wszystko, co powiedziałem powyżej, nie jest w stu procentach wiarygodne, ale bardzo podobne do prawdy. W każdym razie moje osobiste doświadczenie potwierdza tę teorię. Ale algorytmy Yandex i Google ciągle ulegają zmianom i niewiele osób wie, jak będzie jutro, z wyjątkiem tych, którzy są blisko ich rozwoju lub programistów.

Powodzenia! Do zobaczenia wkrótce na stronach bloga

Możesz być zainteresowany

Optymalizacja wewnętrzna - dobór słów kluczowych, sprawdzenie nudności, optymalny tytuł, powielanie treści i linkowanie pod LF
Słowa kluczowe w tekście i nagłówkach
Jak słowa kluczowe wpływają na promocję serwisu w wyszukiwarkach
Usługi online dla webmasterów - wszystko, czego potrzebujesz do pisania artykułów, optymalizacji wyszukiwarek i analizowania ich powodzenia
Metody optymalizacji treści i uwzględnienia tematyki serwisu podczas promocji linków w celu minimalizacji kosztów
Yandex Wordstat i rdzeń semantyczny - wybór słów kluczowych dla witryny internetowej za pomocą statystyk z serwisu internetowego Wordstat.Yandex.ru
Anchory – co to jest i jakie znaczenie mają w promocji serwisu?
Jakie czynniki optymalizacji wyszukiwarek wpływają na promocję witryny i w jakim stopniu?
Sama promocja, promocja i optymalizacja strony
Uwzględnienie morfologii języka i innych problemów rozwiązywanych przez wyszukiwarki, a także różnicy między zapytaniami o wysokiej, średniej i niskiej częstotliwości
Zaufanie witryny – czym jest, jak je mierzyć w XTools, co na nie wpływa i jak zwiększyć autorytet swojej witryny

Częstotliwość użycia

rzeczownik, liczba synonimów: 1

stosowanie (10)


  • - Słownictwo, którego użycie jest z pewnych powodów ograniczone. powodów pozajęzykowych. Do Lou obejmują: dialektyzm, terminy i profesjonalizm, żargon, słowa i wyrażenia potoczne, wulgaryzmy...

    Słownik terminów socjolingwistycznych

  • Językoznawstwo ogólne. Socjolingwistyka: słownik-podręcznik

  • - tłumaczenie niemieckiego terminu Gebrauchstypen, wprowadzonego przez Delbrücka dla określenia ustalonych zastosowań form gramatycznych. Do T. w górę. obejmują na przykład różne rodzaje użycia składni...

    Słownik encyklopedyczny Brockhausa i Eufrona

  • - Słownictwo, którego użycie jest ograniczone ze względów pozajęzykowych: 1) dialektyzm ograniczony terytorialnie; 2) terminy używane w stylu naukowym...
  • Słownik terminów językowych T.V. Źrebię

  • Słownik terminów językowych T.V. Źrebię

  • - Zastosowania zabraniające stosowania różnic między jednym obiektem a drugim: Żywe organizmy nie mogą istnieć bez...
  • - Zastosowania, które korelują z konkretnymi przedstawicielami danej klasy obiektów: Muszę się z tą osobą spotkać...

    Terminy i pojęcia z zakresu morfologii ogólnej: Słownik-podręcznik

  • - 1) Opcje przewidziane przez zasady formatowania zdań złożonych niespójnych: przy wyjaśnianiu lub motywowaniu zamiast dwukropka można użyć myślnika: Oddzielenie jest iluzoryczne - wkrótce będziemy razem...

    Składnia: Słownik

  • - przysłówek, liczba synonimów: 1 ukryty...

    Słownik synonimów

  • - przym., liczba synonimów: 10 opublikowanych, przestarzałych, niespełniających współczesnych wymogów, przestarzałych, przestarzałych, odchodzących do królestwa legend...

    Słownik synonimów

  • - Cm....

    Słownik synonimów

  • - przym., liczba synonimów: 19 anachroniczny archaiczny archaiczny wyczerpany nakład przestarzały nieaktualny zniszczony przestarzały przestarzały nieaktualny wycofany do regionu...

    Słownik synonimów

  • - przym., liczba synonimów: 2 nienadających się do użycia rzadko...

    Słownik synonimów

  • - przym., liczba synonimów: 3 pozostawione nieużywane odłożone odłożone pod przykryciem...

    Słownik synonimów

  • - 1) Opcje przewidziane przez zasady formatowania zdań złożonych niezwiązanych ze sobą: przy wyjaśnianiu lub motywowaniu zamiast dwukropka można użyć myślnika: Oddzielenie jest iluzoryczne - wkrótce będziemy razem 2) Z izolacją...

    Słownik terminów językowych T.V. Źrebię

„częstotliwość używania” w książkach

Częstotliwość karmienia

przez Harmara Hillery’ego

Częstotliwość karmienia

przez Harmara Hillery’ego

Częstotliwość karmienia Wymagana liczba karmień dziennie dla szczenięcia zależy od wielkości rasy. Większość szczeniąt rozwija się dobrze, gdy jest karmiona co trzy godziny w dzień i w nocy, ale jeśli urodziły się przedwcześnie lub ważyły ​​​​po urodzeniu mniej niż 85 g, prawdopodobnie tak się stanie.

Częstotliwość karmienia

Z książki Hodowla psów przez Harmara Hillery’ego

Częstotliwość karmienia Wymagana liczba karmień dziennie dla szczenięcia zależy od wielkości rasy. Większość szczeniąt rozwija się dobrze, gdy jest karmiona co trzy godziny w dzień i w nocy, ale jeśli urodziły się przedwcześnie lub ważyły ​​​​po urodzeniu mniej niż 85 g, prawdopodobnie tak się stanie.

Częstotliwość karmienia

Z książki Psy i ich hodowla [Hodowla psów] przez Harmara Hillery’ego

Częstotliwość karmienia Wymagana liczba karmień dziennie dla szczenięcia zależy od wielkości rasy. Większość szczeniąt rozwija się dobrze, gdy jest karmiona co trzy godziny w dzień i w nocy, ale jeśli urodziły się przedwcześnie lub ważyły ​​​​po urodzeniu mniej niż 85 g, prawdopodobnie tak się stanie.

Częstotliwość

Z książki Nieruchomości. Jak to reklamować autor Nazaikin Aleksander

14.2.3. Częstotliwość interakcji

przez Dimitri Nicolę

14.2.3. Częstotliwość interakcji Im częściej ta sama grupa konkurentów wchodzi w interakcję, tym trwalsza staje się zmowa, ponieważ naruszenia są karane szybciej. Jeśli na przykład firmy konkurują rzadziej, ich zdolność do utrzymywania zmowy jest niższa.

15.4.6. Częstotliwość aukcji

Z książki Przewodnik zakupowy przez Dimitri Nicolę

15.4.6. Częstotliwość aukcji Jak omówiono powyżej, niektóre pierścienie aukcyjne mogą przekazywać środki między sobą po aukcji, w sprawie której zmówiły się, lub mogą jedynie okazjonalnie prowadzić rejestr należnych kwot.

8. Częstotliwość użycia słów funkcyjnych okazuje się niezmiennikiem autora

Z książki Książka 2. Zmieniamy daty - wszystko się zmienia. [Nowa chronologia Grecji i Biblii. Matematyka ujawnia oszustwa średniowiecznych chronologów] autor Fomenko Anatolij Timofiejewicz

8. Częstotliwość użycia słów funkcyjnych okazuje się niezmiennikiem autorskim. Godnym uwagi wyjątkiem jest nasz parametr 3 – częstotliwość używania wszystkich słów funkcyjnych – PRZYIMKOWNIKÓW, SPÓJNIKÓW I CZĄSTEK. Pokazano ewolucję tego parametru w zależności od wzrostu liczebności próby

Częstotliwość

Z książki Wielkiej Encyklopedii Radzieckiej (CA) autora TSB

Częstotliwość

autor Nazaikin Aleksander

Częstotliwość

Z książki Planowanie mediów na 100 autor Nazaikin Aleksander

Częstotliwość Kanały telewizyjne nadawane są na częstotliwościach metrowych i decymetrowych. Zakresy liczników jako pierwsze zostały opanowane w telewizji. XX wieku kanały decymetryczne zaczęły aktywnie działać w Moskwie. Wcześniej częstotliwość miała duże znaczenie, ponieważ do odbioru różnych kanałów

Częstotliwość

Z książki Planowanie mediów na 100 autor Nazaikin Aleksander

Częstotliwość Częstotliwość transmisji sygnału decyduje o jego jakości. W większym stopniu realizowana jest w pasmach VHF (modulacja częstotliwości FM). Słuchacze wolą dobry dźwięk, dlatego stacje VHF mają wysokie oceny oglądalności i są preferowane

3.2. Częstotliwość

autor Iwanow Dmitrij Olegowicz

3.2. Częstotliwość Omawiając znaczenie jakiejkolwiek patologii w medycynie, naszym zdaniem ważne jest, aby mówić nie tylko o etiologii, patogenezie, obrazie klinicznym i ciężkości urazów oraz powikłań, które wystąpiły lub mogą wystąpić, ale także o rozpowszechnienie tej patologii. DO

4.2. Częstotliwość

Z książki Zaburzenia równowagi cieplnej u noworodków autor Iwanow Dmitrij Olegowicz

4.2. Częstotliwość Hipertermia u noworodków występuje prawdopodobnie znacznie rzadziej niż hipotermia. Prawdopodobnie wynika to z faktu, że w literaturze naukowej istnieje niezwykle niewiele badań dotyczących hipertermii u niemowląt. Maayan-Metzger A. i in. (2003) przeanalizowali 42 313 opisów przypadków

Częstotliwość

Z książki Zaburzenia metabolizmu glukozy u noworodków autor Iwanow Dmitrij Olegowicz

Częstotliwość Corblant M., który zdefiniował hipoglikemię jako stężenie glukozy we krwi mniejsze niż 30 mg% (1,67 mmol/l) w ciągu pierwszych 72 godzin życia, stwierdził ją u 4,4% wszystkich żywych urodzeń. W 1971 r. Lubchenco L. O. i Bard N., stosując kryteria Corblanta M., stwierdziła, że ​​hipoglikemia u noworodków jest większa

Krótkie przedstawienie problemu

Istnieje zestaw plików z tekstami w języku rosyjskim, od beletrystyki różnych gatunków po reportaże. Konieczne jest gromadzenie statystyk dotyczących użycia przyimków z innymi częściami mowy.

Ważne punkty w zadaniu

1. Wśród przyimków są nie tylko Na I Do, ale na przykład stabilne kombinacje słów używanych jako przyimki w porównaniu do Lub pomimo. Dlatego nie można po prostu dzielić tekstu spacjami.

2. Tekstów jest dużo, kilka GB, więc przetworzenie powinno przebiegać dość szybko, przynajmniej w ciągu kilku godzin.

Zarys rozwiązania i wyniki

Biorąc pod uwagę dotychczasowe doświadczenia w rozwiązywaniu problemów z przetwarzaniem tekstu, zdecydowano się zastosować zmodyfikowaną „unix-way”, czyli podzielić przetwarzanie na kilka etapów, tak aby na każdym etapie efektem był zwykły tekst. W przeciwieństwie do czystego uniksowego sposobu, zamiast przesyłać surowce tekstowe kanałami, zapiszemy wszystko jako pliki dyskowe. Na szczęście koszt gigabajta na dysku twardym jest teraz niewielki.

Każdy etap jest realizowany jako osobne, małe i proste narzędzie, które odczytuje pliki tekstowe i zapisuje produkty swojego krzemowego życia.

Dodatkową zaletą tego podejścia, oprócz prostoty narzędzi, jest przyrostowy charakter rozwiązania - możesz zdebugować pierwszy etap, przepuścić przez niego wszystkie gigabajty tekstu, a następnie rozpocząć debugowanie drugiego etapu, bez straty czasu powtórzenie pierwszego.

Dzielenie tekstu na słowa

Ponieważ teksty źródłowe do obróbki zapisane są już w postaci plików płaskich w kodowaniu utf-8, pomijamy etap zerowy – parsowanie dokumentów, wydobywanie z nich treści tekstowych i zapisywanie ich w postaci prostych plików tekstowych, przechodząc od razu do zadania tokenizacji.

Wszystko byłoby proste i nudne, gdyby nie prosty fakt, że niektóre przyimki w języku rosyjskim składają się z kilku „kresek” oddzielonych spacją, a czasem przecinkiem. Aby uniknąć rozdrobnienia takich pełnych przyimków, najpierw zastosowałem funkcję tokenizacji w API słownika. Układ w C# okazał się prosty i nieskomplikowany, dosłownie sto linii. Oto źródło. Jeśli pominiemy część wprowadzającą, ładowanie słownika i część końcową z jego usunięciem, to wszystko sprowadza się do kilkudziesięciu linijek.

Wszystko to skutecznie szlifuje pliki, ale testy wykazały znaczną wadę - bardzo niską prędkość. Na platformie x64 okazało się, że jest to około 0,5 MB na minutę. Oczywiście tokenizer uwzględnia wszelkiego rodzaju specjalne przypadki, takie jak „ JAK. Puszkin", ale do rozwiązania pierwotnego problemu taka precyzja jest niepotrzebna.

Jako wskazówkę dotyczącą możliwej szybkości można podać narzędzie do statystycznego przetwarzania plików o nazwie Empirika. Przetwarza częstotliwościowo 22 GB tekstów w około 2 godziny. Istnieje również szybsze rozwiązanie problemu przyimków wielowyrazowych, dlatego dodałem nowy skrypt włączany opcją -tokenize w wierszu poleceń. Wyniki biegu okazały się wynosić około 500 sekund na 900 MB, czyli około 1,6 MB na sekundę.

Wynikiem pracy z tymi 900 MB tekstu jest plik o mniej więcej tej samej wielkości, czyli 900 MB. Każde słowo jest przechowywane w osobnej linii.

Częstotliwość użycia przyimków

Ponieważ nie chciałem wpisywać listy przyimków do tekstu programu, ponownie dołączyłem do projektu C# słownik gramatyczny, korzystając z funkcji sol_ListEntries dostałem pełną listę przyimków, około 140 sztuk, i wtedy wszystko jest banalne. Tekst programu w języku C#. Zbiera tylko pary przyimek+słowo, ale rozwinięcie go nie będzie stanowić problemu.

Przetwarzanie pliku tekstowego o wielkości 1 GB ze słowami zajmuje tylko kilka minut; efektem jest tabela częstotliwości, którą przesyłamy na dysk, ponownie w postaci pliku tekstowego. Przyimek, drugie słowo i liczba zastosowań są w nim oddzielone znakiem tabulacji:

O ZŁAMANYM 3
O PUNKCIE 1
O FORMULARZU 1
O NORMIE 1
O GŁODZIE 1
W PRAWIE 9
Z TARASU 1
POMIMO TAŚMY 1
NAD SZUFLADĄ 14

W sumie z oryginalnych 900 MB tekstu uzyskano około 600 tysięcy par.

Analizowanie i przeglądanie wyników

Wygodnie jest analizować tabelę z wynikami w programie Excel lub Access. Ze względu na moje przyzwyczajenie do języka SQL załadowałem dane do programu Access.

Pierwszą rzeczą, którą możesz zrobić, to posortować wyniki w kolejności malejącej częstotliwości, aby zobaczyć najpopularniejsze pary. Początkowa objętość przetworzonego tekstu jest zbyt mała, dlatego próbka jest mało reprezentatywna i może różnić się od wyników końcowych, ale oto pierwsza dziesiątka:

MAMY 29193
V TOM 26070
MAM 25843
O TOMIE 24410
MA 22768
W TYM 22502
W OBSZARZE 20749
W 20545
O TYM 18761
Z NIM 18411

Teraz możesz zbudować wykres tak, aby częstotliwości znajdowały się wzdłuż osi OY, a wzory były ułożone wzdłuż osi OX w kolejności malejącej. To da całkowicie oczekiwany rozkład z długim ogonem:

Dlaczego te statystyki są potrzebne?

Oprócz tego, że można wykorzystać dwa narzędzia C# do zademonstrowania pracy z proceduralnym API, istnieje jeszcze jeden ważny cel - dostarczenie surowców statystycznych dla algorytmu tłumacza i rekonstrukcji tekstu. Oprócz par słów potrzebne będą także trygramy, w tym celu konieczne będzie lekkie rozwinięcie drugiego ze wspomnianych narzędzi.

DZWON

Są tacy, którzy czytali tę wiadomość przed tobą.
Zapisz się, aby otrzymywać świeże artykuły.
E-mail
Nazwa
Nazwisko
Jak chcesz przeczytać „Dzwon”?
Bez spamu