Ինդեքսավորումը որոնման ռոբոտի կողմից ինտերնետային ռեսուրսի վրա տեղակայված ֆայլերի սկանավորման գործընթաց է: Այս ընթացակարգն իրականացվում է այնպես, որ կայքը հասանելի լինի որոնիչի տարբեր հարցումների որոնման արդյունքներում: Այսօրվա ամենամեծ որոնիչներից է Yandex- ը, որն իր սկանավորումն իրականացնում է յուրովի:
Հրահանգներ
Քայլ 1
Ինտերնետային կայքի ինդեքսավորումն իրականացվում է հատուկ ավտոմատ ծրագրերի `որոնման ռոբոտների միջոցով, որոնք ավտոմատ կերպով հետևում են Համաշխարհային ցանցում նոր կայքերի տեսքին` անընդհատ սկանավորելով ինտերնետում տեղակայված ինտերնետային էջերը, ֆայլերը և դրանց հղումները յուրաքանչյուր ռեսուրսի վրա:
Քայլ 2
Սկանավորելու համար ռոբոտը գնում է գրացուցակ, որտեղ ռեսուրսը տեղակայված է որոշակի սերվերի վրա: Նոր կայք ընտրելիս ռոբոտը առաջնորդվում է դրա մատչելիությամբ: Օրինակ ՝ կարծիք կա, որ Yandex– ը նախ սկանավորում է ռուսալեզու տիրույթում և ռուսերենում ստեղծված կայքերը ՝ ru, rf, su կամ ua, և հետո միայն տեղափոխվում այլ շրջաններ:
Քայլ 3
Ռոբոտը շարժվում է դեպի կայք և սկանավորում դրա կառուցվածքը ՝ նախ փնտրելով հետագա որոնումը նշող ֆայլեր: Օրինակ, կայքը սկանավորվում է Sitemap.xml կամ robots.txt- ի համար: Այս ֆայլերը կարող են օգտագործվել սկանավորման ժամանակ որոնման ռոբոտի վարքագիծը սահմանելու համար: Օգտագործելով կայքի քարտեզը (sitemap.xml), ռոբոտը ավելի ճշգրիտ պատկերացում է ստանում ռեսուրսի կառուցվածքի մասին: Վեբ վարպետը օգտագործում է robots.txt ՝ ֆայլեր սահմանելու համար, որոնք նա չի ցանկանա ցուցադրվել որոնման արդյունքներում: Օրինակ, դա կարող է լինել անձնական տեղեկատվություն կամ այլ անցանկալի տվյալներ:
Քայլ 4
Այս երկու փաստաթղթերը սկանավորելով և անհրաժեշտ հրահանգներ ստանալով ՝ ռոբոտը սկսում է վերլուծել HTML կոդը և մշակել ստացված պիտակները: Լռելյայնորեն, robots.txt ֆայլի բացակայության դեպքում որոնիչը սկսում է մշակել սերվերում պահված բոլոր փաստաթղթերը:
Քայլ 5
Սեղմելով փաստաթղթերի հղումները ՝ ռոբոտը նաև տեղեկություններ է ստանում այս ռեսուրսից հետո սկանավորման համար հերթագրված այլ կայքերի մասին: Կայքում սկանավորված ֆայլերը պահվում են որպես տեքստի պատճեն և կառուցվածք Yandex տվյալների կենտրոնների սերվերներում:
Քայլ 6
Վերստուգման անհրաժեշտությունը նույնպես ինքնաբերաբար որոշվում է ռոբոտների կողմից: Scanրագիրը համեմատում է առկա սկանավորման արդյունքը կայքի նորացված տարբերակի հետ, երբ այն կրկին անցնում է ինդեքսավորմամբ: Եթե ծրագրի կողմից ստացված տվյալները տարբերվում են, կայքի պատճենը թարմացվում է նաև Yandex սերվերում: