Zoekmachine ranking en websitetechniek

 

Vragen beantwoord ik tegen betaling van een uurtarief van € 60,- met een minimum van 1 uur

 

I N H O U D S O P G A V E

 

Zoekmachine ranking en websitetechniek

1 Gehele website

1.1 Robots.txt

1.2 Sitemap.xml

1.3 De If-Modified-Since HTTP header

1.4 error404 pagina

1.5 Content Management Systeem

2 Individuele pagina's

2.1 Javascript en CSS

2.2 HTML: Do's

2.3 HTML: Don'ts

2.4 Test met een tekst browser

3 Homepagina

 


•    Gehele website

•  Robots.txt

Maak gebruik van het bestand robots.txt op uw web server. Dit bestand vertelt de webcrawlers welke directories wel of niet bezocht moeten worden. Zorg ervoor dat robots.txt actueel is zodat de webcrawler niet per ongeluk geblokkeerd wordt.

 

Kijk op http://www.robotstxt.org/faq.html om uit te vinden hoe robots/webcrawlers geïnstrueerd kunnen worden.

 

Voorbeeld van mijn robots.txt:

 

# site locked

# Please, we do NOT allow nonauthorized robots any longer.

# These are useless agents only eating your bandwidth and stealing e-mail adresses

 

User-agent: *

Disallow: /database/

Disallow: /include/

Disallow: /reserve/

 

User-agent: EmailCollector

Disallow: /

 

User-agent: e-collector

Disallow: /

 

Sitemap: http://www.walmar.nl/sitemap.xml

 

# = commentaar
* = elke crawler

Of die van www.cnn.com

Sitemap: http://www.cnn.com/sitemap_index.xml

Sitemap: http://www.cnn.com/sitemap_news.xml

Sitemap: http://www.cnn.com/video_sitemap_index.xml

User-agent: *

Disallow: /.element

Disallow: /editionssi

Disallow: /ads

Disallow: /aol

Disallow: /audio

Disallow: /audioselect

Disallow: /beta

Disallow: /browsers

Disallow: /cl

Disallow: /cnews

Disallow: /cnn_adspaces

Disallow: /cnnbeta

Disallow: /cnnintl_adspaces

Disallow: /development

Disallow: /NewsPass

Disallow: /NOKIA

Disallow: /partners

Disallow: /pipeline

Disallow: /pointroll

Disallow: /POLLSERVER

Disallow: /pr

Disallow: /PV

Disallow: /quickcast

Disallow: /Quickcast

Disallow: /QUICKNEWS

Disallow: /test

Disallow: /virtual

Disallow: /WEB-INF

 

Via diverse sites is te testen of de inhoud van het bestand correct is opgesteld. Kijk bijvoorbeeld op http://tool.motoricerca.info/robots-checker.phtml .

 

Veel informatie is ook te vinden op http://www.robotstxt.org/

O.a. lijst Robots: http://www.robotstxt.org/db.html

 

•  Sitemap.xml

Een sitemap voor uw bezoekers bestaat uit een pagina waarop alle, voor de bezoeker, interessante links op staan. Zodoende kunnen bezoekers via één pagina op alle voor hen interessante pagina's komen. Een sitemap voor bezoekers is dus te vergelijken met een inhoudsopgave van een boek.

Een sitemap voor de zoekmachines is echter heel wat anders. Deze pagina, die niet zichtbaar is voor uw bezoekers, bevat meestal dezelfde links als de sitemap voor uw bezoekers. Het doel van deze sitemap is ervoor zorgen dat alle pagina's binnen uw website ook door de zoekmachines worden gevonden (en worden geïndexeerd!).

Een sitemap is niet van invloed op uw positie binnen de zoekresultaten. Het zorgt er echter wel voor dat er meer pagina's van uw website door de webcrawlers worden geïndexeerd. Meer pagina's in de index van bijvoorbeeld Google betekent natuurlijk ook meer kans op bezoekers via die zoekmachine.

Zorg dus dat u gebruik maakt van een sitemap op uw website voor de zoekmachines!

Als uw site gebruik maakt van een  XML sitemap  dan kunt u zoekmachines wijzen op het bestaan van de sitemap in het robots.txt bestand. Dat doet u door de volgende code toe te voegen aan robots.txt:

Sitemap: http://www.naamvanhetdomein.nl/sitemap.xml

 

Bij Google is het mogelijk aan te geven waar uw sitemap staat en hoe deze heet.

Zorg er voordat u begint voor dat u de volgende sites heeft toegevoegd aan en geverifieerd in uw account voor de Webmasterhulpprogramma's van Google:

De site waarop de sitemap zich bevindt.

De site(s) waarvan de URL's in de sitemap worden vermeld.

•  Upload uw sitemap naar uw site.

•  Klik op de gewenste site in het dashboard voor de Webmasterhulpprogramma's.

•  Klik bij ' Siteconfiguratie ' op ' Sitemaps '.

•  Geef het pad waar uw sitemap staat op in het tekstvak (wanneer uw sitemap bijvoorbeeld op 'http://www.example.com/sitemap.xml' staat, typt u ' sitemap.xml ').

•  Klik op ' Sitemap verzenden '.

 

Voorbeeld van een deel van mijn sitemap.xml bestand:

<?xml version="1.0" encoding="UTF-8"?>

<urlset

xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"

xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9

http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd">

<url>

<loc>http://www.walmar.nl/</loc>

<lastmod>2010-01-29T18:48:32+00:00</lastmod>

</url>

<url>

<loc>http://www.walmar.nl/default.asp</loc>

<lastmod>2010-01-29T18:48:32+00:00</lastmod>

</url>

<url>

<loc>http://www.walmar.nl/links.htm</loc>

<lastmod>2010-01-29T18:48:32+00:00</lastmod>

</url>

<url>

<loc>http://www.walmar.nl/contact.htm</loc>

<lastmod>2010-01-29T18:48:32+00:00</lastmod>

</url>

</urlset>

 

Dit soort sitemaps zijn gratis en voor niets te maken via bijvoorbeeld: http://www.xml-sitemaps.nl/

 

•  De If-Modified-Since HTTP header

Zorg ervoor dat uw web server de If-Modified-Since HTTP header ondersteunt. Deze header zorgt ervoor dat uw web server bijvoorbeeld Google weet te melden of de inhoud van uw site veranderd is sinds deze voor het laatst bezocht werd. Het ondersteunen van deze header scheelt u bandbreedte en overhead.

 

Of uw web server deze header ondersteunt, is bijvoorbeeld vast te stellen via http://web-sniffer.net/

 

HTTP header van mijn web server:

 

Name

Value

Content-Length:

3688

Content-Type:

text/html

Content-Location:

http://www.walmar.nl/default.asp

Last-Modified:

Sat, 30 Jan 2010 14:48:23 GMT

Accept-Ranges:

bytes

ETag:

"2d9a046bba1ca1:1157"

Server:

Microsoft-IIS/6.0

X-Powered-By:

ASP.NET

Date:

Sat, 30 Jan 2010 19:59:45 GMT

Connection:

close

 

•  error404 pagina

Dit is de pagina die verschijnt als iemand de naam van een pagina intypt die niet op de webserver staat. Via de webserver kunnen we regelen dat er geen standaard pagina verschijnt:

 

 

Maar een zelf gecreëerde pagina met een doorverwijzing naar de homepage:

 

 

•  Content Management Systeem

Een belangrijke eis aan een CMS is dat deze pagina's creëert die goed indexbaar zijn voor webcrawlers.

  • Kan voor elke pagina een aparte titel worden aangegeven?
  • Kan dat automatisch gedaan worden via geprogrammeerde code?
  • Kunnen voor plaatjes Alternatives en Titles worden opgegeven?

•  Individuele pagina's

•  Javascript en CSS

Omdat de belangrijkste trefwoorden zoveel mogelijk in het begin van de pagina (dus zo dicht mogelijk bij de -tag) opgenomen dienen te worden en u de webcrawlers alleen met die zaken wilt voeren waar deze iets mee kunnen, is het handig er voor te zorgen dat stylesheets en javascript code in externe files (.css respectievelijk .js) worden opgeslagen en geïncludeerd worden in de desbetreffende pagina.

Voor JavaScript bijvoorbeeld:

 

<script src="/script/layers.js"></script>

 

Voor CSS bijvoorbeeld:

 

<link rel="stylesheet" href="/css/tabellen.css" type="text/css" media="all">

 

Dit maakt de tekst op de pagina die overblijft overzichtelijker en daarmee interessanter voor de webcrawler.

 

•  Javascript en menu's

Menu-opties die met behulp van Javascript gemaakt/gegenereerd zijn, zijn niet leesbaar voor de webcrawlers. Ze zijn dus ook niet in staat de links te volgen. Simpele test is hier: Javascript uitzetten in de browser en bekijken wat er nog werkt.

 

•  HTML: Do's

Als u effectieve pagina's wilt maken die zowel menselijk bezoekers als webcrawlers aanspreken, moet u zo veel mogelijk zien te halen uit elk element. Een manier is zo veel mogelijk de attributen ALT en TITLE te gebruiken.

 

Het ALT attribuut is ontworpen als alternatieve tekstbeschrijving voor plaatjes. ALT teksten worden getoond voor het plaatje wordt geladen in de meeste browsers. In tekst gebaseerde browsers als LYNX wordt alleen de ALT tekst gezien. En robots of webcrawlers zien pagina's zoals een tekst browser als LYNX dat doet.

 

Maak de teksten in ALT en TITLE niet langer dan – volgens diverse bronnen - 65 tekens omdat bepaalde browsers deze teksten op één regel tonen.

 

Afbeeldingen

  • Geef afbeeldingen een duidelijke naam en voeg Alt-tekst en Title-tekst toe.

<img id="logo" title="WalMar Home Page" alt="WalMar logo" src="images/walmar/walmar.png" height="100">

 

Hyperlinks

  • Gebruik belangrijke keywords als "anchor tekst" in hyperlinks
  • Voorzie hyperlinks van een Title

<a href="tips.htm" title="tips en trucs voor diverse software">Tips &amp; trucs</a>

  • Test op correcte hyperlinks

Testen kan bijvoorbeeld met Xenu . Dit is een SEO tool die bedoeld is om uw website te controleren op kapotte links. Het programma doet dit door alle links op je website te volgen en bestanden op je website aan te vragen. Hiermee simuleert Xenu in zekere zin het gedrag van een webcrawler:

http://home.snafu.de/tilman/xenulink.html

 

Titel voor elke pagina

  • Geef elke pagina een aparte, passende, titel met daarin de de zoektermen waarop u gevonden wilt worden; met behulp van webtalen is dat per gezocht resultaat te variëren!

<title>WalMar Database Consultancy: kernactiviteiten</title>

 

Gebruik koppen voor belangrijke content en trefwoorden

  • Bouw content op met header tags (H1, H2 etc.)
  • Gebruik <B> en/of <STRONG> tags om woorden te benadrukken

Geef pagina's herkenbare namen

  • Bouw de URL's van pagina's correct op dus niet met cijfers en/of codes maar met herkenbare termen
  • Zorg dat de URL's de keywords waar u op gevonden wilt worden bevatten

Meta tag description

  • Geef elke pagina een goede description

<META name=description content="WalMar Database Consultancy">

 

De webcrawler van Google bijvoorbeeld gebruikt de meta description wel degelijk in de zoekresultaten. Als Google te weinig relevante content op een webpagina vindt na een zoekopdracht, plaatst Google de meta description in de zoekresultaten. Daarom is het nog steeds belangrijk om de meta description per pagina in te vullen met een volledige, unieke en wervende beschrijving.

 

Meta tag keywords

Hier circuleren heel verschillende meningen over. Google zou deze keywords geheel negeren; andere webcrawlers niet. Misschien moet hier het credo gelden: baat het niet, dan schaadt het niet!

 

Meta tag googlebot

Soms staat er bij Google een oude meta tag, namelijk de description tag. Ondanks dat u iedere keer uw site aanpast, blijft deze hetzelfde in de Google resultatenlijst. De meta description tag is wel correct in zoekmachines opgenomen bij bijvoorbeld Yahoo en bij Bing maar dus niet bij Google.

Dit probleem komt voort uit uw vermelding bij het Open Directory Project DMOZ. De website, met de oude meta description, heeft een beschrijving en een link in de ODP listings (Open Directory Projec). De Googlebot heeft bij het spideren van uw site deze beschrijving overgenomen.

<meta name="googlebot" content="noodp">

Hiermee geeft u aan dat de Googlebot niet de beschrijving moet overnemen van ODP, maar van die van uw website.

 

Meta tag robots

Als u wilt dat de spider van de zoekmachine uw hele website doorloopt ( meta tags indexing ) dan kunt u bijvoorbeeld de volgende metatag in de broncode van uw website plaatsen:

<meta name="robots" content="index, follow">

 

In het onderstaande voorbeeld kijkt de spider niet alleen naar de eerste pagina maar ook naar de achterliggende pagina's van de website:

 

<meta name="robots" content="all">

 

index = deze pagina indexeren

noindex = deze pagina niet indexeren

follow = de links die op deze pagina staan volgen

nofollow = de links die op deze pagina staan niet volgen.

 

De spider mag wel de tekst op een pagina maar niet de plaatjes indexeren:

 

<meta name="robots" content="noimageindex">

 

De spider mag de tekst, de plaatjes maar niet het pad naar de plaatjes indexeren

 

<meta name="robots" content="noimageclick">

 

Meer informatie over metatags vindt u op www.metatags.nl .

 

•  HTML: Don'ts

  • Maak geen gebruik van (I-)Frames
  • Belangrijke onderdelen van de site niet in Flash opmaken

•  Test met een tekst browser

Test uw pagina's met een tekst browser als LYNX. Dat is namelijk hoe web crawlers uw pagina's waarnemen.

 

•  Homepagina

Plaats op de homepagina een meta tag die er zo uit ziet:

 

<meta name="google-site-verification" content="qxao0krZGE9n7s7fO4BR-ky8" />

 

Van Google: een site toevoegen en verifiëren:

  • Meld u aan bij de Webmasterhulpprogramma's van Google met uw Google-account.
  • Klik op 'Een site toevoegen' en typ de URL van de site die u wilt toevoegen. Zorg ervoor dat u de gehele URL typt, bijvoorbeeld http://www.example.com/.
  • Klik op 'Doorgaan'. De pagina 'Siteverificatie' wordt weergegeven.
  • (Optioneel) Typ in het vak 'Naam' een naam voor uw site (bijvoorbeeld 'Mijn blog').
  • Selecteer de gewenste verificatiemethode.
  • Metatag : u wordt gevraagd een metatag met een unieke waarde toe te voegen aan de startpagina van uw site. Dit is de eenvoudigste oplossing als het bewerken van de HTML van uw startpagina gemakkelijker is dan het uploaden van nieuwe bestanden. Daarnaast kunt u op deze manier eenvoudig sites verifiëren die u heeft gemaakt met Google Sites .
  • HTML-bestand : u wordt gevraagd een bestand te maken met een bepaalde naam en dit te uploaden naar een bepaalde directory op uw webserver. Het bestand mag leeg zijn. We zijn alleen geïnteresseerd in de locatie van het bestand, niet in de inhoud.